活动介绍

#encoding=utf8 import numpy as np def mse_score(y_predict,y_test): ''' input:y_predict(ndarray):预测值 y_test(ndarray):真实值 ouput:mse(float):mse损失函数值 ''' #********* Begin *********# mse = np.mean(y_predict - y_test) #或者带上平方也是可以的 #mse = np.mean((y_predict - y_test)**2) #********* End *********# return mse class LinearRegression : def __init__(self): '''初始化线性回归模型''' self.theta = None def fit_normal(self,train_data,train_label): ''' input:train_data(ndarray):训练样本 train_label(ndarray):训练标签 ''' #********* Begin *********#以下均以矩阵的形式表示 x = np.hstack([np.ones((len(train_data),1)),train_data])#将训练数组改为一行数据,即X=(1,x1​,...,xn​) self.theta =np.linalg.inv(x.T.dot(x)).dot(x.T).dot(train_label)#公式如下:由损失函数得到的最优解heta=(X^T * X )^(-1) * x ^T *Y #********* End *********# return self.theta def predict(self,test_data): ''' input:test_data(ndarray):测试样本 ''' #********* Begin *********# x = np.hstack([np.ones((len(test_data),1)),test_data]) return x.dot(self.theta)# 预测函数Y = heta * X #********* End *********#

时间: 2025-05-05 18:48:25 浏览: 57
<< 您的代码实现了使用正规方程法(Normal Equation)进行线性回归,并定义了MSE评分函数。但存在几个潜在的问题或改进空间: ### 1. **`mse_score` 函数中的错误** 在 `mse_score` 中计算 MSE 的方式存在问题: ```python mse = np.mean(y_predict - y_test) ``` 这里直接对差值取平均,而不是先求平方再取平均,导致结果不正确。 正确的方式应为: ```python mse = np.mean((y_predict - y_test) ** 2) ``` --- ### 2. **`fit_normal` 方法的数值稳定性** 使用 `(X^T * X)^(-1)` 可能会导致数值不稳定的情况,特别是在特征之间高度共线时。建议改用更稳定的替代方法,例如 NumPy 提供的 `pinv` 或者 `lstsq` 来代替矩阵逆运算。 改进后的实现可以是: ```python self.theta = np.linalg.pinv(x.T.dot(x)).dot(x.T).dot(train_label) ``` 或者更高效地: ```python self.theta = np.linalg.lstsq(x, train_label, rcond=None)[0] ``` --- ### 完整修正版代码 ```python # encoding=utf8 import numpy as np def mse_score(y_predict, y_test): ''' 计算均方误差 (Mean Squared Error) input: y_predict(ndarray): 预测值 y_test(ndarray): 真实值 output: mse(float): 均方误差值 ''' # 均方误差公式:(预测值 - 实际值) 平方后取平均 mse = np.mean((y_predict - y_test) ** 2) return mse class LinearRegression: def __init__(self): ''' 初始化线性回归模型 ''' self.theta = None # 模型参数 θ def fit_normal(self, train_data, train_label): ''' 根据训练集拟合线性回归模型(正规方程法) input: train_data(ndarray): 训练样本 train_label(ndarray): 训练标签 return: theta(ndarray): 学到的模型参数 ''' # 添加偏置项列 [1, x1, ..., xn] -> [1, x1, ..., xn]^T x = np.hstack([np.ones((len(train_data), 1)), train_data]) # 解正规方程:θ = (X^T * X)^(-1) * X^T * Y try: self.theta = np.linalg.inv(x.T.dot(x)).dot(x.T).dot(train_label) except np.linalg.LinAlgError: print("Matrix is singular or nearly singular, using pseudo-inverse instead.") self.theta = np.linalg.pinv(x.T.dot(x)).dot(x.T).dot(train_label) return self.theta def predict(self, test_data): ''' 对新数据进行预测 input: test_data(ndarray): 测试样本 output: predictions(ndarray): 预测结果 ''' # 同样添加偏置项列 [1, x1, ..., xn] x = np.hstack([np.ones((len(test_data), 1)), test_data]) # 返回预测值 Y = X * θ return x.dot(self.theta) # 示例运行代码 if __name__ == "__main__": # 构造简单示例数据 X_train = np.array([[1], [2], [3]]) y_train = np.array([2, 4, 6]) model = LinearRegression() model.fit_normal(X_train, y_train) X_test = np.array([[4], [5]]) y_pred = model.predict(X_test) print(f"Learned parameters: {model.theta}") print(f"Predictions on test data: {y_pred}") ``` --- ### 给出解释 #### 问题修复与优化点分析: 1. **关于 `mse_score`:** 原始实现中没有对差值做平方处理,仅计算的是 "平均偏差" 而非正确的均方误差 (MSE),这可能导致负数被抵消的现象,从而使结果失真。 2. **正则化方程的数值稳定性和效率:** 直接调用 `np.linalg.inv()` 不够健壮,在某些情况下可能会出现奇异阵异常(Singular Matrix)。我们推荐使用伪逆 (`pinv`) 或最小二乘解 (`lstsq`) 替代之。 3. **代码结构清晰度提升:** 将每个步骤都封装得更加模块化、便于调试以及后续扩展。比如单独写出了加偏置的方法等。 --- ###
阅读全文

相关推荐

import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.metrics import mean_squared_error, r2_score import numpy as np import tensorflow as tf from tensorflow.keras import Sequential from tensorflow.keras.layers import Conv1D, MaxPooling1D, Flatten, Dense, Dropout # 加载数据 df = pd.read_excel('../microalgae/集胞藻-Cd.xlsx') df.columns = df.columns.str.strip() # 定义特征列和目标列 features = ['T','Ph','Biomass','Time','Initial'] target_column = 'Removel' # 数据标准化 scaler = StandardScaler() X_scaled = scaler.fit_transform(df[features]) y = df[target_column].values # 调整数据形状以适应CNN输入要求(样本数, 时间步长, 特征数) X_reshaped = X_scaled.reshape(-1, 1, len(features)) # 分割数据集 X_train, X_test, y_train, y_test = train_test_split(X_reshaped, y, test_size=0.3, random_state=42) # 构建CNN模型 model = Sequential([ Conv1D(filters=64, kernel_size=1, activation='relu', input_shape=(1, len(features))), MaxPooling1D(pool_size=1), Flatten(), Dense(128, activation='relu'), Dropout(0.3), Dense(64, activation='relu'), Dense(1) ]) # 编译模型 model.compile(optimizer='adam', loss='mse', metrics=['mae']) # 训练模型 history = model.fit(X_train, y_train, epochs=150, batch_size=16, validation_split=0.2, verbose=1) # 预测结果 y_train_pred = model.predict(X_train).flatten() y_test_pred = model.predict(X_test).flatten() # 计算评估指标 mse_train = mean_squared_error(y_train, y_train_pred) rmse_train = np.sqrt(mse_train) r2_train = r2_score(y_train, y_train_pred) mse_test = mean_squared_error(y_test, y_test_pred) rmse_test = np.sqrt(mse_test) r2_test = r2_score(y_test, y_test_pred) # 打印结果 print(f"训练集 MSE: {mse_train:.4f}") print(f"训练集 RMSE: {rmse_train:.4f}") print(f"训练集 R²: {r2_train:.4f}") print(f"测试集 MSE: {mse_test:.4f}") print(f"测试集 RMSE: {rmse_test:.4f}") print(f"测试集 R²: {r2_test:.4f}") # 保存结果 results_df = pd.DataFrame({ '数据集': ['训练集', '测试集'], 'MSE': [mse_train, mse_test], 'RMSE': [rmse_train, rmse_test], 'R²': [r2_train, r2_test] }) results_df.to_excel('CNN结果/集胞藻-Cd模型评估结果.xlsx', index=False)上述代码的测试集结果不好怎么优化

import numpy as np import pandas as pd from sklearn.model_selection import train_test_split, GridSearchCV from sklearn.preprocessing import MinMaxScaler, StandardScaler from sklearn.svm import SVR from sklearn.metrics import mean_squared_error, r2_score df = pd.read_excel('集胞藻-Cd.xlsx') # 加载数据 df.columns = df.columns.str.strip() # 清理列名 # 定义特征和目标变量 features =['T','Ph','Biomass','Time','Initial'] target_column = 'Removel' # 提取特征和目标数据 X = df[features] y = df[target_column] # 示例代码,直接使用 sklearn 的数据集 # from sklearn.datasets import load_boston # data = load_boston() # X = data.data # y = data.target # 分割数据为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 特征归一化 scaler_X = MinMaxScaler() X_train_scaled = scaler_X.fit_transform(X_train) X_test_scaled = scaler_X.transform(X_test) # 目标归一化(修改后) scaler_y = MinMaxScaler() y_train_scaled = scaler_y.fit_transform(y_train.values.reshape(-1, 1)).flatten() y_test_scaled = scaler_y.transform(y_test.values.reshape(-1, 1)).flatten() # # 定义 SVR 参数网格 # param_grid = { # 'kernel': ['linear', 'rbf', 'poly'], # 'C': [1e0, 1e1, 1e2], # 'gamma': [0.1, 0.01, 0.001], # 'epsilon': [0.1, 0.2, 0.3] # } # # # 创建 SVR 模型 # svr = SVR() # 优化后的参数网格示例 param_grid = { 'kernel': ['rbf', 'poly'], 'C': np.logspace(-2, 3, 6), # [0.01, 0.1, 1, 10, 100, 1000] 'gamma': np.logspace(-4, 0, 5), # [0.0001, 0.001, 0.01, 0.1, 1] 'epsilon': [0.05, 0.1, 0.2], 'degree': [2, 3] } # 添加早停机制 svr = SVR(max_iter=10000, tol=1e-4) # 使用网格搜索进行参数优化 grid_search = GridSearchCV(svr, param_grid, cv=5, scoring='neg_mean_squared_error', verbose=1) grid_search.fit(X_train_scaled, y_train_scaled) # 获取最佳参数和最优模型 best_params = grid_search.best_params_ best_svr = grid_search.best_estimator_ # 预测 y_train_pred = best_svr.predict(X_train_scaled) y_test_pred = best_svr.predict(X_test_scaled) # 反归一化预测结果(如果目标进行了归一化) y_train_pred_original = scaler_y.inverse_transform(y_train_pred.reshape(-1, 1)).flatten() y_test_pred_original = scaler_y.inverse_transform(y_test_pred.reshape(-1, 1)).flatten() # 计算性能指标 mse_train = mean_squared_error(y_train, y_train_pred_original) rmse_train = np.sqrt(mse_train) r2_train = r2_score(y_train, y_train_pred_original) mse_test = mean_squared_error(y_test, y_test_pred_original) rmse_test = np.sqrt(mse_test) r2_test = r2_score(y_test, y_test_pred_original) print(f"最佳参数: {best_params}") print(f"训练集 MSE: {mse_train}, RMSE: {rmse_train}, R^2: {r2_train}") print(f"测试集 MSE: {mse_test}, RMSE: {rmse_test}, R^2: {r2_test}") # 将结果保存到DataFrame results_df = pd.DataFrame({ '数据集': ['训练集', '测试集'], 'MSE': [mse_train, mse_test], 'RMSE': [rmse_train, rmse_test], 'R²': [r2_train, r2_test] }) # 保存到Excel文件(推荐使用) results_df.to_excel('支持向量机结果/集胞藻-Cd模型评估结果.xlsx', index=False)根据上述代码生成一个遍历数据文件的代码,分别输出结果,并再最后输出一个汇总结果的文件

最新推荐

recommend-type

双向CLLLC谐振闭环仿真设计与软开关技术实现:高压侧与低压侧波形优化及软开关性能研究 · 谐振波形优化

内容概要:本文介绍了双向CLLLC谐振技术及其在电力电子领域的应用,重点讨论了软开关和谐振波形的优化设计。文中首先简述了CLLLC谐振技术的基本原理,然后详细描述了在一个仿真环境下构建的双向CLLLC谐振系统,该系统能够在广泛的电压范围内(高压侧380-430V,低压侧40-54V)实现过谐振、欠谐振及满载轻载情况下的软开关。此外,文章展示了理想的谐振波形,并强调了软开关对减少开关损耗和电磁干扰的重要性。最后,文章提到可以通过参考相关文献深入了解系统的电路设计、控制策略和参数优化。 适合人群:从事电力电子设计的研究人员和技术工程师。 使用场景及目标:适用于需要理解和掌握双向CLLLC谐振技术及其仿真设计的专业人士,旨在帮助他们提升电源转换和能量回收系统的性能。 其他说明:文中提供的代码片段和图示均为假设的仿真环境,实际应用时需根据具体情况调整。建议参考相关文献获取更详尽的设计细节。
recommend-type

操作系统原理-PPT(1).ppt

操作系统原理-PPT(1).ppt
recommend-type

计算机网络期末考试试卷B-及答案试卷教案(1).doc

计算机网络期末考试试卷B-及答案试卷教案(1).doc
recommend-type

基于STM32的USB简易鼠标[最终版](1).pdf

基于STM32的USB简易鼠标[最终版](1).pdf
recommend-type

软件开发项目的风险管理(1).doc

软件开发项目的风险管理(1).doc
recommend-type

精选Java案例开发技巧集锦

从提供的文件信息中,我们可以看出,这是一份关于Java案例开发的集合。虽然没有具体的文件名称列表内容,但根据标题和描述,我们可以推断出这是一份包含了多个Java编程案例的开发集锦。下面我将详细说明与Java案例开发相关的一些知识点。 首先,Java案例开发涉及的知识点相当广泛,它不仅包括了Java语言的基础知识,还包括了面向对象编程思想、数据结构、算法、软件工程原理、设计模式以及特定的开发工具和环境等。 ### Java基础知识 - **Java语言特性**:Java是一种面向对象、解释执行、健壮性、安全性、平台无关性的高级编程语言。 - **数据类型**:Java中的数据类型包括基本数据类型(int、short、long、byte、float、double、boolean、char)和引用数据类型(类、接口、数组)。 - **控制结构**:包括if、else、switch、for、while、do-while等条件和循环控制结构。 - **数组和字符串**:Java数组的定义、初始化和多维数组的使用;字符串的创建、处理和String类的常用方法。 - **异常处理**:try、catch、finally以及throw和throws的使用,用以处理程序中的异常情况。 - **类和对象**:类的定义、对象的创建和使用,以及对象之间的交互。 - **继承和多态**:通过extends关键字实现类的继承,以及通过抽象类和接口实现多态。 ### 面向对象编程 - **封装、继承、多态**:是面向对象编程(OOP)的三大特征,也是Java编程中实现代码复用和模块化的主要手段。 - **抽象类和接口**:抽象类和接口的定义和使用,以及它们在实现多态中的不同应用场景。 ### Java高级特性 - **集合框架**:List、Set、Map等集合类的使用,以及迭代器和比较器的使用。 - **泛型编程**:泛型类、接口和方法的定义和使用,以及类型擦除和通配符的应用。 - **多线程和并发**:创建和管理线程的方法,synchronized和volatile关键字的使用,以及并发包中的类如Executor和ConcurrentMap的应用。 - **I/O流**:文件I/O、字节流、字符流、缓冲流、对象序列化的使用和原理。 - **网络编程**:基于Socket编程,使用java.net包下的类进行网络通信。 - **Java内存模型**:理解堆、栈、方法区等内存区域的作用以及垃圾回收机制。 ### Java开发工具和环境 - **集成开发环境(IDE)**:如Eclipse、IntelliJ IDEA等,它们提供了代码编辑、编译、调试等功能。 - **构建工具**:如Maven和Gradle,它们用于项目构建、依赖管理以及自动化构建过程。 - **版本控制工具**:如Git和SVN,用于代码的版本控制和团队协作。 ### 设计模式和软件工程原理 - **设计模式**:如单例、工厂、策略、观察者、装饰者等设计模式,在Java开发中如何应用这些模式来提高代码的可维护性和可扩展性。 - **软件工程原理**:包括软件开发流程、项目管理、代码审查、单元测试等。 ### 实际案例开发 - **项目结构和构建**:了解如何组织Java项目文件,合理使用包和模块化结构。 - **需求分析和设计**:明确项目需求,进行系统设计,如数据库设计、系统架构设计等。 - **代码编写和实现**:根据设计编写符合要求的代码,实现系统的各个模块功能。 - **测试和维护**:进行单元测试、集成测试,确保代码质量,对项目进行维护和升级。 ### 其他相关知识点 - **Java虚拟机(JVM)**:了解JVM的基本工作原理,包括类加载机制、内存管理、垃圾回收算法等。 - **常用Java框架**:比如Spring、Hibernate、MyBatis等,在实际开发中常常与Java基础结合使用,提高开发效率。 以上知识点可以作为学习Java案例开发的基础框架。在实际的开发实践中,开发者需要结合具体的项目需求,对这些知识点进行灵活运用。通过反复的案例实践,可以加深对Java编程的理解,并逐步提升开发技能。这份集锦可能包含的案例可能涉及上述知识点的具体应用,能够帮助学习者更好地理解理论与实践的结合,从而快速提升个人的Java开发能力。
recommend-type

【VASP报错深度解析】:5大技巧识别并永久解决离子距离太近警告

# 1. VASP软件简介及离子距离太近问题概述 ## 1.1 VASP软件简介 **VASP(Vienna Ab initio Simulation Package)** 是一款广泛应用于计算材料科学的软件,它基于密度泛函理论(DFT)计算固体、表面和分子的电子结构和性质。
recommend-type

npm error A complete log of this run can be found in: D:\Program Files\nodejs\node_cache\_logs\2025-04-20T15_11_51_454Z-debug-0.log

<think>好的,我需要帮助用户找到npm的错误调试日志位置,并解决他们遇到的npm错误。首先,用户已经提供了一个具体的日志路径:'D:\Program Files\nodejs\node_cache\_logs\2025-04-20T15_11_51_454Z-debug-0.log',但看起来这个路径可能有问题,因为日期是2025年,这可能是一个示例或输入错误。我需要确认正确的日志路径生成方式。 根据npm的默认配置,日志文件通常位于npm的缓存目录下的_logs文件夹中。默认情况下,Windows系统中npm的缓存路径是%AppData%\npm-cache,而日志文件会以当前日期和
recommend-type

深入理解内存技术文档详解

由于文件内容无法查看,仅能根据文件的标题、描述、标签以及文件名称列表来构建相关知识点。以下是对“内存详解”这一主题的详细知识点梳理。 内存,作为计算机硬件的重要组成部分,负责临时存放CPU处理的数据和指令。理解内存的工作原理、类型、性能参数等对优化计算机系统性能至关重要。本知识点将从以下几个方面来详细介绍内存: 1. 内存基础概念 内存(Random Access Memory,RAM)是易失性存储器,这意味着一旦断电,存储在其中的数据将会丢失。内存允许计算机临时存储正在执行的程序和数据,以便CPU可以快速访问这些信息。 2. 内存类型 - 动态随机存取存储器(DRAM):目前最常见的RAM类型,用于大多数个人电脑和服务器。 - 静态随机存取存储器(SRAM):速度较快,通常用作CPU缓存。 - 同步动态随机存取存储器(SDRAM):在时钟信号的同步下工作的DRAM。 - 双倍数据速率同步动态随机存取存储器(DDR SDRAM):在时钟周期的上升沿和下降沿传输数据,大幅提升了内存的传输速率。 3. 内存组成结构 - 存储单元:由存储位构成的最小数据存储单位。 - 地址总线:用于选择内存中的存储单元。 - 数据总线:用于传输数据。 - 控制总线:用于传输控制信号。 4. 内存性能参数 - 存储容量:通常用MB(兆字节)或GB(吉字节)表示,指的是内存能够存储多少数据。 - 内存时序:指的是内存从接受到请求到开始读取数据之间的时间间隔。 - 内存频率:通常以MHz或GHz为单位,是内存传输数据的速度。 - 内存带宽:数据传输速率,通常以字节/秒为单位,直接关联到内存频率和数据位宽。 5. 内存工作原理 内存基于电容器和晶体管的工作原理,电容器存储电荷来表示1或0的状态,晶体管则用于读取或写入数据。为了保持数据不丢失,动态内存需要定期刷新。 6. 内存插槽与安装 - 计算机主板上有专用的内存插槽,常见的有DDR2、DDR3、DDR4和DDR5等不同类型。 - 安装内存时需确保兼容性,并按照正确的方向插入内存条,避免物理损坏。 7. 内存测试与优化 - 测试:可以使用如MemTest86等工具测试内存的稳定性和故障。 - 优化:通过超频来提高内存频率,但必须确保稳定性,否则会导致数据损坏或系统崩溃。 8. 内存兼容性问题 不同内存条可能由于制造商、工作频率、时序、电压等参数的不匹配而产生兼容性问题。在升级或更换内存时,必须检查其与主板和现有系统的兼容性。 9. 内存条的常见品牌与型号 诸如金士顿(Kingston)、海盗船(Corsair)、三星(Samsung)和芝奇(G.Skill)等知名品牌提供多种型号的内存条,针对不同需求的用户。 由于“内存详解.doc”是文件标题指定的文件内容,我们可以预期在该文档中将详细涵盖以上知识点,并有可能包含更多的实践案例、故障排查方法以及内存技术的最新发展等高级内容。在实际工作中,理解并应用这些内存相关的知识点对于提高计算机性能、解决计算机故障有着不可估量的价值。
recommend-type

【机械特性分析进阶秘籍】:频域与时域对比的全面研究

# 1. 机械特性分析的频域与时域概述 ## 1.1 频域与时域分析的基本概念 机械特性分析是通