软测量论文精读

1.Soft sensor for predicting indoor PM2.5 concentration in subway with adaptive boosting deep learning model

提高预测模型的精度和稳健性,可以从特征降维(PCA,核方法与PLS结合)和模型增强(随机森林(RF)、极端梯度提升(XGBoost)和自适应增强(AdaBoost))两个方面进行研究

收集地铁IAQ数据——>使用最大信息系数(MIC)去除与PM2.5浓度无关的变量——>采用KPCA技术对数据特征进行降维——>构建LSTM弱学习器,并通过AdaBoost算法进行集成,得到AdaBoost-LSTM模型

MIC是一种非参数统计方法,用于衡量两个变量之间的相关性,与皮尔逊相关系数等传统方法相比,MIC能够处理更复杂的非线性关系,具有更好的稳健性。

KPCA是PCA的扩展,通过引入核函数,将原始数据映射到高维特征空间,并在该空间中进行PCA操作。

  • Boosting 概念

    • Boosting 是一种集成学习方法,旨在通过结合多个“弱学习器”来构建一个强学习器。
    • 弱学习器:单独性能较差的模型,可能只稍微好于随机猜测。
    • 强学习器:通过多次迭代和样本加权,将多个弱学习器组合成一个高精度的预测模型。
  • AdaBoost 算法原理

    • 核心思想:让每个弱学习器专注于上一个学习器错分的样本,逐步提高整体模型的性能。
    • 权重初始化:在训练开始时,所有样本的权重是均匀分布的。
    • 权重更新:在每次迭代后,根据预测误差,错分的样本权重增加,正确分类的样本权重减小。
    • 归一化:为了保持权重的总和为1,每次权重调整后都要进行归一化。
    • 终止条件:达到预设的迭代次数或误差率满足标准时停止训练。

2.Semi-supervised LSTM with historical feature fusion attention for temporal sequence dynamic modeling in industrial processes

利用工业过程中采样频率不规则的未标记数据和标记数据

对于标记数据,计算它们的隐藏层状态和预测值。然后,将标记样本的标记值和预测值输入到损失函数中计算它们的损失值。而对于未标记数据,只计算它们的隐藏层状态,没有预测输出值。未标记数据在网络训练中起到无监督预训练的作用,标记数据在网络训练中起到有监督微调的作用。由于当前时间步的隐藏层输出会传递到下一时间步的隐藏层,因此标记数据对应的单元结构参数与未标记数据对应的单元结构参数是相关的。

将历史时间加权的隐藏特征向量与当前时间的隐藏特征向量进行融合通过自注意力权重学习,找到融合特征向量中每个元素的权重分布,从而获取与历史重要特征相关的当前时间特征信息,并进行质量预测。当前时刻的输入向量和历史信息分别得到三个门控控制器的输出。然后,从得到的三个门控控制器输出中计算单元状态和隐藏层状态。接下来,计算加权的历史时间隐藏特征向量 ̃Ht−1 与当前时间隐藏特征向量 Ht 之间的相关性。通过这种重要历史记忆与当前特征之间的关系,找到加权历史特征向量中每个元素与当前特征向量之间的相关性。根据获得的相关性,选择与重要历史记忆相关的特征并进行传递,从而增强长期记忆能力

### 论文精读与实验复现的方法 #### 方法概述 论文精读和实验复现是深入理解研究工作的重要手段。在IT领域,这种方法不仅有助于掌握技术细节,还能培养批判性思维能力以及实际动手能力。以下是针对论文精读和实验复现的具体方法。 --- #### 一、论文精读的核心步骤 1. **快速浏览全文** 阅读摘要、引言和结论部分,了解论文的研究背景、主要贡献和技术框架[^1]。这一步的目标是形成对整篇论文的大致印象。 2. **逐节细读** 对于任务规划模块或其他核心章节,仔细阅读其理论推导、算法设计和实验设置等内容。注意作者提到的局限性和未来工作的方向[^1]。如果发现某些方面未被充分讨论(如参数影响或任务依赖关系),可以记录下来作为后续探索的方向。 3. **绘制结构图** 使用流程图或者概念地图的方式整理出论文技术路线及其组成部分之间的逻辑联系[^2]。这种可视化工具能够帮助记忆复杂的信息流,并便于与其他相关工作对比分析。 4. **质疑与思考** 提问自己几个关键问题:为什么选择了特定的方法?是否存在其他可能更优的选择?数据集选取是否合理?评价指标是否有偏倚等问题[^3]? --- #### 二、实验复现的关键环节 1. **环境搭建** 根据论文描述准备所需的软件库版本号、硬件配置需求等基础条件。很多时候官方开源代码附带详细的安装指南可以帮助加速此阶段进程[^2]。 2. **重现基线结果** 尝试按照文中提供的超参设定运行原始模型得到接近原作报告数值的表现水平。这是验证个人实现正确性的第一步也是最重要的一步[^1]。 3. **修改与优化** 基于自己的理解和前期提出的疑问尝试调整网络架构、损失函数定义甚至整个训练策略等方面的内容看能否进一步提升性能表现或是解决之前指出的一些不足之处例如增加对于不同类型输入适应性强弱测试等等[^3]。 4. **撰写总结文档** 不仅要记录下成功再现的结果也要包括失败案例的原因剖析这样既有利于自我反思也方便日后查阅参考资料时迅速定位重要知识点[^2]. --- #### 示例代码片段展示如何加载预训练权重文件(以PyTorch为例) ```python import torch def load_pretrained_weights(model, path_to_checkpoint): checkpoint = torch.load(path_to_checkpoint) model.load_state_dict(checkpoint['model']) epoch = checkpoint.get('epoch', None) loss = checkpoint.get('loss', None) return model, epoch, loss ``` 上述代码展示了怎样从磁盘上的checkpoint恢复先前保存的状态以便继续训练或者是直接用于推理模式下的预测操作[^2]. ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值