1.Soft sensor for predicting indoor PM2.5 concentration in subway with adaptive boosting deep learning model
提高预测模型的精度和稳健性,可以从特征降维(PCA,核方法与PLS结合)和模型增强(随机森林(RF)、极端梯度提升(XGBoost)和自适应增强(AdaBoost))两个方面进行研究
收集地铁IAQ数据——>使用最大信息系数(MIC)去除与PM2.5浓度无关的变量——>采用KPCA技术对数据特征进行降维——>构建LSTM弱学习器,并通过AdaBoost算法进行集成,得到AdaBoost-LSTM模型
MIC是一种非参数统计方法,用于衡量两个变量之间的相关性,与皮尔逊相关系数等传统方法相比,MIC能够处理更复杂的非线性关系,具有更好的稳健性。
KPCA是PCA的扩展,通过引入核函数,将原始数据映射到高维特征空间,并在该空间中进行PCA操作。
-
Boosting 概念
- Boosting 是一种集成学习方法,旨在通过结合多个“弱学习器”来构建一个强学习器。
- 弱学习器:单独性能较差的模型,可能只稍微好于随机猜测。
- 强学习器:通过多次迭代和样本加权,将多个弱学习器组合成一个高精度的预测模型。
-
AdaBoost 算法原理
- 核心思想:让每个弱学习器专注于上一个学习器错分的样本,逐步提高整体模型的性能。
- 权重初始化:在训练开始时,所有样本的权重是均匀分布的。
- 权重更新:在每次迭代后,根据预测误差,错分的样本权重增加,正确分类的样本权重减小。
- 归一化:为了保持权重的总和为1,每次权重调整后都要进行归一化。
- 终止条件:达到预设的迭代次数或误差率满足标准时停止训练。
2.Semi-supervised LSTM with historical feature fusion attention for temporal sequence dynamic modeling in industrial processes
利用工业过程中采样频率不规则的未标记数据和标记数据
对于标记数据,计算它们的隐藏层状态和预测值。然后,将标记样本的标记值和预测值输入到损失函数中计算它们的损失值。而对于未标记数据,只计算它们的隐藏层状态,没有预测输出值。未标记数据在网络训练中起到无监督预训练的作用,标记数据在网络训练中起到有监督微调的作用。由于当前时间步的隐藏层输出会传递到下一时间步的隐藏层,因此标记数据对应的单元结构参数与未标记数据对应的单元结构参数是相关的。
将历史时间加权的隐藏特征向量与当前时间的隐藏特征向量进行融合通过自注意力权重学习,找到融合特征向量中每个元素的权重分布,从而获取与历史重要特征相关的当前时间特征信息,并进行质量预测。当前时刻的输入向量和历史信息分别得到三个门控控制器的输出。然后,从得到的三个门控控制器输出中计算单元状态和隐藏层状态。接下来,计算加权的历史时间隐藏特征向量 ̃Ht−1 与当前时间隐藏特征向量 Ht 之间的相关性。通过这种重要历史记忆与当前特征之间的关系,找到加权历史特征向量中每个元素与当前特征向量之间的相关性。根据获得的相关性,选择与重要历史记忆相关的特征并进行传递,从而增强长期记忆能力