问题一:根据附件1和附件2,对数据进行分析和处理,筛选出与 PM2.5 浓度变化有关的因素,并说明筛选出的因素对 PM2.5 浓度影响的程度。
思路提要:首先需要对给出的数据进行基本的数据处理(数据读取与查看、空缺值填补、异常值剔除等),接着需要筛选与PM2.5浓度变化有关的因素,该题实质是特征工程(筛选),常用的方法有方差过滤、卡方检验、相关系数、rf随机森林等方法,或者是基于机器学习训练的递归特征消除方法。一般会选择两至三种方法结合来进行特征筛选。
问题二:自行划分训练集和测试集,根据附件1和附件2,基于问题一构建PM2.5浓度多步预测模型,分别使用均方根误差(RMSE)对 3 步、5 步、7 步、12步预测效果进行评估,其结果请用表1格式在正文中具体给出,并对测试集及其预测结果进行可视化。同时,用该模型预测附件3所给定时间PM2.5 浓度,其结果请用表2格式在正文中具体给出
思路提要:根据第一问的提示,我们需要建立一个多元预测的时间序列机器学习模型,常用的就是LSTM多元多步预测模型。按照题意进行3/5/7/12步预测,并输出预测误差rmse即可。
问题三:构建 AQI 多步预测模型,使用均方根误差(RMSE)对建模效果进行评估,并对测试集及其预测结果进行可视化。同时,用该模型预测附件 3 所给定时间的 AQI,并给出每天空气质量的预警等级,其结果请用表 3 和表 4 格式在正文中具体给出。
思路提要<