🧠 问题1:数据预处理与基础统计分析
💡 目标:
对三类疾病的数据集进行清洗、统计分析和可视化,识别出影响发病率的关键因素。
✅ 解题步骤:
-
数据清洗
-
缺失值处理(如bmi、smoking_status的“未知”等)
-
异常值检测(如负数或极端离群值)
-
类型转换(将类别变量转为数值变量或哑变量)
-
-
数据可视化与统计描述
-
用条形图、箱型图、分布图展示特征分布
-
描述统计分析:均值、中位数、标准差等
-
分组统计分析(如中风患者 vs 非中风患者)
-
-
相关性分析
-
计算各特征与发病变量(stroke/heart_disease等)之间的皮尔森/卡方相关性
-
使用热力图展示变量之间的相关性
-
-
初步结论
-
列出与每类疾病显著相关的变量(例如高血压与中风强相关)
-
🔮 问题2:构建不同疾病的预测模型
💡 目标:
建立三个疾病(中风、心脏病、肝硬化)的预测模型,并对模型准确性和鲁棒性进行分析。
✅ 解题步骤:
-
特征选择
-
利用前面统计分析中发现的重要特征
-
或使用Lasso回归、随机森林等方法进行特征选择
-
-
模型构建(每种疾病分别建模)
-
常见模型:逻辑回归、决策树、随机森林、XGBoost、神经网络等
-
分类问题:是否患病为0或1
-
-
模型评估
-
使用准确率、召回率、F1-score、AUC等指标评估
-
交叉验证:如K折交叉验证评估泛化能力
-
混淆矩阵可视化
-
-
灵敏度分析与改进
-
改变输入变量查看模型敏感度
-
尝试特征组合、新的算法等手段优化模型
-
🔗 问题3:多疾病关联与综合风险评估
💡 目标:
分析三种疾病之间的共病情况,构建同时患有两种或三种疾病的概率预测模型。
✅ 解题步骤:
-
三类数据整合
-
尝试构建统一患者 ID 的数据集(如果原数据中没有匹配 ID,可模拟合成数据结构)
-
或建立统计关联模型(例如两个模型预测结果之间的相关性)
-
-
共病建模
-
构建一个组合分类模型(输出类别为:只患一种病、两种病、三种病)
-
可使用多标签分类方法,如多输出逻辑回归、MLP或二元多分类模型
-
-
风险评分系统
-
为每个患者打分,综合考虑其患病概率
-
使用权重加权、逻辑回归或机器学习方法评估“健康风险等级”
-
-
关联因素挖掘
-
通过特征交互分析(如高血压+高血糖与中风+心脏病关系)
-
使用统计方法分析共病率与特征的关系
-
📝 问题4:提出预防建议和措施(写给WHO的信)
💡 目标:
将模型和数据分析结果应用于现实政策建议中。
✅ 解题步骤:
-
总结模型结果
-
每种疾病的关键风险因素(如吸烟、年龄、糖尿病等)
-
-
提出干预策略
-
政策层面:加强高危人群筛查
-
医疗层面:多疾病共防体系建设
-
生活方式建议:控糖、控压、戒烟、锻炼等
-
-
写作建议信
-
用专业、简洁、科学的语言表达
-
建议格式:引言(说明背景)+ 研究发现 + 具体建议 + 结语
-
📌 总结建议:
问题 | 重点 | 方法建议 |
---|---|---|
问题1 | 数据清洗和初步分析 | 可视化 + 统计方法 |
问题2 | 构建预测模型 | 逻辑回归/随机森林/XGBoost |
问题3 | 共病分析与综合评估 | 多标签分类 + 风险打分 |
问题4 | 建议信写作 | 结合模型结果写出可行建议 |