[] - 2023-03-04 RSNA比赛总结—kaggle 高效摸牌套路.pdf
需积分: 0 38 浏览量
更新于2023-12-06
收藏 348KB PDF 举报
《RSNA比赛总结—kaggle 高效摸牌套路》是关于2023年3月4日RSNA乳腺癌检测竞赛的经验分享,作者limzero通过参与此次竞赛获得了银牌,排名46/1687。这篇文章主要讨论了在时间有限的情况下,如何高效地参与Kaggle竞赛并取得好成绩。
成功的关键在于高质量的数据预处理。在比赛开始前,作者通常会浏览讨论区和代码区,了解问题和现有解决方案。在RSNA比赛中,由于工作繁忙,作者只能利用周末时间参与。最初使用别人处理好的数据进行训练,经过两周的简单调整,线下交叉验证分数只有43左右,而公开Leaderboard(LB)分数为48。随后,队友提供了更好的数据预处理方法,使交叉验证分数达到47+,LB分数达到50+。
在数据处理方面,重要的是直接在原始高分辨率图像上裁剪ROI(感兴趣区域),避免因缩小图像尺寸而导致信息丢失。研究发现,输入分辨率越高,模型性能越好,例如1536x960优于1280x768。尽管正样本与负样本比例极度不平衡(约2%的正样本),但在数据加载器上进行上采样并没有显著的正面效果。
对于数据增强,采用了包括调整大小、中心裁剪、随机裁剪、水平和垂直翻转、CLAHE(对比度受限自适应直方图均衡化)和随机亮度对比度调整等方法。这些增强策略有助于模型学习更多的图像变化,提高泛化能力。
在模型设计上,采用了卷积神经网络(CNN)作为特征提取器,然后连接全连接层进行二分类。考虑到了推理时间和尽量保持大尺度的原则,尝试了ConvNeXt-s(精度最优)、NextViT-b(在TensorRT推理下速度快)和EfficientNet-v2s(前排团队常用,但效果未达到预期)等模型。
此外,利用提供的额外信息(如年龄、站点等meta信息)来增强模型性能。将meta信息离散化,通过嵌入层转化为向量,再通过多层感知机(MLP)进行特征提取,最后与图像特征融合进行分类。这种融合策略使得模型在本地交叉验证中的性能提升了1个百分点。
在训练策略上,首先单独训练CNN部分,之后冻结其权重,仅训练meta信息相关的模块。这样分阶段的训练方法有利于模型的逐步优化和整体性能提升。
这篇总结强调了在Kaggle竞赛中,理解问题、高效利用已有资源、优化数据预处理和增强、选择合适的模型架构以及巧妙融合额外信息对提高模型性能的重要性。通过这些方法,即便时间有限,也能在竞赛中取得良好的成绩。


白话机器学习
- 粉丝: 1w+
最新资源
- 图书管理系统数据库.doc
- 施工软件钢筋下料版说明书.doc
- 基于单片机AT89S52数字密码锁设计毕业论文(已通过答辩).doc
- 农业公司网站建设方案.doc
- 可口可乐网络营销策划方案范文.doc
- 广西三类人员B证继续教育网络学习试题及答案(130分).doc
- 软件项目开发课程设计机关车辆管理系统说明书.docx
- 实施自动化功能测试的解决方案.docx
- 综合布线管理系统用户手册样本.doc
- 网络餐饮服务方案.doc
- 组建高绩效项目管理队伍.docx
- 微信小程序开发协议书.pdf
- 项目管理评审报告.doc
- 项目管理五个阶段表格规划.doc
- 新型智慧城市系统解决方案.docx
- 电子商务社会调查计划书.doc