
基于深度学习的文本分类模型融合方法
下载需积分: 0 | 264KB |
更新于2024-08-04
| 17 浏览量 | 举报
收藏
2017知乎看山杯参赛方案-ye-61
本文总结了2017知乎看山杯参赛方案ye-61的主要内容,涵盖了实验流程、数据预处理、特征提取、模型训练和模型融合等方面。
1. 实验流程
实验流程图1展示了我们方法的主要流程,包括数据预处理、特征提取、模型训练和模型融合四个步骤。在数据预处理中,完成了缺失值处理、低频词(字)处理、数据截断和划分句子等处理。在特征提取中,我们主要利用了赛方提供的词向量和字向量两部分特征。在模型训练部分,根据输入数据的不同,主要训练了三大类型的模型:仅使用词向量的模型、仅使用字向量的模型,同时使用词向量和字向量的模型。在模型融合部分,我们模拟梯度下降的方法进行多个模型的线性加权融合,利用线下验证集的F1值变化来调整各个模型的权重。
2. 数据预处理
数据预处理是整个实验流程的重要一步。在本次比赛中,赛方提供了训练集和测试集两个数据集,其中训练集包含2999967个问题,测试集包含217360个问题。每个问题由问题标题和问题描述两部分组成。在两个数据集中,都有部分问题缺失标题或者缺失描述,因此需要对缺失值进行处理。在测试集中,我们把缺失的标题用该问题的描述进行填充,同理,缺失的描述利用对应问题的标题进行填充。在训练集中,处理方式和对测试集的处理基本相同,只是对于没有标题的15个问题,我们直接丢弃,这样最后用于训练和验证的样本数量为2999952(2999967-15)个。
3. 低频词(字)处理
低频词(字)处理是数据预处理的重要一步。赛方提供了字符级别的256维的embedding向量及词语级别的256维的embedding向量。但是词汇表中省略掉了出现频次为5以下的字符或者词语,因此在训练和验证语料中出现的词汇有可能没有对应的word embedding向量。对于没有出现在词汇表中的词或字,我们统一给定一个随机初始化的向量来表示。
4. 模型训练
模型训练是整个实验流程的核心部分。在本次比赛中,我们主要训练了三大类型的模型:仅使用词向量的模型、仅使用字向量的模型,同时使用词向量和字向量的模型。我们使用深度学习的方法,以文本分类中比较经典的双端GRU模型和TextCNN等模型为基础,构造多个新的模型进行分类。
5. 模型融合
模型融合是整个实验流程的最后一步。在本次比赛中,我们模拟梯度下降的方法进行多个模型的线性加权融合,利用线下验证集的F1值变化来调整各个模型的权重。通过本方法,本组最终在Public排行榜上得分为0.43296,排名第五;在最终得分榜上得分0.43060,排名第六。
关键词:知乎看山杯,文本分类,深度学习,模型融合
相关推荐









史努比狗狗
- 粉丝: 32
最新资源
- 软件工程文档模板大全,提升项目文档规范性
- 新手指南:掌握.NET分页控件的使用与实践
- ZendFramework 1.5.3版本特性与应用
- 掌握Java Web开发:MVC+DAO架构实战指南
- 优化电脑速度:3款必备加速软件推荐
- 研制新型嵌入式电能质量监测系统
- SpiderMonkey JS引擎资料整理
- 打造个性化OEM正版XP界面的DIY教程
- 吉大JAVA程序设计第15讲发布完毕
- NDD2002硬盘修复工具:轻松修复MBR、DBR、FAT问题
- Web Page Maker绿色版:简易HTML编辑工具
- Struts框架官方帮助文档详解
- VC2005环境编译SDL源代码指南
- Java文本分类源码分享:提升数据处理效率
- ZedGraph v509_459:.NET 2005的最佳开源图表控件
- 实现T43本本安静运行的nhc修改ACPI脚本
- SSH2框架下的高效分页组件设计与实现
- 游戏推广系统完整源码下载_网站发放资源工具
- JPA+Spring构建权限系统框架
- UG二次开发模板的核心应用与实践
- C#应用程序开发全程详解:从灵感到实现
- 实现可编辑下拉列表的HTML页面
- 渣浆泵蜗壳造型与热分析:ANSYS方法理论
- Linux环境下GCC编译器使用基础指南