2021语言与智能技术竞赛：机器阅读理解任务.zip资源-CSDN下载

共28个文件

py：12个

sh：4个

gitkeep：4个

版权申诉

63 浏览量 2023-10-22 20:28:26 上传评论收藏 1.94MB ZIP 举报

《2021语言与智能技术竞赛：机器阅读理解任务》本次竞赛聚焦于机器阅读理解（Machine Reading Comprehension, MRC），这是自然语言处理（Natural Language Processing, NLP）领域的一个重要分支，旨在让计算机能够理解文本，并对文本中的问题进行精准回答。机器阅读理解任务通常包括三个关键组成部分：输入文本、问题以及预期的回答。在这个竞赛中，参赛者需要开发出能够高效理解和解答复杂文本问题的算法或模型。在提供的压缩包“LICS2021_MRC-master”中，我们可以期待找到如下资源： 1. 数据集：数据集是训练和评估机器阅读理解模型的基础。它通常包含大量带有问题和对应答案的文本段落。这些数据可能来源于各种来源，如新闻、小说、百科全书等，以确保模型能应对各种语言风格和知识领域。参赛者需要对这些数据进行深度分析，了解其特点和挑战，以便构建适应性强的模型。 2. 预处理脚本：为了使机器能够处理文本，通常需要进行预处理，如分词、去除停用词、词干提取、词向量化等。预处理脚本会帮助参赛者标准化数据，使其更适合训练神经网络模型。 3. 模型框架：可能会包含一些基础的机器阅读理解模型，如基于注意力机制的Transformer模型（如BERT、RoBERTa）、QA任务专用的模型（如DrQA、QANet）或更先进的模型结构。参赛者可以在此基础上进行改进和创新，提高模型的性能。 4. 训练与评估脚本：这些脚本将指导参赛者如何利用数据集训练模型，以及如何通过准确率、F1分数等指标评估模型的性能。理解并优化这些脚本对于提升模型的竞争力至关重要。 5. 指南与说明：压缩包中可能包含详细的竞赛规则、数据格式说明、提交要求等文档，参赛者需仔细阅读，以确保符合竞赛规定。 6. 示例代码：为了帮助参赛者快速上手，可能会提供一些示例代码，展示如何加载数据、训练模型、进行预测等基本操作。机器阅读理解涉及到的关键技术包括深度学习、自然语言理解、信息检索、问答系统等。参赛者需要掌握如Transformer架构、注意力机制、动态卷积等深度学习技术，同时具备扎实的自然语言处理基础知识，如语义解析、情感分析、实体识别等。此外，理解评估标准，如EM（Exact Match）和F1分数，也是优化模型性能的关键。在这个竞赛中，参赛者面临的挑战可能包括如何处理篇章级别的理解、解决上下文依赖问题、处理模糊和多义性问题，以及在有限的数据集上实现泛化能力。通过不断优化模型，参赛者有望推动机器阅读理解技术的进步，为人工智能领域带来新的突破。

资源推荐

资源详情

资源评论

收起资源包目录

2021语言与智能技术竞赛：机器阅读理解任务.zip （28个子文件）

LICS2021_MRC-master

evaluate.py 8KB

roberta_wwm_ext

.gitkeep 0B

utils

__init__.py 0B

infer.py 10KB

data_helper.py 9KB

show_context_answer.py 2KB

input_args.py 4KB

confirm_cls_threshold.py 2KB

roberta_wwm_ext_large

.gitkeep 0B

dataset

small_test.json 12KB

train.json 4.03MB

small.json 12KB

dev.json 1.47MB

finetuned_model

.gitkeep 0B

ernie10

.gitkeep 0B

ss.md 37B

bin

run_predict.sh 2KB

run_eval.sh 1KB

run_train.sh 2KB

check_eval.sh 2KB

models

__init__.py 0B

model_layer.py 5KB

loss_layer.py 1KB

pics

qa_doc.png 419KB

.gitignore 285B

transform_duread20.py 3KB

README.md 26KB

run_mrc.py 11KB

# LICS2021 MRC ## 1. 项目&任务介绍本项目基于官方给定的baseline（[**DuReader-Checklist-BASELINE**](https://github.com/PaddlePaddle/Research/tree/master/NLP/DuReader-Checklist-BASELINE)）进行二次改造，对整个代码框架做了简单的重构，对核心网络结构添加了注释，解耦了数据读取的模块，并添加了阈值确认的功能，一些小的细节也做了改进。最终的B榜的排名为31名。本次任务为[2021语言与智能技术竞赛](http://lic2021.ccf.org.cn/)：机器阅读理解任务，机器阅读理解 (Machine Reading Comprehension) 是指让机器阅读文本，然后回答和阅读内容相关的问题。具体的，给定一个问题q，一段篇章p及其标题t，参赛系统需要根据篇章内容，判断该篇章p中是否包含给定问题的答案，如果是，则给出该问题的答案a；否则输出“无答案”。数据集中的每个样本，是一个四元组（q、p、t和a），例如： ``` 问题 ( q ): 番石榴汁热量篇章 ( p ): 番石榴性温,味甜、酸、涩…，最重要的是番石榴所含的脂肪热量较低,一个番石榴所含的脂肪约0.9克重或84卡路里。比起苹果,番石榴所含有的脂肪少38%,卡路里少42%。标题 ( t ): 番石榴汁的热量 - 妈妈网百科参考答案 ( a ): [‘一个番石榴所含的脂肪约0.9克重或84卡路里’] 问题 ( q ): 云南文山市多少人口? 篇章 ( p ): 云南省下辖8个市、8个少数民族自治州,面积39万平方千米,总人口4596万人,云南汉族人口为3062.9万人,占云南省总人口的66.63%… 标题 ( t ): 云南总人口数多少人,2019年云南人口数量统计(最新) 参考答案 ( a ): [‘无答案’] ``` ## 2. 数据 ### 2.1 数据概览本次竞赛数据集共包含约8.6K问题，其中包括3K训练集，1.1K开发集和4.5K测试集。其中开发集包含1K领域内样本以及少量checklist样本。在json中的存储逻辑如下，一个数据集文件，比如说train.json或者dev.json是一个大的json串，其中包含一个key，`data`，对应的value是一个list；list中的每个value均为一个dict（往往仅有一个value），dict中包含两个key，分别为`paragraphs`和`title`（这里的title往往为空字符串）；在`paragraphs`中，是一个list，这里存放真正的数据样本，相当于路这个list的长度对应于数据量的多少；在list中的每个value均为一个dict，会包含如下三部分的key， - context 对应的内容，往往是一个较长的字符串 - title 标题，即context的标题，往往是一个较短的字符串 - qas 对应的问&答内容，这部分是一个list，其中每个值代表一个问题的实体结构，用dict存储。 - id 问题的唯一id - question 问题，字符串 - type 识别是否是in-domain或者为checklist的数据类型（名词、短语、推理等等），是一个可以枚举的字符串 - answers 答案，是一个list，其中每个值均代表一个答案的实体，用dict存储，包含两个key， - text 回答内容，字符串 - answer_start 答案的起始位置（从零开始），如果为-1，则表示没有答案，即此时text的value必然为空字符串。 - is_impossible True或者False，如果为True，表示存在答案（answers中至少有一个不为空的答案），如果为False，则answers中无答案。 > 该字段的解释目前是自己理解得到的，官网未给出明确的解释。目前为止，已经梳理清楚整体的数据存储结构，为了加深理解这里将上面的字段含义做了一个类比，如下，其中起始的key，`data`将他理解为**一本书**，显然一本书中会包含**多篇课文**，每篇课文均为独立的实体，所以其value应该是一个list；接下来是为**课文**实体，往往一篇课文是有两部分组成，即一个标题`title`和多个段落`paragraphs`；显然**一篇课文**中会包含**多个段落**，每个段落均为独立的实体，所以其value应该是一个list；接下来是**段落**实体（对应于一个数据样本），在一个段落中，至少会包含它的内容`context`，它的标题`title`以及对应的问答`qas`。显然在**一个段落**中会包含**多个问答**，每个问答均为独立的实体，所以其value应该是一个list；接下来是**问答**实体，每个问答实体中，均为包含问题`question`，它的类型`type`，它的唯一表示`id`和它的答案（可能会有多个）。以一个具体的数据json存储格式（两个样本）展示如下： ```json { "data": [ { "paragraphs": [ { "context": "高铁和动车上是可以充电的,充电插头就在座位下边或者是前边。高铁动车上的充电插座排布与车型新旧有关。有些车座位是每排座位两个电源插座,有些新型车比如说“复兴号”是每两个座位有一个电源。祝旅途愉快!", "qas": [ { "question": "高铁站可以充电吗", "type": "vocab_noun", "id": "ebbe3fc466f0f04177b8a64d2ee0de69", "answers": [ { "text": "", "answer_start": -1 } ], "is_impossible": true } ], "title": "高铁和动车上能充电吗? - 知乎" }, { "context": "【皋】字读音既可读gāo,又可读háo。读作gāo时,字义有三种意思,水边的高地或岸;沼泽,湖泊;姓氏。读作háo时,有号呼;呼告的意思。皋读作háo时... 全文", "qas": [ { "question": "皋怎么读", "type": "in-domain", "id": "e3ffa587bba2478191e357cd9a56d10b", "answers": [ { "text": "既可读gāo,又可读háo", "answer_start": 6 } ], "is_impossible": false } ], "title": "皋怎么读 - 懂得" }, } ] } ``` ### 2.2 数据分布训练数据量共3000，类型均为in-domain， **context长度**的分布占比， ``` count 1404.000000 mean 211.985755 std 158.369534 min 50.000000 25% 112.000000 50% 152.000000 75% 251.250000 max 988.000000 ``` 有答案的占比为46.8%，有答案的的**答案长度**分布， ``` count 1404.000000 mean 44.738604 std 66.828911 min 1.000000 25% 5.000000 50% 15.000000 75% 62.250000 max 522.000000 ``` ### 2.3 数据ID化本部分主要介绍如何将上面的九个不同的数据格式转化为模型可接受的数据格式。 - 样本的归一化原始的数据整体为一个大的json结构体，不利于传统意义的上的训练样本的区分，该部分主要将整个json结构进行解析为单个的训练样本。定义**一个训练样本**为如下的结构， - `id` 一个训练样本的id - `title` 字符串类型，多部分为空 - `context` 字符串类型，context文本 - `question` 字符串类型，代表一个问题文本 - `answers` 数组类型，每个元素为一个json结构体，包括`text`和`answer_start`，基本均为一个

评论收藏

内容反馈

版权申诉