file-type

AG新闻数据集:用于文本分类的基准数据集

下载需积分: 43 | 11.24MB | 更新于2025-03-16 | 97 浏览量 | 71 下载量 举报 收藏
download 立即下载
标题中提到的"ag_news数据集"是一个专门为新闻主题分类任务设计的数据集。在这个数据集中,包含了来自AG新闻语料库的496,835条新闻文章,涵盖了4大类别的新闻,这些类别都来自于超过2000个新闻源。每个类别分别包括30,000个训练样本和1900个测试样本。这个数据集仅使用了新闻的标题和描述字段,这说明该数据集特别适用于文本分类任务,尤其是新闻主题的识别。 描述部分提供了更多关于数据集的背景信息。AG新闻语料库是一个由超过100万个新闻文章组成的集合,这些文章是由ComeToMyHead项目从2000多个新闻来源搜集而来,搜集时间超过1年。ComeToMyHead是一个运行自2004年7月的学术新闻搜索引擎。该数据集由学术界提供,用于研究目的,如数据挖掘(聚类、分类等)、信息检索(排序、搜索等)、XML、数据压缩、数据流等领域的研究。更多详细信息可以参考提供的链接。 数据集的构造是由纽约大学的Xiang Zhang等人完成的,该数据集被用作后续文献中提出基于字符级别的卷积神经网络进行文本分类的基准测试。该研究论文的标题为“Character-level Convolutional Networks for Text Classification”,发表于NIPS 2015会议。 该数据集的特点是专注于AG新闻语料库中4个最大类别的新闻文章。每个类别拥有30,000个训练样本和1,900个测试样本,因此,整体训练集包含120,000个样本,测试集包含7,600个样本。这种分配方式意味着,研究者和开发者在进行模型训练和评估时,能够获得充足的样本量。 文件"classes.txt"包含了与每个标签相对应的类别列表。而"train.csv"和"test.csv"两个文件则是以CSV格式存储了所有的训练和测试样本。每个文件包含3个列,分别是类别索引(1至4)、标题和描述。为了保证数据格式的正确性和一致性,标题和描述被双引号(")包围,内部的双引号通过双写进行转义("),而换行符则通过反斜杠后跟字符"n"进行转义(\n)。 标签"分类任务 AGnews 新闻数据集"强调了该数据集的用途是面向新闻主题的分类任务。它是一个用于机器学习和深度学习模型开发的工具,尤其适合初学者和研究者在文本分类和自然语言处理(NLP)领域进行实践。 压缩包子文件的文件名称列表中只有一个文件名"ag_news_csv",这表明所有的数据文件都已被打包在这个压缩包中。在处理这个数据集之前,用户需要下载并解压这个文件,然后才能访问到实际的CSV文件进行数据处理和模型训练。由于文件名后面紧跟的是"csv",这说明数据集的格式为逗号分隔值文件,是一种常见的数据存储格式,通常能够与多种数据处理软件或编程语言兼容,比如Python的pandas库、R语言或者Excel等,使得处理和分析变得方便快捷。 在实际应用中,使用ag_news数据集进行新闻分类任务,模型需要学习如何根据新闻的标题和描述来预测新闻的主题类别。这对于理解自然语言的语义和上下文关系,以及构建高效的分类算法都具有重要的实践意义。对于从事自然语言处理和机器学习的开发者而言,这既是一个学习的机会,也是一个展示自己模型性能和创新能力的平台。

相关推荐

filetype
496,835 条来自 AG 新闻语料库 4 大类别超过 2000 个新闻源的新闻文章,数据集仅仅援用了标题和描述字段。每个类别分别拥有 30,000 个训练样本及 1900 个测试样本。 README: AG's News Topic Classification Dataset Version 3, Updated 09/09/2015 ORIGIN AG is a collection of more than 1 million news articles. News articles have been gathered from more than 2000 news sources by ComeToMyHead in more than 1 year of activity. ComeToMyHead is an academic news search engine which has been running since July, 2004. The dataset is provided by the academic comunity for research purposes in data mining (clustering, classification, etc), information retrieval (ranking, search, etc), xml, data compression, data streaming, and any other non-commercial activity. For more information, please refer to the link http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html . The AG's news topic classification dataset is constructed by Xiang Zhang ([email protected]) from the dataset above. It is used as a text classification benchmark in the following paper: Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015). DESCRIPTION The AG's news topic classification dataset is constructed by choosing 4 largest classes from the original corpus. Each class contains 30,000 training samples and 1,900 testing samples. The total number of training samples is 120,000 and testing 7,600. The file classes.txt contains a list of classes corresponding to each label. The files train.csv and test.csv contain all the training samples as comma-sparated values. There are 3 columns in them, corresponding to class index (1 to 4), title and description. The title and description are escaped using double quotes ("), and any internal double quote is escaped by 2 double quotes (""). New lines are escaped by a backslash followed with an "n" character, that is "\n".