AG News datasets
时间: 2025-05-31 15:53:59 浏览: 22
### AG News 数据集概述
AG新闻(AG’s News)是一个广泛用于文本分类任务的数据集,特别适用于主题分类。该数据集由来自超过20万篇新闻文章的标题和描述组成,涵盖了四个主要类别:世界、体育、商业和技术[^3]。这些类别的划分使得它可以作为一个经典的多分类问题被研究。
#### 数据结构
AG新闻数据集通常分为两个版本:
- **AG's News (原始版)**: 包含完整的新闻内容。
- **AG's News Simplified**: 只保留了标题部分,减少了数据规模以便于快速实验。
每个样本都由两部分构成:标签(即所属类别)以及对应的新闻正文或标题。以下是其典型样例格式:
| Class Index | Class Name | Title/Description |
|-------------|---------------|----------------------------------------------------------------------------------|
| 1 | World | A new threat from North Korea has prompted the United States... |
| 2 | Sports | In a stunning upset, the underdog beat the world champion... |
#### 下载地址
官方并未提供直接的下载页面,但可以通过以下资源获取到此数据集:
- GitHub上的第三方整理项目提供了方便的访问方式。例如,在[kaggle](https://www.kaggle.com/)网站上有许多用户上传并分享了经过处理后的AG新闻数据集文件[^4]。
另外也可以通过一些学术论文附带材料找到链接或者利用Python库`torchtext`内置支持加载这个数据集合:
```python
from torchtext.datasets import AG_NEWS
train_iter = AG_NEWS(split='train')
next(train_iter)
```
以上代码片段展示了如何借助PyTorch框架下的子模块轻松读取训练集中的一条记录[^5]。
### 技术细节补充说明
对于希望深入理解该数据集特性的研究人员来说,了解以下几个方面可能有所帮助:
- 文本长度分布情况;
- 各类别间平衡程度统计指标等.
如果计划应用于深度学习模型,则需注意预处理环节的重要性,比如去除停用词(stopwords removal),执行词干提取(stemming)或是lemmatization操作等等[^6].
阅读全文
相关推荐















