图文多模态公开数据集归纳(图文情感分类、图文检索)|有中英文文本、含下载地址

本文列举了多个图文多模态的公开数据集,包括Yelp、Tumblr、FlickrLDL/TwitterLDL、Multi-ZOL和MUGE,涉及情感分类和图文检索任务。数据集规模各异,涵盖多种情感标签,适用于相关领域的研究和模型训练。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我最近在研究图文多模态的公开数据集,本文总结了图文多模态常用的公开数据集。这里没有记录小数据集(不到2千张图级别的,有较高引用的有 IAPS 和 GAPED,微博)和 与业务相关性低的(艺术场景,如 ArtPhoto)。

任务 数据集 论文 中文or 英文
图文情感分类 Yelp VistaNet 英文
图文情感分类 Tumblr Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning 英文
图片情感分类 FlickrLDL, TwitterLDL Learning visual sentiment distributions via augmented conditional probability neural network 英文
图片情感分类 emotion6 Building a Large Scale Dataset for Image Emotion Recognition: The Fine Print and The Benchmark 英文
图片情感分类 Multi-ZOL Multi-Interactive Memory Network for Aspect Based Multimodal Sentiment Analysis 中文
### 常见的图文数据集及其应用场景 #### 1. VEGA 数据集 VEGA 数据集由厦门大学纪荣嵘团队提出,专门用于评估和提升模型在交错图文阅读理解(Interleaved Image-Text Comprehension, IITC)任务上的表现。该数据集专注于科学论文的理解,包超过50,000篇科学论文的图文数据[^1]。VEGA 的应用场景主要集中在学术研究领域,特别是在多模态信息处理、图文交互理解和智能问答系统中。 #### 2. Open Images V6 Open Images 是谷歌团队发布的一个多功能图像数据集,最新版本为 Open Images V6,包900万张图片,覆盖600种对象类别,并提供1600万个 bounding-box 标注。这些标注大部分由专业人员手工绘制,确保了数据的准确性和一致性。Open Images 广泛应用于图像分类、目标检测、视觉关系检测、图像分割以及图像描述生成等任务。其图像场景复杂,平均每张图片包8.3个目标对象,适合用于训练和评估多目标识别与理解模型[^3]。 #### 3. DOTA 数据集 DOTA(Detection of Objects in Aerial images)是一个面向航拍图像的目标检测数据集,主要用于遥感图像分析。该数据集多种地物目标(如飞机、船舶、车辆等),并提供高分辨率图像和精确的标注信息。DOTA 主要应用于无人机监控、地理信息系统(GIS)、城市规划等领域。 #### 4. Chinese-CLIP 相关数据集 Chinese-CLIP 是 CLIP 模型的中文版本,基于英文 CLIP 视觉侧参数和中文 Roberta 参数进行初始化,并通过大规模原生中文图文数据进行训练。它适用于中文环境下的图文表征学习、跨模态检索图文匹配等任务。Chinese-CLIP 的出现填补了中文多模态预训练模型的空白,推动了中文环境下视觉与语言联合建模的发展[^4]。 #### 5. 其他通用图文识别数据集图文识别技术中,常见的数据集包括用于单据、车牌、身份证、银行卡、名片、快递单、营业执照等识别的数据集。这些数据集通常结合图像文字区域提取和自然语言处理技术,实现结构化输出。例如,在金融、物流、政府服务等领域,图文识别技术被广泛用于自动化信息录入和文档数字化管理[^2]。 --- ### 示例代码:使用 Chinese-CLIP 进行图文匹配 ```python import torch from PIL import Image from chinese_clip import ChineseCLIPProcessor, ChineseCLIPModel # 加载预训练模型和分词器 model = ChineseCLIPModel.from_pretrained("clip-vit-base-patch32") processor = ChineseCLIPProcessor.from_pretrained("clip-vit-base-patch32") # 输入图像和文本 image = Image.open("example.jpg") # 替换为实际图像路径 text = ["一只狗", "一只猫"] # 处理输入 inputs = processor(text=text, images=image, return_tensors="pt", padding=True) # 获取相似度分数 with torch.no_grad(): outputs = model(**inputs) logits_per_image = outputs.logits_per_image # 图像与文本的相似度 probs = logits_per_image.softmax(dim=1) # 转换为概率分布 print("图文匹配概率:", probs.numpy()) ``` 上述代码展示了如何使用 Chinese-CLIP 模型对给定图像和多个候选文本进行匹配评分,适用于中文环境下的跨模态检索任务[^4]。 ---
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值