一、关于 PhyX 数据集
基础信息
- 🤗 Hugging Face 仓库:https://huggingface.co/datasets/Cloudriver/PhyX
- 数据集主页:https://phyx-bench.github.io/
- 贡献团队:香港大学、密歇根大学等多校联合团队
- 数据集类型:专业型物理推理基准测试
- 📖 论文 : https://arxiv.org/abs/2505.15929
- 🌐 中文博客(TBD): https://github.com/NastyMarcus/PhyX
- 介绍:https://mp.weixin.qq.com/s/okKn6WrWilPmo0_yOcDP3Q
- License : CC-BY-4.0
数据集背景
核心价值:
首个通过真实视觉场景评估模型物理推理能力的大规模基准测试,包含:
- 3,000个多模态物理问题
- 覆盖6大物理领域25个子领域
- 专注于大学阶段的高难度视觉化物理推理
二、数据特性
1、核心特征
- 多模态物理推理:结合高保真视觉场景与专业物理知识
- 领域覆盖:
- 力学(550题)
- 电磁学(550题)
- 热力学(500题)
- 波动/声学(500题)
- 光学(500题)
- 现代物理(400题)
- 推理类型:6种专业物理推理模式
2、数据集版本
包含两个子集和12种评估配置:
文件名 | 类型 & 输入形式 | 说明 |
---|---|---|
PhyX_mini.tsv | 开放式 / 完整文本(图像+完整描述+问题) | 原始完整版 |
PhyX_mini_MC.tsv | 选择题 / 完整文本 | 选择题版本 |
PhyX_mini_SIMPLY.tsv | 开放式 / 简化文本(图像+简化描述+问题) | 描述简化版 |
PhyX_mini_MC_SIMPLY.tsv | 选择题 / 简化文本 | 简化描述选择题版 |
PhyX_mini_IMG.tsv | 开放式 / 最小文本(仅图像+问题) | 无描述版 |
PhyX_mini_MC_IMG.tsv | 选择题 / 最小文本 | 无描述选择题版 |
PhyX_mini_TL.tsv | 开放式 / 纯文本(图像描述+完整描述+问题) | 图像转文字版 |
PhyX_mini_TL_MC.tsv | 选择题 / 纯文本 | 图像转文字选择题版 |
PhyX_mini_TL_SIMPLY.tsv | 开放式 / 简化纯文本 | 简化描述+图像转文字 |
PhyX_mini_TL_MC_SIMPLY.tsv | 选择题 / 简化纯文本 | 简化选择题纯文本版 |
PhyX_mini_TL_IMG.tsv | 开放式 / 最小纯文本(仅图像描述+问题) | 纯文字最小版 |
PhyX_mini_TL_MC_IMG.tsv | 选择题 / 最小纯文本 | 纯文字最小选择题版 |
默认配置:推荐使用PhyX_mini_SIMPLY.tsv
(开放式)和PhyX_mini_MC_SIMPLY.tsv
(选择题)
3、数据字段说明
每个样本包含以下JSON字段:
字段 | 类型 | 说明 |
---|---|---|
index | int | 问题索引 |
question | string | 问题文本 |
question_description | string | 完整问题描述 |
question_simply | string | 简化版问题描述 |
options | string | 选项(格式:A:"...", B:"...", ... ) |
answer | string | 正确答案 |
image | string | 图像文件名(如200.png ) |
image_caption | string | 图像文字描述(仅TL版本) |
category | string | 物理大类(如"Optics") |
subfield | string | 物理子领域(如"Geometrical Optics") |
reasoning_type | string | 物理推理类型 |
三、使用方式
Ss加载代码
from datasets import load_dataset
dataset = load_dataset("Cloudriver/PhyX")
四、更新日志
伊织 xAI 2025-05-27(周二)