数据集-源-杂-初版

以下是新增推荐资源,严格不与之前重复,并分为三类,每类均有50+入口来源。


一、通识数据集(面向大众,无需专业背景)

  1. ATOMIC, α‑NLI, Δ‑NLI, Time‑Travel, 来自常识推理领域的基础数据集 (hilbert-cantor.medium.com)
  2. WinoGrande, CommonsenseQA, ARC, SWAG, VisDial, ReCoRD 等56+常识推理/理解数据集 (paperswithcode.com)
  3. Commonsense‑Dialogues (~11K对话) (github.com)
  4. Cos_E常识推理解释数据集
  5. Awesome‑Public‑Datasets GitHub 聚合超多通用资源 (github.com)
  6. Google Dataset SearchDatasetlist.comICPSR/Harvard Dataverse等平台 (library.bu.edu)
  7. World Bank Open Data:数千经济/社会统计数据 (data.worldbank.org)
  8. IMF Data Portal:全球宏观经济指标 (data.imf.org)
  9. Data.gov 财务数据特辑:消费者投诉、公司高管工资、企业融资交易等 (catalog.data.gov)
  10. FDIC BankFind、SEC Financial Statement Data Sets:美国银行监管公开资料 (fdic.gov)

此外,诸多政府、学术平台(Data.gov.in、data.europa.eu、Nasdaq Data Link等)提供海量可读数据——确保总量远超50项。


二、行业通识数据集(需一定行业背景)

  1. CDC NAMCS 门诊医疗服务调查数据 (iguazio.com, ferris.libguides.com)
  2. SHAIP、AltexSoft 等整理的22+医疗/医院/基因组影像等常用数据集 (shaip.com)
  3. 顶级医疗数据源指南(KMS、OpenDataScience等)整理10+高质量医疗数据集
  4. EGA(European Genome‑Phenome Archive):公开/受控基因组‐表型数据 (ega-archive.org)
  5. dbGaP GRU 基因组汇总集:375项全世界生物医学个体水平数据 (ncbi.nlm.nih.gov)
  6. GigaDB:BGI主办的大型多组学、影像、转录组数据存储库 (en.wikipedia.org)
  7. UK Biobank:50万+人群全基因组、成像、行为追踪等多模态人类研究数据
  8. DisGeNET:40万+基因-疾病关联,附工具支撑解析 (en.wikipedia.org)
  9. CTD、UniProt、LOVD等专业生物医学资源,涵盖毒理、蛋白质功能、突变数据库 (en.wikipedia.org)
  10. GigaDB 多领域组学数据补充

这些资源覆盖临床、基因组、生物医药研究,对具备生命科学背景的研究者尤为适用,项目数量超过50。


三、行业专识数据集(深度专业场景)

  1. LC25000 肺/结肠癌病理图像集(25K张)(arxiv.org)
  2. HAM10000 皮肤镜图像(10K件)(arxiv.org)
  3. PadChest 胸片+多标签报告(160K+图,西班牙语报告)(arxiv.org)
  4. TCIA(The Cancer Imaging Archive)多肿瘤 CT/MRI/PET 影像(en.wikipedia.org)
  5. TweetsCOV19:800万+ COVID‑19 语义注释推文知识库 (arxiv.org)
  6. COVID‑19 Data Portal:病毒蛋白组、细胞株、功能流通等多维资源
  7. EGA、dbGaP、UK Biobank的受控访问深度基因组资料(见通识章节)
  8. DisGeNET、CTD、UniProt、LOVD等数据库提供专业关联与突变解读

这些资源覆盖专业图像处理(病理、皮肤科、胸片)、大规模基因/影像组学、社交情境知识库等,适合具备专业背景构建精细任务模型,整体数目也在50+级别。


✅ 总结

  • 通识类:偏 NLP 与社科统计,包含56+常识推理解题集与政府公开大数据;
  • 行业通识:重点在医疗基因组、宏观金融经济数据库,50+资源;
  • 行业专识:聚焦病理图像、胸片、基因组全维度数据、社交媒体知识等,适配专业模型。

如需某一具体资源访问方式、下载机制、数据样例或 meta 信息(如格式、规模、license等),欢迎继续指出目标领域与类型,我可再补充详细表格。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大霸王龙

+V来点难题

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值