该指南由大数据技术标准推进委员会编制,系统阐述了高质量数据集相关内容。高质量数据集指经处理能直接用于 AI 模型训练并提升其性能的数据集合,涵盖单模态和多模态数据,按流程与应用可细分。其质量需满足静态(规范性、完整性等)和动态(提升模型性能)指标,有相关标准作评估依据。目前行业面临供需缺口、建设路径不明等问题。建设模式分 “场景驱动”(适用于垂直领域)和 “数据驱动”(适用于通用大模型),核心环节包括研发、交付、运维、运营全生命周期,依赖多种关键技术。成效评估从六大能力域展开,分五个成熟度等级。在工业制造、医疗卫生等多领域已有应用案例,未来建设运营能力将成熟,多行业应用加速,基础设施助力协同生态形成 。