智能标注(iTAG)
iTAG是PAI产品的智能化数据标注平台,支持图像、文本、视频、音频等多种数据类型的标注以及多模态的混合标注。iTAG提供了丰富的标注内容组件和题目组件,您可以直接使用平台预置的标注模板,也可以根据实际业务场景自定义模板进行数据标注。
任务流程
在iTAG中,完整的数据标注流程包括以下步骤:
-
通过数据集管理模块将待标注的原始数据创建为数据集,从而生成.manifest索引文件。
-
对于已创建的数据集,通过iTAG提供的通用模板或自定义模板创建标注任务并分发任务。任务分发流程分为打标、质检及验收三个环节,其中打标为必选环节,质检和验收为可选环节。您可以选择以下四种流程:标注、标注-检查、标注-验收、标注-检查-验收。任务分发各环节的主要任务如下:
-
标注:标注员在标注任务页面,领取标注任务包,完成标注并提交。
-
检查:标注员在质检任务页面,领取已经标注完成的任务包,进行检查、修改或驳回。
-
验收:需求方在验收任务页面,领取相应任务包后,对其进行验收、修改或驳回,进行最后一步验收。
-
-
按照任务流程为任务包进行打标、质检或验收,从而获得标注好的数据。
-
将标注结果导出至指定的OSS目录,用于模型训练。
数据格式
-
智能标注的输入数据格式
在创建标注任务时,需要选择已创建的.manifest格式数据集。您可通过PAI数据集管理模块创建数据集,系统会自动生成标注所需要的.manifest数据格式。具体的数据格式请参见创建数据集。
-
导出的标注结果的数据格式
iTAG支持导出.csv、.jsonl、.manifest和.coco格式的标注结果数据,标注流程中,标注、质检、验收环节的数据格式请参见导出标注结果数据。
可视化建模(Designer)
Designer(Studio 2.0)是PAI产品基于云原生架构Pipeline Service -- PAIFlow的可视化建模工具,提供端到端的机器学习全链路开发环境,帮助您实现端到端的机器学习开发流程。同时,Designer中内置了丰富且成熟的机器学习算法,覆盖商品推荐、金融风控及广告预测等场景,支持基于MaxCompute、通用训练资源、Flink等计算资源进行大规模分布式运算,可以快速满足不同方向的业务需求。
Designer&PAIFlow产品架构
Designer功能特性
-
Designer支持阿里云主子账号登录方式。如果使用子账号,则需要主账号对其进行授权,详情请参见云产品依赖与授权:Designer。
-
Designer支持使用模板或手动创建工作流。通过模板可以快速创建工作流,运行成功后,直接进行模型部署。关于如何创建及管理工作流,详情请参见参考创建工作流。
-
系统提供百余种AI开发流程组件,支持接入MaxCompute表数据或OSS数据等多种数据源,通过自带阿里最佳实践的算法进行模型构建,并将模型部署至EAS。
-
Designer提供了丰富的建模组件,可视化地灵活构建和调试模型,详情请参见构建与调试模型。
-
进行模型训练时,Designer提供可视化大屏,对过程中的数据、模型、评测指标进行可视化分析,辅助您获得最佳模型。
-
Designer支持工作空间内的工作流协作共享,同时支持将运行成功的工作流部署至DataWorks做周期性调度或者发布为自定义模板。
-
在Designer工作流中开发测试完成的模型支持注册至模型管理,一键部署模型服务或是打包成复合模型进行部署,详情请参见模型预测及部署。
Designer提供的工作流组件
Designer为您提供百余种组件,满足多种场景的使用,组件详情请参见组件参考:所有组件汇总。
从使用场景来区分,包括以下三种类型的组件:
-
传统机器学习组件
包括数据预处理、特征工程、统计分析、异常检测、推荐算法、时间序列及网络分析等算法组件。
-
深度学习框架组件
包括基于PAI-Easy系列的视觉类算法、语音类算法、自然语言处理算法,及TensorFlow、PyTorch等深度学习框架。
-
自定义算法组件
包括SQL脚本、Python脚本、PyAlink脚本等自定义算法组件,可以满足您更加定制化的算法工作流串联需求。
从实现框架及支持的计算资源来区分,包括Alink框架及PAICommand框架,两种框架的算法组件各自有一些独特的功能特性:
-
Alink框架算法组件(组件上有紫色圆点标记),支持运行在MaxCompute、Flink或通用训练资源上。Alink框架算法支持Pipeline部署,详情请参见Pipeline部署在线服务。
-
PAICommand框架算法组件除了支持直接使用组件,还支持PAI命令的调用方式。您可以在Designer的SQL组件、DataWorks数据开发、MaxCompute命令行工具中进行调用。
Designer的使用流程
-
使用Designer建模前,您需要新建一个工作流。工作流支持多种创建方式,您可以结合自身业务情况,选择合适的方式来创建工作流。
-
在Designer工作流页面,使用Designer提供的组件构建模型,并选择所需的计算资源(包括MaxCompute、Flink、通用训练资源)运行工作流来调试模型,最终完成模型训练。后续您也可以通过调度配置,来指定工作流是否需要周期性自动运行,实现模型定时自动更新。
-
(可选)可视化分析
模型训练完成后,您可以使用可视化大屏快速查看分析报告,来评估模型是否满足预期要求。
-
模型训练完成后,您可以生产化部署模型对新数据进行预测。
工作流调度引擎:PAIFlow
-
PAIFlow是Designer底层的工作流调度引擎,您可以从Designer提交工作流任务到PAIFlow执行,也可以通过PAIFlow OpenAPI直接构建工作流并在PAIFlow执行。
说明
通过PAIFlow OpenAPI构建的工作流不会在Designer中展示,OpenAPI和Designer可以理解为两个独立的实现构建并提交PAIFlow任务的客户端,面向不同需求。
-
PAIFlow任务管理页包含了全部通过OpenAPI、Designer手动执行、DataWorks周期性调度Designer工作流提交的Pipeline任务,详情请参见管理工作流任务。