阿里云人工智能平台PAI介绍(三)

智能标注(iTAG)

iTAG是PAI产品的智能化数据标注平台,支持图像、文本、视频、音频等多种数据类型的标注以及多模态的混合标注。iTAG提供了丰富的标注内容组件和题目组件,您可以直接使用平台预置的标注模板,也可以根据实际业务场景自定义模板进行数据标注。

任务流程

在iTAG中,完整的数据标注流程包括以下步骤:

  1. 创建数据集

    通过数据集管理模块将待标注的原始数据创建为数据集,从而生成.manifest索引文件。

  2. 创建标注任务

    对于已创建的数据集,通过iTAG提供的通用模板或自定义模板创建标注任务并分发任务。任务分发流程分为打标、质检及验收三个环节,其中打标为必选环节,质检和验收为可选环节。您可以选择以下四种流程:标注标注-检查标注-验收标注-检查-验收。任务分发各环节的主要任务如下:

    • 标注:标注员在标注任务页面,领取标注任务包,完成标注并提交。

    • 检查:标注员在质检任务页面,领取已经标注完成的任务包,进行检查、修改或驳回。

    • 验收:需求方在验收任务页面,领取相应任务包后,对其进行验收、修改或驳回,进行最后一步验收。

  3. 处理标注任务

    按照任务流程为任务包进行打标、质检或验收,从而获得标注好的数据。

  4. 导出标注结果数据

    将标注结果导出至指定的OSS目录,用于模型训练。

数据格式

  • 智能标注的输入数据格式

    在创建标注任务时,需要选择已创建的.manifest格式数据集。您可通过PAI数据集管理模块创建数据集,系统会自动生成标注所需要的.manifest数据格式。具体的数据格式请参见创建数据集

  • 导出的标注结果的数据格式

    iTAG支持导出.csv.jsonl.manifest.coco格式的标注结果数据,标注流程中,标注、质检、验收环节的数据格式请参见导出标注结果数据

可视化建模(Designer)

Designer(Studio 2.0)是PAI产品基于云原生架构Pipeline Service -- PAIFlow的可视化建模工具,提供端到端的机器学习全链路开发环境,帮助您实现端到端的机器学习开发流程。同时,Designer中内置了丰富且成熟的机器学习算法,覆盖商品推荐、金融风控及广告预测等场景,支持基于MaxCompute、通用训练资源、Flink等计算资源进行大规模分布式运算,可以快速满足不同方向的业务需求。

Designer&PAIFlow产品架构

Designer功能特性

  • Designer支持阿里云主子账号登录方式。如果使用子账号,则需要主账号对其进行授权,详情请参见云产品依赖与授权:Designer

  • Designer支持使用模板或手动创建工作流。通过模板可以快速创建工作流,运行成功后,直接进行模型部署。关于如何创建及管理工作流,详情请参见参考创建工作流

  • 系统提供百余种AI开发流程组件,支持接入MaxCompute表数据或OSS数据等多种数据源,通过自带阿里最佳实践的算法进行模型构建,并将模型部署至EAS。

  • Designer提供了丰富的建模组件,可视化地灵活构建和调试模型,详情请参见构建与调试模型

  • 进行模型训练时,Designer提供可视化大屏,对过程中的数据、模型、评测指标进行可视化分析,辅助您获得最佳模型。

  • Designer支持工作空间内的工作流协作共享,同时支持将运行成功的工作流部署至DataWorks做周期性调度或者发布为自定义模板

  • 在Designer工作流中开发测试完成的模型支持注册至模型管理,一键部署模型服务或是打包成复合模型进行部署,详情请参见模型预测及部署

Designer提供的工作流组件

Designer为您提供百余种组件,满足多种场景的使用,组件详情请参见组件参考:所有组件汇总

从使用场景来区分,包括以下三种类型的组件:

  • 传统机器学习组件

    包括数据预处理、特征工程、统计分析、异常检测、推荐算法、时间序列及网络分析等算法组件。

  • 深度学习框架组件

    包括基于PAI-Easy系列的视觉类算法、语音类算法、自然语言处理算法,及TensorFlow、PyTorch等深度学习框架。

  • 自定义算法组件

    包括SQL脚本、Python脚本、PyAlink脚本等自定义算法组件,可以满足您更加定制化的算法工作流串联需求。

从实现框架及支持的计算资源来区分,包括Alink框架及PAICommand框架,两种框架的算法组件各自有一些独特的功能特性:

  • Alink框架算法组件(组件上有紫色圆点标记),支持运行在MaxComputeFlink通用训练资源上。Alink框架算法支持Pipeline部署,详情请参见Pipeline部署在线服务

  • PAICommand框架算法组件除了支持直接使用组件,还支持PAI命令的调用方式。您可以在Designer的SQL组件、DataWorks数据开发、MaxCompute命令行工具中进行调用。

Designer的使用流程

  1. 创建工作流

    使用Designer建模前,您需要新建一个工作流。工作流支持多种创建方式,您可以结合自身业务情况,选择合适的方式来创建工作流。

  2. 构建与调试模型

    在Designer工作流页面,使用Designer提供的组件构建模型,并选择所需的计算资源(包括MaxCompute、Flink、通用训练资源)运行工作流来调试模型,最终完成模型训练。后续您也可以通过调度配置,来指定工作流是否需要周期性自动运行,实现模型定时自动更新。

  3. (可选)可视化分析

    模型训练完成后,您可以使用可视化大屏快速查看分析报告,来评估模型是否满足预期要求。

  4. 模型预测及部署

    模型训练完成后,您可以生产化部署模型对新数据进行预测。

工作流调度引擎:PAIFlow

  • PAIFlow是Designer底层的工作流调度引擎,您可以从Designer提交工作流任务到PAIFlow执行,也可以通过PAIFlow OpenAPI直接构建工作流并在PAIFlow执行。

    说明

    通过PAIFlow OpenAPI构建的工作流不会在Designer中展示,OpenAPI和Designer可以理解为两个独立的实现构建并提交PAIFlow任务的客户端,面向不同需求。

  • PAIFlow任务管理页包含了全部通过OpenAPI、Designer手动执行、DataWorks周期性调度Designer工作流提交的Pipeline任务,详情请参见管理工作流任务

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值