阿里云人工智能平台PAI介绍（三）

DK_Allen

于 2025-06-05 18:35:56 发布

阅读量1.1w

点赞数 17

CC 4.0 BY-SA版权

分类专栏：大模型文章标签：阿里云人工智能云计算智能标注（iTAG）可视化建模

本文链接：https://blog.csdn.net/dk_allen/article/details/148456729

大模型专栏收录该内容

92 篇文章

订阅专栏

智能标注（iTAG）

iTAG是PAI产品的智能化数据标注平台，支持图像、文本、视频、音频等多种数据类型的标注以及多模态的混合标注。iTAG提供了丰富的标注内容组件和题目组件，您可以直接使用平台预置的标注模板，也可以根据实际业务场景自定义模板进行数据标注。

任务流程

在iTAG中，完整的数据标注流程包括以下步骤：

创建数据集

通过数据集管理模块将待标注的原始数据创建为数据集，从而生成.manifest索引文件。
创建标注任务

对于已创建的数据集，通过iTAG提供的通用模板或自定义模板创建标注任务并分发任务。任务分发流程分为打标、质检及验收三个环节，其中打标为必选环节，质检和验收为可选环节。您可以选择以下四种流程：标注、标注-检查、标注-验收、标注-检查-验收。任务分发各环节的主要任务如下：
- 标注：标注员在标注任务页面，领取标注任务包，完成标注并提交。
- 检查：标注员在质检任务页面，领取已经标注完成的任务包，进行检查、修改或驳回。
- 验收：需求方在验收任务页面，领取相应任务包后，对其进行验收、修改或驳回，进行最后一步验收。
处理标注任务

按照任务流程为任务包进行打标、质检或验收，从而获得标注好的数据。
导出标注结果数据

将标注结果导出至指定的OSS目录，用于模型训练。

数据格式

智能标注的输入数据格式

在创建标注任务时，需要选择已创建的.manifest格式数据集。您可通过PAI数据集管理模块创建数据集，系统会自动生成标注所需要的.manifest数据格式。具体的数据格式请参见创建数据集。
导出的标注结果的数据格式

iTAG支持导出.csv、.jsonl、.manifest和.coco格式的标注结果数据，标注流程中，标注、质检、验收环节的数据格式请参见导出标注结果数据。

可视化建模（Designer）

Designer（Studio 2.0）是PAI产品基于云原生架构Pipeline Service -- PAIFlow的可视化建模工具，提供端到端的机器学习全链路开发环境，帮助您实现端到端的机器学习开发流程。同时，Designer中内置了丰富且成熟的机器学习算法，覆盖商品推荐、金融风控及广告预测等场景，支持基于MaxCompute、通用训练资源、Flink等计算资源进行大规模分布式运算，可以快速满足不同方向的业务需求。

Designer&PAIFlow产品架构

Designer功能特性

Designer支持阿里云主子账号登录方式。如果使用子账号，则需要主账号对其进行授权，详情请参见云产品依赖与授权：Designer。
Designer支持使用模板或手动创建工作流。通过模板可以快速创建工作流，运行成功后，直接进行模型部署。关于如何创建及管理工作流，详情请参见参考创建工作流。
系统提供百余种AI开发流程组件，支持接入MaxCompute表数据或OSS数据等多种数据源，通过自带阿里最佳实践的算法进行模型构建，并将模型部署至EAS。
Designer提供了丰富的建模组件，可视化地灵活构建和调试模型，详情请参见构建与调试模型。
进行模型训练时，Designer提供可视化大屏，对过程中的数据、模型、评测指标进行可视化分析，辅助您获得最佳模型。
Designer支持工作空间内的工作流协作共享，同时支持将运行成功的工作流部署至DataWorks做周期性调度或者发布为自定义模板。
在Designer工作流中开发测试完成的模型支持注册至模型管理，一键部署模型服务或是打包成复合模型进行部署，详情请参见模型预测及部署。

Designer提供的工作流组件

Designer为您提供百余种组件，满足多种场景的使用，组件详情请参见组件参考：所有组件汇总。

从使用场景来区分，包括以下三种类型的组件：

传统机器学习组件

包括数据预处理、特征工程、统计分析、异常检测、推荐算法、时间序列及网络分析等算法组件。
深度学习框架组件

包括基于PAI-Easy系列的视觉类算法、语音类算法、自然语言处理算法，及TensorFlow、PyTorch等深度学习框架。
自定义算法组件

包括SQL脚本、Python脚本、PyAlink脚本等自定义算法组件，可以满足您更加定制化的算法工作流串联需求。

从实现框架及支持的计算资源来区分，包括Alink框架及PAICommand框架，两种框架的算法组件各自有一些独特的功能特性：

Alink框架算法组件（组件上有紫色圆点标记），支持运行在MaxCompute、Flink或通用训练资源上。Alink框架算法支持Pipeline部署，详情请参见Pipeline部署在线服务。
PAICommand框架算法组件除了支持直接使用组件，还支持PAI命令的调用方式。您可以在Designer的SQL组件、DataWorks数据开发、MaxCompute命令行工具中进行调用。

Designer的使用流程

创建工作流

使用Designer建模前，您需要新建一个工作流。工作流支持多种创建方式，您可以结合自身业务情况，选择合适的方式来创建工作流。
构建与调试模型

在Designer工作流页面，使用Designer提供的组件构建模型，并选择所需的计算资源（包括MaxCompute、Flink、通用训练资源）运行工作流来调试模型，最终完成模型训练。后续您也可以通过调度配置，来指定工作流是否需要周期性自动运行，实现模型定时自动更新。
（可选）可视化分析

模型训练完成后，您可以使用可视化大屏快速查看分析报告，来评估模型是否满足预期要求。
模型预测及部署

模型训练完成后，您可以生产化部署模型对新数据进行预测。

工作流调度引擎：PAIFlow

PAIFlow是Designer底层的工作流调度引擎，您可以从Designer提交工作流任务到PAIFlow执行，也可以通过PAIFlow OpenAPI直接构建工作流并在PAIFlow执行。

说明

通过PAIFlow OpenAPI构建的工作流不会在Designer中展示，OpenAPI和Designer可以理解为两个独立的实现构建并提交PAIFlow任务的客户端，面向不同需求。
PAIFlow任务管理页包含了全部通过OpenAPI、Designer手动执行、DataWorks周期性调度Designer工作流提交的Pipeline任务，详情请参见管理工作流任务。