机器学习管道的搭建与配置:从准备到定义的全流程指南

立即解锁
发布时间: 2025-09-10 01:24:44 阅读量: 12 订阅数: 16 AIGC
PDF

表格数据机器学习实战

### 机器学习管道的搭建与配置:从准备到定义的全流程指南 在运行机器学习(ML)管道来训练和部署模型之前,需要设置管道所需的 Google Cloud 对象。以下将详细介绍相关步骤。 #### 1. ML 管道准备步骤 ##### 1.1 创建 ML 管道的服务账户 为了能够自动运行 ML 管道而无需手动干预,需要设置一个服务账户来运行该管道。创建服务账户的步骤如下: 1. 从 Google Cloud 控制台的主菜单中选择“IAM & Admin” -> “Service Accounts”。 2. 在“Service Accounts”页面,选择“Create Service Account”。 3. 在“Create service account”页面,输入服务账户的名称,然后点击“Create and Continue”。注意,服务账户 ID 会自动填充,服务账户的电子邮件 ID 格式为“service - account - id@project - id.iam.gserviceaccount.com”。 4. 在“Role”字段中选择“Vertex AI User”,然后点击“Done”。 ##### 1.2 创建服务账户密钥 ML 管道使用服务账户密钥来验证用于运行 ML 管道的服务账户。创建服务账户密钥的步骤如下: 1. 在“Service accounts”页面,点击刚刚创建的服务账户的电子邮件地址。 2. 选择“Keys”标签,然后点击“Add key” -> “Create new key”。 3. 选择“JSON”,然后点击“Create”。此时会创建一个包含服务账户密钥的 JSON 文件,并下载到本地系统,文件名类似“first - project - ml - tabular - 039ff1f820a8.json”。 ##### 1.3 授予服务账户对 Compute Engine 默认服务账户的访问权限 在 Google Cloud 中设置项目时,会创建一个 Compute Engine 默认服务账户,其电子邮件地址类似“PROJECT_NUMBER - [email protected]”。为了运行 ML 管道,需要授予前面设置的服务账户对该默认服务账户的访问权限,步骤如下: 1. 在“Service accounts”页面,点击刚刚创建的服务账户电子邮件地址旁边的复制图标(下一步会用到),然后点击 Compute Engine 默认服务账户的电子邮件地址。 2. 点击“Permissions”标签,然后点击“Grant Access”。 3. 在“Grant access”页面,在“New Principals”字段中粘贴创建的服务账户的电子邮件 ID,在“Role”字段中选择“Service Account User”,然后点击“Save”。 ##### 1.4 云 Shell 简介 到目前为止,在 Google Cloud 中执行的所有操作都是在控制台用户界面中进行的。Google Cloud 还提供了云 Shell,这是一个独立的实例,允许你运行命令行命令来与 Google Cloud 进行交互。除了命令行界面,还可以使用云 Shell 编辑器来编辑云 Shell 文件系统中的文件。云 Shell 结合了本地 Linux 实例的功能和基于 Web 环境的便利性,并且与 Google Cloud 资源集成。它特别适合进行原型设计和学习教程。启动云 Shell 的方法是点击 Google Cloud 控制台顶部的“Activate Cloud Shell”图标。点击该图标后,云 Shell 终端会在控制台底部打开,当前目录为你的主目录。你可以直接在云 Shell 终端中运行命令,包括标准的 Linux 命令和 Google Cloud 特定的命令。还可以点击“Open Editor”来编辑云 Shell 文件系统中的文件,点击“Open Terminal”返回云 Shell 终端。 ##### 1.5 上传服务账户密钥 使用云 Shell 上传服务账户密钥 JSON 文件,并设置一个环境变量来指向服务账户密钥的位置,步骤如下: 1. 在云 Shell 中,将主目录设置为当前目录,创建一个名为“ml_pipeline”的新目录,然后将该新目录设置为当前目录: ```bash cd ~ mkdir ml_pipeline cd ml_pipeline ``` 2. 要上传服务账户密钥,选择云 Shell 工具栏中的三个点,然后选择“Upload”。 3. 在“Upload”页面,将“Destination Directory”更新为主目录中的“ml_pipeline”目录,点击“Choose Files”,选择在前面步骤中下载的服务账户密钥 JSON 文件,然后点击“Upload”。 4. 通过将“~/ml_pipeline”设置为当前目录并使用“ls”命令来验证上传,确保 JSON 服务账户密钥现在位于该目录中: ```bash cd ~/ml_pipeline ls ``` 5. 将环境变量“GOOGLE_APPLICATION_CREDENTIALS”设置为服务账户密钥 JSON 文件的完全限定文件名。例如: ```bash export \ GOOGLE_APPLICATION_CREDENTIALS=\ '/home/ryanmark2023/ml_pipeline/\ first - project - ml - tabular - 039ff1f820a8.json' ``` 6. 使用以下命令确认“GOOGLE_APPLICATION_CREDENTIALS”环境变量的值,并验证其是否设置为服务账户密钥文件的完全限定路径: ```bash $ echo $GOOGLE_APPLICATION_CREDENTIALS ``` ##### 1.6 将清理后的数据集上传到 Google Cloud Storage 存储桶 为了简化管道,将数据准备笔记本(https://mng.bz/rKjB)生成的处理后数据集上传到 Cloud Storage 存储桶,以便 ML 管道的其余部分可以访问。上传清理后数据集到 Google Cloud Storage 的步骤如下: 1. 将清理后数据集的 CSV 版本上传到用于上传模型的同一个存储桶。 2. 从 Google Cloud 控制台的主菜单中选择“Cloud Storage” -> “Buckets”。 3. 在“Buckets”页面,选择在前面章节中创建的用于包含训练模型的存储桶。在存储桶详细信息页面,选择“Create Folder”。 4. 在名称字段中输入“processed_dataset”,然后点击“Create”。 5. 选择刚刚创建的新文件夹。 6. 点击“Upload Files”,选择包含吉隆坡数据集处理版本的 CSV 文件(数据准备笔记本的输出)。 7. 上传完成后,会在存储桶详细信息页面看到该文件。点击三个点,然后选择“Copy gsutil URI”。gsutil 统一资源标识符(URI)的值类似“gs://first - project - ml - tabular - bucket/processed_dataset/kl_real_estate_output.csv”。 ##### 1.7 创建 Vertex AI 托管数据集 ML 管道调用 Vertex AI SDK 来训练模型,它将用于训练模型的数据集识别为 Vertex AI 托管数据集。Vertex AI SDK 会自动执行以下操作,使托管数据集可用于训练脚本: - 将数据集的内容复制到 Cloud Storage。 - 将数据集划分为训练、验证和测试子集。每个子集的数据集比例在管道配置文件“pipeline_config.yml”中设置。 - 将每个子集划分为多个 CSV 文件。 创建 Vertex AI 数据集用于训练数据的步骤如下: 1. 在 Vertex AI 中,选择“Datasets”。在“D
corwn 最低0.47元/天 解锁专栏
买1年送3月
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

张_伟_杰

人工智能专家
人工智能和大数据领域有超过10年的工作经验,拥有深厚的技术功底,曾先后就职于多家知名科技公司。职业生涯中,曾担任人工智能工程师和数据科学家,负责开发和优化各种人工智能和大数据应用。在人工智能算法和技术,包括机器学习、深度学习、自然语言处理等领域有一定的研究
最低0.47元/天 解锁专栏
买1年送3月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看
立即解锁

专栏目录

最新推荐

AI应用的挑战与应对

### AI应用的挑战与应对 在当今科技飞速发展的时代,人工智能(AI)已经在各个领域展现出了巨大的潜力和影响力。从品牌 - 消费者动态管理到广告效果提升,AI的应用无处不在。然而,在追求超级智能的道路上,我们也面临着诸多挑战。 #### 1. AI的应用与潜力 AI在高低参与度行业中的应用对品牌 - 消费者动态管理技术产生了重大影响,还能用于预测转化率。例如,通过利用数百万社交媒体用户的品牌参与数据构建品牌 - 用户网络,并使用深度自动编码器技术将其压缩到低维空间,研究人员能够捕捉数千个品牌和多个类别之间的潜在关系。此外,分析约13万名客户对航空公司服务的评价时也应用了神经网络,通过详细

运动游戏设计:平衡健康与娱乐的艺术

### 运动游戏设计:平衡健康与娱乐的艺术 #### 1. 运动游戏的目标与挑战 运动游戏(exergames)通过将运动与游戏相结合,为玩家带来了独特的体验。它能有效激发玩家对运动的情境兴趣,然而,这并不意味着能保证玩家持续增加运动量,而且与传统运动相比,玩家可能无法达到确保健康效果所需的活动水平。因此,开发促进健康相关身体活动的运动游戏需要更全面、基于设计的方法。 在设计运动游戏时,需要平衡功利性目标(如促进健康)和享乐性目标(如游戏体验)。从功利性角度看,运动的持续时间和强度等定量因素很重要;从享乐性角度看,运动的类型或模式等定性方面,如认知或协调需求,也会影响玩家的心理体验。例如,

泵浦光匹配建模全解析:MATLAB中耦合效率提升的4个关键点(实战案例)

![泵浦光匹配建模全解析:MATLAB中耦合效率提升的4个关键点(实战案例)](https://img-blog.csdnimg.cn/img_convert/904c8415455fbf3f8e0a736022e91757.png) # 摘要 泵浦光匹配建模在光纤激光器与光学系统设计中具有关键作用,直接影响光束耦合效率与系统整体性能。本文系统阐述了泵浦光匹配建模的基本概念与研究意义,深入分析其理论基础,包括光纤耦合原理、高斯光束传播特性及耦合效率的数学建模。基于MATLAB平台,介绍了光学仿真工具的使用与建模环境搭建方法,并提出四种关键建模策略以提升耦合效率。通过典型实例验证模型有效性

DHT11异常复位难题破解:STM32H7平台底层驱动+电源设计深度剖析

![STM32H743驱动DHT11数字温湿度传感器【支持STM32H7系列单片机_HAL库驱动】.zip](https://khuenguyencreator.com/wp-content/uploads/2021/07/stm32-dht11.jpg) # 摘要 DHT11传感器在嵌入式系统中广泛应用,但其在实际使用过程中常出现异常复位问题,影响数据采集的稳定性与可靠性。本文以基于STM32H7平台的应用为研究对象,系统分析了DHT11异常复位的现象与背景,深入剖析其通信协议、驱动机制及异常处理策略。进一步从硬件电源设计角度探讨了供电稳定性对传感器复位行为的影响,并结合软硬件协同调试

插件化架构设计解析:iFIAS+如何实现灵活扩展与模块解耦(架构师进阶篇)

![插件化架构设计解析:iFIAS+如何实现灵活扩展与模块解耦(架构师进阶篇)](https://img-blog.csdnimg.cn/direct/592bac0bdd754f2cbfb7eed47af1d0ef.png) # 摘要 本文围绕插件化架构的设计理念与工程实践展开,重点介绍iFIAS+架构的核心机制与应用价值。首先阐述插件化架构的基本组成与设计原则,深入解析iFIAS+在模块化、接口抽象与服务注册方面的实现逻辑。随后通过iFIAS+的模块化设计实践,探讨插件的开发规范、加载机制、热更新策略及版本管理方案。结合实际业务场景,分析该架构在订单处理、支付扩展、性能优化及安全管理

MySQL备份与恢复全攻略:保障数据安全的10个关键步骤

![MySQL备份与恢复全攻略:保障数据安全的10个关键步骤](https://www.ubackup.com/enterprise/screenshot/en/others/mysql-incremental-backup/incremental-backup-restore.png) # 摘要 MySQL数据库的备份与恢复是保障数据安全性与业务连续性的核心环节。本文系统阐述了MySQL备份与恢复的核心概念、理论基础与实践方法,涵盖物理备份与逻辑备份的机制、策略设计原则及自动化实现路径。文章深入解析了InnoDB热备、二进制日志应用、RTO与RPO指标等关键技术要素,并结合实战操作说明

逻辑分析仪实战指南:STM32时序问题精准定位技巧(硬件调试利器)

![逻辑分析仪实战指南:STM32时序问题精准定位技巧(硬件调试利器)](https://img-blog.csdnimg.cn/aebdc029725b4c9fb87efa988f917f19.png) # 摘要 本文系统探讨了逻辑分析仪在STM32嵌入式开发中的关键作用,特别是其在时序问题识别与调试中的应用。首先介绍了逻辑分析仪的基本原理及其与STM32调试的结合价值,随后详细分析了其核心功能、配置方法及与调试环境的集成方式。文章进一步阐述了如何利用逻辑分析仪捕获和分析STM32中常见的通信失败、中断延迟等时序问题,并结合自动化脚本与插件提升分析效率。最后,通过多个实际项目案例展示了

SDK多平台兼容性终极指南:一次开发,多端运行的秘密

![SDK多平台兼容性终极指南:一次开发,多端运行的秘密](https://s3.amazonaws.com/img2.copperdigital.com/wp-content/uploads/2023/09/12111809/Key-Cross-Platform-Development-Challenges-1024x512.jpg) # 摘要 随着软件应用跨平台需求的不断增长,多平台SDK的设计与实现面临诸多挑战与机遇。本文系统分析了多平台SDK在兼容性方面的核心问题与技术价值,探讨了其设计的理论基础,包括架构模型、语言选择与接口抽象策略。文章进一步结合开发实践,深入讨论了模块化开发

Matlab信号处理速成课:5分钟学会离散傅里叶变换(DFT)核心操作

![离散傅里叶变换](https://developer.qcloudimg.com/http-save/yehe-1599485/01d7806fd83c0c25d14802e3e4b1c6a1.png) # 摘要 本文系统介绍了离散傅里叶变换(DFT)的基本概念、数学原理及其在数字信号处理中的核心作用。从傅里叶变换的发展历程出发,深入解析DFT的数学表达式、关键性质及其应用限制,探讨了泄漏效应和窗函数的应对策略。同时,本文结合Matlab平台,详细阐述了DFT的实现方法、频率轴构建与可视化技巧,以及信号预处理中的优化手段。通过音频分析、机械故障诊断和通信频谱监测等典型应用场景,展示了

DMA中断与SPI外设冲突排查实战:快速定位问题的6大技巧

![stm32F407 SPI1/SPI2 DMA 方式读写 CH376S](https://img-blog.csdnimg.cn/direct/10c17a74ab934a1fa68313a74fae4107.png) # 摘要 本文系统性地探讨了DMA与SPI技术的基础原理、协同工作机制及其在实际应用中可能出现的中断冲突问题。通过对DMA传输机制与SPI通信协议的深入解析,结合嵌入式系统中的典型应用场景,文章重点分析了中断优先级配置、资源竞争以及时序不匹配等引发冲突的关键因素。在此基础上,提出了基于日志分析、逻辑波形捕获和分段隔离法的高效问题排查技巧,并结合实际案例展示了中断优先级