商业智能与高级分析:MLOps助力数据价值转化
立即解锁
发布时间: 2025-08-20 02:30:50 阅读量: 2 订阅数: 6 

# 商业智能与高级分析:MLOps助力数据价值转化
## 1. 商业智能的管理与最佳实践
商业智能涵盖了托管和自助服务数据,能为决策提供支持。在Power BI文档中提到了三种主要的商业智能内容所有权和管理策略。IT维护人员应与使用自助服务探索环境的人员紧密合作,例如工程师可以审查自助服务工作,甚至帮助构建一些示例ETL脚本,这些脚本先在自助服务环境中测试,最终应用到托管环境。
为了从商业智能投资中获取最大价值,可参考以下最佳实践:
1. **制定有目的的BI策略**:确定自助服务BI、托管自助服务BI和企业BI的理想平衡,并使这些模型的所有权和管理与业务领域相匹配。
2. **开发操作指南和设计模式**:例如确定将数据加载到BI工具的最佳方法,是直接将数据加载到报告环境,还是先创建数据库,再让所有报告连接到该数据库。可以编写操作指南,即根据特定情况制定的一组规则或建议。
3. **设立卓越中心(COE)**:由一个核心团队负责定义全公司的标准流程、培训、指南、最佳实践和支持等。与不同业务领域的利益相关者沟通,了解哪些实践对数据驱动的决策有效,哪些无效。
4. **使用不同的成熟度级别**:
- **级别1**:关注新的、未记录的且无流程规范的用例,此级别正式流程较少。
- **级别2**:针对可重复或受管理的用例,需要有治理模型,所有用户都应获得认证。
- **级别3**:适用于能带来高商业价值的关键用例,此级别必须实现自动化和监控。
5. **建立专家网络**:让公认的专家持续构建并与组织内的其他人分享知识。
6. **要求各领域提供数据样本报告**:这样不仅能使数据集和用例连接在BI层可用,方便消费者发现和请求访问,用户通过查看仪表盘也能快速了解数据的含义和连接方式。
## 2. 高级分析:MLOps的兴起
机器学习、人工智能和认知计算是当下的热门词汇,它们相互重叠且相互补充。人工智能是指机器“智能”工作并执行通常由人类完成的任务的统称;机器学习是人工智能的一个子领域,指机器学习模仿智能行为的能力,例如根据过去的行为预测用户点击链接或购买商品的概率;认知计算则更注重人类大脑的工作方式,可用于语音转文本或图像识别分类等。
然而,将这些服务部署到生产环境,尤其是大规模部署,面临着重大挑战:
1. **模型依赖数据管道**:在生产环境中,一切都必须自动化,要保证数据质量,自动重新训练和部署模型,并在使用新数据后进行人工审批以验证准确性。
2. **模型构建缺乏可扩展性**:许多模型是在孤立的数据科学沙盒环境中构建的,不同的框架、语言、库和自定义代码混合使用,组织内不同团队之间缺乏适当的交接,难以在生产环境中集成。
3. **生产环境中的模型管理困难**:在生产环境中,需要持续监控、评估和审计模型,确保实时决策的效率、准确性和精确性。
为了克服这些挑战,出现了新的协作和沟通实践,即MLOps(机器学习与运营的结合)。MLOps有助于组织简化机器学习模型的部署、维护和监控过程,解决数据科学家和运营专业人员之间的协作和沟通问题。它与DevOps有重叠,但部署分析模型与部署软件有本质区别,因为ML数据不断更新,模型需要不断重新训练、校准和部署。
## 3. MLOps的参考流程
MLOps的流程可以与联邦工作方式完美结合,适用于数据网格架构。下面详细介绍MLOps的参考流程:
### 3.1 项目启动
项目启动阶段是为后续阶段奠定基础,需要明确业务目标和成功标准,确定进入下一阶段的条件。团队成员协作可使用DevOps工具,如看板来管理和跟踪项目活动。此阶段的一些操作步骤如下:
1. **定义业务目标和成功标准**:明确项目的目标和衡量成功的标准。
2. **确定数据来源**:识别数据来源,判断是否已有数据产品。
3. **创建代码仓库**:为每个新的ML项目创建一个新的代码仓库,可使用标准化的代码模板,以实现代码复用,减少项目启动和新成员加入时的上手时间。
项目启动时通常会产生以下工件:
- 项目文档或维基,涵盖业务需求、成功标准、伦理困境等。
- 数据来源列表及附加要求。
- 团队看板,记录初始活动。
- 使用模板创建的新代码仓库。
### 3.2 实验与跟踪
定义好目标并启动项目后,进入实验阶段。在此阶段,建议跟踪所有实验结果,每次训练和运行模型时,捕获所有参数、指标、算法和其他工件以及输出。这样做的好处包括:
- 收集和组织实验所需的所有元素。
- 利用保存的实验数据重现结果。
- 记录随时间、数据、框架、模型和用户等的迭代改进。
- 向监管机构证明模型的开发过程、所选算法和输入数据集。
实验跟踪有多种工具可供选择,如流行的开源框架MLFlow,被许多大型供应商使用。实验步骤如下:
1. **确定计算基础设施和环境**:使用干净的开发环境,跟踪所有操作,对输入和输出进行版本控制,确保可重复性。
2. **关注数据工程活动**:部分数据工程步骤可能是通用的,可应用于其他用例。
3. **确定生产环境的集成模式**:
- **模型作为API**:将模型部署为Web服务,通过API调用获取预测结果。
- **模型作为批量输入/输出**:模型处理批量输入并输出小批量或批量预测,输入和输出通常是一组文件(如CSV或Parquet文件)。
- **模型作为流**:模型与数据流进行反应式交互,数据分段增量到达,必要时可直接读取DDS数据库,还能生成和发布新事件。
实验阶段结束后,通常会产生以下可交付成果:
- 项目文档,涵盖模型运营化的结果和标准,包含模型报告。
- 分析工作区中的新对象,如环境、模型、数据集和实验,以及所有日志和指标。
- 特征报告,包含生成新特征的代码指针,可对代码进行分类,如哪些可用于其他用例,哪些特征基于潜在的个人敏感数据进行训练。
- 更
0
0
复制全文
相关推荐





