Spark Summit 2017：实时流处理中的在线学习策略

PDF文件

下载需积分: 5 | 833KB | 更新于2024-07-17 | 189 浏览量 | 举报收藏

立即下载

"《OnlineLearningwithStructuredStreaming》是一篇在2017年SPARK SUMMIT于布鲁塞尔召开的会议中，由Ram Sriharsha和Vlad Feinberg共同分享的论文。文章探讨了在线学习的概念及其在Spark框架下的应用，特别关注了Structured Streaming的环境。在线学习是一种机器学习方法，其核心在于模型参数的实时更新，对于每一个新的数据点都能立即调整模型，区别于传统的批量学习，后者需要先处理完整个数据集再进行更新，且无法回溯数据点。在线学习的两个关键动机是快速适应不断变化的数据模式和应对实时环境中数据分布可能的变化。例如，随着时间的推移，影响学习的因素可能会发生变化，这就要求模型能够在有限的资源和时间内学习到一个好的模型，特别是在大规模数据场景下。此外，某些在线算法在达到给定精度的速度上往往优于批量学习，这是在线学习的一个显著优势。论文中以感知机（Perceptron）为例，解释了在线学习的过程。感知机是一种线性分类器，通过迭代地对每个输入特征(x)和权重(w)计算，如果预测结果y与实际标签不符，就更新权重。目标是找到一个能最好地区分正负样本的线性决策边界。在线学习的设置包括以下几个步骤：首先选择一个假设（模型），然后对每个标注的样本，预测标签，根据预测结果与真实标签的差异（损失函数Loss和其梯度）来学习并纠正错误，最终目标是在有限时间内尽可能减少与最佳模型的误判。 Structured Streaming是Spark平台中用于处理无限数据流的模块，它允许实时处理数据流并在数据到达时立即更新模型，这对于实时数据分析和流式应用至关重要。论文作者展示了如何在这样的环境下有效地实现在线学习，这对于那些需要实时响应和不断优化的业务场景具有实际意义。这篇论文为理解在线学习如何与Spark的Structured Streaming结合提供了深入的见解，强调了实时分析和快速学习能力在现代大数据处理中的价值。"

An example: Online SGD

• Initialize weights 𝘄

• Loss function 𝓛 is known.

• For each labeled example (𝘅, y):

• Perform update 𝘄 -> 𝘄 – η∇𝓛(y , 𝘄.𝘅)

• For each new example x:

• Predict ỹ = σ(𝘄.𝘅) (σ is called link function)

𝓛(y%,%𝘄.𝘅)

𝘄

ẘ

剩余28页未读，继续阅读

weixin_38743481

粉丝: 700

Spark Summit 2017：实时流处理中的在线学习策略

spring-ai-oracle-store-1.0.0-M8.jar中文-英文对照文档.zip

spring-ai-autoconfigure-model-bedrock-ai-1.0.0.jar中文文档.zip

Unity插件合集一：涵盖了2D RPG引擎、4K幻想GUI资源、高效剔除系统、AI导航、动物角色控制、防作弊工具和基础动作动画，提供了游戏开发中常用的功能和素材支持

spring-ai-autoconfigure-model-image-observation-1.0.0-RC1.jar中文文档.zip

教师管理系统开发项目_基于J2EE平台与BS架构的教师工作管理解决方案_面向学校教师管理工作流程优化的Web应用系统_包含教师信息管理_教学任务分配_考勤统计_绩效评估等功能模块.zip

YD_T_2472-2013_卫星通信地球站设备低噪声放大器技术要求(1).pdf

java-贪吃蛇游戏.zip

基于Android_Studio和MySQL的智慧校园后勤报修管理系统_包含用户登录_报修登记_维修处理_数据统计_报表生成等功能模块_采用云端大数据存储和分析技术_实现校园设施故.zip

java-Calculator简易计算器.zip

基于Python3Selenium3HTMLTestRunner的Web自动化测试框架_包含unittest测试框架和ddt数据驱动_通过Excel管理测试用例_实现公共逻辑模.zip

最新资源