spark structed streaming 两种消费kafka的方式

最新推荐文章于 2023-01-30 16:19:05 发布

cangt

最新推荐文章于 2023-01-30 16:19:05 发布

阅读量1.8k

点赞数 5

文章标签： kafka spark

本文链接：https://blog.csdn.net/cangt/article/details/103594852

版权

spark structed streaming 两种消费kafka json数组的方式

kafka过来的原消息体

{"gamecode":"abcd","resultguid":"81_18148_184_-1699285363_4","startguid":"81_18148_184_1573391420_4","records":[{"cards":[40],"optype":0,"playtime":1573391438014,"type":1,"userid":53435,"waittime":17344},{"cards":[54],"optype":0,"playtime":1573391445155,"type":1,"userid":4354,"waittime":7141},{"optype":1,"playtime":1573391447514,"type":0,"userid":4546,"waittime":2359}]}

1、配置kafka参数

前面这些参数数据量小的时候没事，数据一旦大起来，一个参数都不能马虎

# 创建sparksession
spark = SparkSession.builder.enableHiveSupport().getOrCreate()

# 配置kafka消费
kafka_df = spark.readStream.format("kafka") \
.option("kafka.bootstrap.servers", bootstrap_servers)  \ #kafka集群
.option("subscribe", topic) \	#kafka topic
.option("group.id", groupid) \	# kafka 组号，便于归类，不一定需要
.option("failOnDataLoss", "false") \	#数据丢失之后(topic被删除，或者offset不在可用范围内时)查询是否失败
.option("startingOffsets", starting_offsets) \ # 从头消费
.option("includeTimestamp", True) \	# 包含kafka的timestamp
.option("maxOffsetsPerTrigger", max_offsets_per_trigger) \ # 最大单批次消费数
.load()

2、进行数据处理

2.1、json体的shema方式

schema不匹配的这种可能会丢数据

# 指定schema
json_data = '''
{
                "resultguid": "123

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cangt

关注关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Spark实战系列】structuredstreaming 消费 kafka 数据实现简单的 wordcount

JasonLee实时计算

08-19

2872

最近也是有很多同学问我,StructuredStreaming结合kafka的使用,我简单的写了一个wordcount的demo,后续会有更加具体和详细的介绍,今天先来一个简单的demo吧.代码在本地可以直接跑通. 添加依赖: <dependency> <groupId>org.apache.spark</groupId> ...

Spark Structed Streaming的一些主要特性及与Spark Streaming之间的对比

王某的博客

10-20

5095

Spark Streaming 众所周知，Spark Streaming中的数据结构是Dstream，是对RDD的进一步的封装。 Spark Structed Streaming 对比

1 条评论您还未登录，请先登录后发表或查看评论

streaming消费kafka的两种方式Receiver/Direct优缺点

ll谢安生的博客

02-23

1545

streaming消费kafka的两种方式的优缺点的总结 Receiver方式： Receiver从Kafka中获取数据都是存储在Spark Executor内存中的，然后Spark Streaming启动的job会去处理那些数据。优点：操作简单方便，不用自己管理offset。缺点：各方面都不如Direct方式。 Direct方式：它会周期性的查询kafka，来获取每个topic + par...

Streaming消费Kafka数据的两种方式

小黑的博客

03-20

1289

1.receiver模式 Receiver接收固定时间间隔的数据，放在Spark executors内存中操作，使用kafka高级API，自动维护偏移量，达到固定时间才能进行处理，效率低下，并且容易丢失数据。数据备份两次，保存到hdfs，每次使用须从hdfs读取，导致效率低下。如果数据量特别大的情况下，容量不够就会造成数据丢失。receiver通过WAL，设置本地存储，会存放到本地，保证数据不...

Structured Streaming 消费Kafka 解析与测试

zeng6325998的博客

07-08

1347

参考资料 http://spark.apache.org/docs/2.4.1/structured-streaming-kafka-integration.html 前言现在Flink很火，但是自己还没有系统性的了解Structured Streaming ，今天将相关Structured Streaming消费kafka相关下了解下准备工作我这里写了个消费kafka的样例代码,可以正常的往kafka消费数据 Properties props = new Properties(); .

谈一谈StructStreaming消费kafka如何保证eos(Exactly Once)语义

大黄_sama

06-01

439

一、我们知道sparkstreaming如果想保证Exactly Once语义需要借助mysql等事务的数据库来实现，具体实现方式可以参考：https://blog.csdn.net/wangpei1949/article/details/89277490 二、

spark Streaming和structed streaming分析

04-23

在容错方面，Spark Streaming支持两种容错机制：Executor端长时容错和Driver端长时容错。这些机制确保即使出现故障，应用的持续运行也不会受到影响。 Structured Streaming是Spark 2.x中引入的模块，其目的是提供一...

SparkStreaming, StructedStreaming, KafkaStream,Storm,Flink 几大常见实时流计算引擎的对比

qq_40625030的博客

12-29

2459

目前开源大数据实时计算引擎有很多选择,我们可以对他们大致分为流处理和批处理第一类是流处理(Native Streaming):这类引擎中所有的data在到来的时候就会被立即处理，一条接着一条（HINT：狭隘的来说是一条接着一条，但流引擎有时会为提高性能缓存一小部分data然后一次性处理），其中的代表就是Storm,Samza,Flink,KafkaStream第二类是批处理(micro-b...

SparkStreaming 如何保证消费Kafka的数据不丢失不重复

ThreeAspects的博客

10-30

2047

StructedStreamingStructedStreaming简介编程模型 StructedStreaming简介 Structured Streaming是一个可缩放、容错的流逝处理引擎，基于Spark SQL引擎构建。在处理流计算时，可以像处理静态数据批计算一样。Spark SQL引擎负责不断地连续运行它，并随着流数据持续到达而更新最终结果。使用Dataset/DataFrame A...

Spark Structured Streaming、Kafak整合

qq_34531825的博客

05-26

1741

欢迎使用Markdown编辑器写博客SBT 依赖包： groupId = org.apache.spark artifactId = spark-sql-kafka-0-10_2.11 version = 2.1.1 在Spark2.x中，Spark Streaming获得了比较全面的升级，称为Structured Streaming，和之前的很不同，功能更强大，效率更高，跟其他的

Spark Structured Streaming 监控Kafka Lag

王佩的CSDN博客

03-29

2565

Structured Streaming消费Kafka时并不会将Offset提交到Kafka集群。但可以通过以下3种方式间接实现对Kafka Topic Lag的监控。方式一: Checkpoint 先看下Checkpoint目录的结构: checkpoint/ ├── commits │ ├── 0 │ ├── 1 │ ├── 2 │ └── 3 ├── metadata ├...

Spark Structured Streaming 入门学习：集成Kafka实时流处理

weixin_33696822的博客

12-17

393

场景希望对应用产生的某类型的日志数据，进行实时分析。日志数据以文件形式保存在服务器磁盘中，每一行为一个事件：{"time": 1469501675,"action": "Open"}， JSON形式。方案使用Filebeat转发数据到Kafka，将Kafka作为输入数据流，由Spark Streaming进行计算。 Filebeat是轻量级的代理，非常简单易用，支持多种安装方式。 Kafka...

StructedStreaming消费Kafka数据突然存储不到HDFS

erainm

03-14

2726

问题描述： StructedStreaming消费Kafka数据存储到HDFS中，以前正常存储，突然就存储不进去了，可以新建文件夹，但是数据写入不进去了。分析：通过流写出到控制台，能消费数据，说明消费正常，但是就是写不进HDFS中，说明写时不能触发HDFS保存。 /** * 消费数据，写到控制台 */ val query = spark.sql(sql) .writeStream .format("console") .outputMode("append") .start

kafka jar包_使用Structured Streaming消费Kafka数据

weixin_39891438的博客

11-26

363

由于工作需要，在数据收集上牵扯到多个维度的爬虫数据。之前的流程是：爬虫工程师通过文件方式保存爬取的数据，交付给我们做数据清洗处理，再导入到数据库。为了降低交互过程中的时间成本，提高效率，我们开始引入流处理的方式。之前的模式：使用流处理之后的模式：通过kafka-python包的生产者写入数据首先，需要对爬虫脚本进行改造。原先的写入文件代码部分可以不需要改动，只要对爬取到的数据增加写入kafka操...

[转]Spark Structured Streaming + Kafka使用笔记

dingyufei的博客

10-29

1357

这篇博客将会记录Structured Streaming + Kafka的一些基本使用(Java 版) spark 2.3.0 1. 概述 Structured Streaming （结构化流）是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine （流处理引擎）。可以使用Dataset/DataFrame API 来表示 streaming aggregations （流聚合）， event-time windows （事件...

StructStreaming整合Kafka操作

jx的博客

01-30

414

structStreaming整合kafka

Spark(SparkStreaming)消费Kafka消息--使用mysql或redis维护消费索引（保证消费的数据不重复不丢失）

weixin_48960305的博客

11-25

1056

Spark(SparkStreaming)消费Kafka消息--使用mysql或redis维护消费索引（保证消费的数据不重复不丢失）, '多主题，多分区'

Spark读取kafka复杂嵌套json的最佳实践，与其在大数据分析平台中的应用

qq_42963448的博客

09-22

777

kafka是一个高性能的流式消息队列，适用于大数据场景下的消息传输、消息处理和消息存储，kafka可靠的传递能力让它成为流式处理系统完美的数据来源，很多基于kafka构建的流式处理系统都将kafka作为唯一可靠的数据来源。

structed streaming 读取kafka数据

剑雨江湖

03-26

1570

1、添加必要的maven依赖 <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.11</version> ...

简述Structed Streaming和Spark SQL、Spark Streaming关系

06-11

Structured Streaming提供了一种以流式的方式对数据进行处理和分析的方法，它能够将流式数据转换成连续的数据流，并且提供了和Spark SQL相似的编程接口。Structured Streaming具有和Spark SQL一样的优势，比如强大的...