0% found this document useful (0 votes)

11 views85 pages

Hyderabad Meetup Dec 7th 2024 - Diptiman - Confluent

The document presents an overview of the PyFlink Table API for non-JVM stream processing within a data streaming platform, focusing on Apache Kafka and Apache Flink. It covers key concepts such as Kafka's architecture, message production and consumption, and Flink's capabilities in real-time stream processing, including dynamic tables and window functions. The agenda includes a demonstration of Flink's functionalities and its integration with Kafka for effective data streaming solutions.

Uploaded by

23315a0503

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views85 pages

Hyderabad Meetup Dec 7th 2024 - Diptiman - Confluent

Uploaded by

23315a0503

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 85

Pyﬂink Table API for non-JVM stream processing on a

data streaming platform

Diptiman Raichaudhuri
Staff Developer Advocate - Conﬂuent
draichaudhuri@conﬂuent.io
Agenda
● Kafka 101 - Introduction

● Apache Kafka - The Big Picture

● Apache Flink as a Data Stream

Processor
○ Flink Dynamic Table
○ Flink Window Functions
○ Code + Demo

● DSP - Data Streaming Platform

Kafka 101 - Introduction
Storage
• DB - table
Core
• Hadoop - file
abstraction • Kafka - ?
LOG
Immutable Event Log

Old New

Messages are added at the end of the log

Messages are just K/V bytes
plus headers + timestamp

Header
Timestamp
Key
Value
Topics

Clicks

Orders

Customers

Topics are similar in concept

to tables in a database
Partitions

Clicks p0
p1
p2

Messages are guaranteed to be

strictly ordered within a partition
Pub / Sub
Producing data

Old New

Messages are added at the end of the log

Consuming data - access is sequential

Read to offset & scan

Old New
Consumers have a position of their own

Old New

Sally Scan

is here
Consumers have a position of their own

Old New

Fred Scan
Sally Scan

is here is here
Consumers have a position of their own

Rick Scan

is here

Old New

Fred Scan
Sally Scan

is here is here
Producing to Kafka - No Key
Time

Partition
1

Partition 2

Partition 3

Messages will be produced in a

round robin fashion
Partition 4
Producing to Kafka - With Key
Time

Partition 1
A

Partition 2
B
hash(key) %
numPartitions = N
Partition 3
C

Partition 4
D
Consuming From Kafka - Single Consumer
Partition
1

Partition
2

C
Partition
3

Partition
4
Consuming From Kafka - Multiple Consumers
Partition
1

Partition
2 C1

Partition
3
C2
Partition
4
Consuming From Kafka - Grouped Consumers
Partition
1

CC
Partition
2
C1

Partition
3

Partition CC
4
C2
Linearly Scalable Architecture

Producers
Single topic:
- Many producers machines
- Many consumer machines
- Many Broker machines
No Bottleneck!

Consumers
Replicate to get fault tolerance

msg
leader
Machine B

Machine A
replicate msg
Partition Leadership and Replication

Partition TopicX TopicY TopicZ

1 partition1 partition1 partition1

Partition 2 TopicX TopicY TopicZ

partition2 partition2 partition2

Partition 3 TopicZ TopicX TopicY

partition3 partition3 partition3

Partition 4 TopicY TopicZ TopicX

partition4 partition4 partition4

Broker 1 Broker 2 Broker 3 Broker 4

Leader Follower
Replication provides resiliency

A replica takes over on machine failure

Partition Leadership and Replication

Partition TopicX TopicX TopicX

1 partition1 partition1 partition1

Partition 2 TopicX TopicX TopicX

partition2 partition2 partition2

Partition 3 TopicX TopicX TopicX

partition3 partition3 partition3

Partition 4 TopicX TopicX TopicX

partition4 partition4 partition4

Broker 1 Broker 2 Broker 3 Broker 4

Leader Follower
Partition Leadership and Replication

Partition TopicX TopicX TopicX

1 partition1 partition1 partition1

Partition 2 TopicX TopicX TopicX

partition2 partition2 partition2

Partition 3 TopicX TopicX TopicX

partition3 partition3 partition3

Partition 4 TopicX TopicX TopicX

partition4 partition4 partition4

Broker 1 Broker 2 Broker 3 Broker 4

Leader Follower
The log is a type of durable messaging
system

Similar to a traditional messaging system

(ActiveMQ, Rabbit, etc.) but with:
• Far better scalability
• Built-in fault tolerance/HA
• Storage
Apache Kafka - The Big Picture
Apache Kafka - Producer Internal
Apache Kafka - Consumer Internal
# Partitions > # Consumers
# Partitions == # Consumers
# Partitions < # Consumers
Apache Flink as a Data Stream
Processor
Real-time services rely on stream processing

A Sale Real-time Stream Processing

Rich Front-End
A Shipment Customer Experiences

Real-time
Data

A Customer Real-Time Backend

Experience Operations

A Trade
What is Apache Flink used for?

Transactions Messaging
Messaging Systems
Systems
Logs
Event-driven
Analytics
4
3 Applications
IoT Files
Files Data
Integration ETL
Events
Databases
Databases Key/Value Stores
Interactions
Key/Value Stores

…
Applications
Let’s start with an {event} stream

{EVENT} Stream processing

Event
{
"device_id": "01:B8:4R:7Y",
"temp": 34.5,
• Internet of Things "humidity": 0.45,
"motion": "true"
}

{
"cust_id": 0011223344,
• Business process change "loan_type": “housing”,
"status": “Y”
}

• User Interaction

• Microservice output
Event at a minimum

Key

Value
Event at a minimum - for Kafka

Topic
Mandatory
Value
Partition
Key
Optional

Header
TS
Data Stream
• Events ingested through an unbounded context.
• Events ingested perpetually, till the event producers stop
Data Streaming Platform - Common Components
Flink as a streaming data processor

• Flink can provide insights into the stream

Using DSL, queries, mutations
Using SQL statements
Using aggregations
Real-time services rely on stream processing

Files Real-time Stream Processing

Kafka

Sources Sinks

Apps
Databases SQL
Key/Value Stores
A Real World Example
Flink Dynamic Table
Flink’s APIs

Flink SQL

Table API (dynamic tables) declarative DSL

stream processing &

DataStream API (streams, windows) analytics

low-level stateful
Process Functions (events, state, time) stream processing
Flink Dynamic Table
Flink Dynamic Table

● Dynamic tables change over time

● Querying dynamic tables yields a Continuous Query

● A continuous query never terminates and produces dynamic

results -> another dynamic table.
Anatomy of a Flink Dynamic Table
Stream Table Duality - Append only table
Stream Table Duality - Update Table
Flink Table to Stream Conversion

● Append only stream - INSERT

● Retract Stream - INSERT:Add + DELETE:Retract +

UPDATE:Retract

● Upsert Stream - UPSERT + DELETE

○ Main diff with Retract - changes are encoded with a single
message and hence more efﬁcient
Flink Window Functions
Events over time
Tumbling Window - Concept
Hopping Window - Concept
Session Window
Flink Dynamic Table - Windowing
Kafka Pyﬂink Getting Started Series - diptimanrc
Flink AI Remote Inference(OpenAI) Blog
Code Explanation
Flink DataFlow
FlinkSQL Transforms
Flink Table API for a Kafka Topic
Flink Table API - Tumbling Window Transform
Flink SQL - Tumbling Window Transform
The same transform using FlinkSQL
Flink Table API - EXPLAIN PLAN
Flink Table API - EXPLAIN PLAN
DSP - Data Streaming Platform
DSP - The End Product

Stream (Kafka)
Data Stream Data Product

READ AS
Connect
Custom Apps & Operational Apps &
Microservices Data Systems
In-stream processing

Connect
Databases
Schema Registry
Stream (Kafka)

READ AS
Data Warehouses /
Data Lakes
Connect
Log data & Decoupled Event-Driven Immutable
messaging systems Architecture Design Logs

COMING
Tableﬂow SOON
Stream Stream Data (Iceberg)
Catalog Lineage Portal

Third Party Compute

Engines
Stream Governance - Getting Started Series
Confluent Developer Newsletter - Kafka, Flink Latest …
Thanks / Q&A
Diptiman Raichaudhuri
Staff Developer Advocate - Confluent
[email protected]
Skip Paywall

Use Promo Code - POPTOUT000MZG62

to skip the paywall!

Apache Kafka-Flink Course Outline
No ratings yet
Apache Kafka-Flink Course Outline
2 pages
5a - Streaming Data Analytics PDF
No ratings yet
5a - Streaming Data Analytics PDF
37 pages
ITHome - Deep Dive Into Apache Flink - Gordon
No ratings yet
ITHome - Deep Dive Into Apache Flink - Gordon
44 pages
Apache Flink® Training: Intro
No ratings yet
Apache Flink® Training: Intro
37 pages
Flink HandsOn
No ratings yet
Flink HandsOn
39 pages
02data Stream Processing With Apache Flink
No ratings yet
02data Stream Processing With Apache Flink
61 pages
Flink
No ratings yet
Flink
31 pages
Apache Flink: Stream & Batch Processing Features
No ratings yet
Apache Flink: Stream & Batch Processing Features
15 pages
Flink: Another Data Stream Framework!
No ratings yet
Flink: Another Data Stream Framework!
7 pages
Continuous Processing With Apache Flink: Stephan Ewen @stephanewen
No ratings yet
Continuous Processing With Apache Flink: Stephan Ewen @stephanewen
41 pages
BOSS16 Tutorial Flink
No ratings yet
BOSS16 Tutorial Flink
32 pages
Streaming with Apache Flink
No ratings yet
Streaming with Apache Flink
232 pages
Mining Data Streams
No ratings yet
Mining Data Streams
37 pages
Apache SD Papers
No ratings yet
Apache SD Papers
21 pages
Apache Flink ™: Stream and Batch Processing in A Single Engine
No ratings yet
Apache Flink ™: Stream and Batch Processing in A Single Engine
11 pages
Stream Processing - Hands-On With Apache Flink (Giannis Polyzos) (Z-Library)
No ratings yet
Stream Processing - Hands-On With Apache Flink (Giannis Polyzos) (Z-Library)
234 pages
BDA Unit V
No ratings yet
BDA Unit V
21 pages
TRabl StreamProcessing
No ratings yet
TRabl StreamProcessing
79 pages
Apache Flink.9443699.Powerpoint
No ratings yet
Apache Flink.9443699.Powerpoint
6 pages
Mawaporasirukinu
No ratings yet
Mawaporasirukinu
2 pages
Big Data Streaming with Kafka
No ratings yet
Big Data Streaming with Kafka
48 pages
Apache Flink for Big Data Experts
No ratings yet
Apache Flink for Big Data Experts
68 pages
Putting Apache Kafka To Use!: Building A Real-Time Data Platform For Event Streams!
No ratings yet
Putting Apache Kafka To Use!: Building A Real-Time Data Platform For Event Streams!
48 pages
Module 08 Flink - Stream Processing and Batch Processing Platform
No ratings yet
Module 08 Flink - Stream Processing and Batch Processing Platform
40 pages
Large Scale Data Pipelines
No ratings yet
Large Scale Data Pipelines
91 pages
Apache Flink Introduction - Big Data Landscape
No ratings yet
Apache Flink Introduction - Big Data Landscape
26 pages
Big Data IV Nit
No ratings yet
Big Data IV Nit
15 pages
BDA Lec10
No ratings yet
BDA Lec10
33 pages
Stream Processing
No ratings yet
Stream Processing
33 pages
ECS765P - W11 - Stream Processing II
No ratings yet
ECS765P - W11 - Stream Processing II
47 pages
Unit 1 Windowing
No ratings yet
Unit 1 Windowing
23 pages
Assignment No. 3 For Business Data Analytics
No ratings yet
Assignment No. 3 For Business Data Analytics
16 pages
Stream Processing With: Tamás István Ujj
No ratings yet
Stream Processing With: Tamás István Ujj
27 pages
Streaming Graph Processing Unit5
No ratings yet
Streaming Graph Processing Unit5
7 pages
Stream Processing Using Kafka
No ratings yet
Stream Processing Using Kafka
46 pages
Bigdata Unit II
No ratings yet
Bigdata Unit II
19 pages
Apache Flink Is An Open-Source, Dis
No ratings yet
Apache Flink Is An Open-Source, Dis
2 pages
Building Real-Time Streaming Pipelines With Apache Flink & PyFlink - by Yousef Yousefi - Medium
No ratings yet
Building Real-Time Streaming Pipelines With Apache Flink & PyFlink - by Yousef Yousefi - Medium
15 pages
Large-Scale Apache Flink Insights
No ratings yet
Large-Scale Apache Flink Insights
76 pages
Big Data Analytics - Unit 2 Notes
No ratings yet
Big Data Analytics - Unit 2 Notes
44 pages
Spark Streaming for Data Engineers
No ratings yet
Spark Streaming for Data Engineers
22 pages
Bigdata-Mining Data Streams
No ratings yet
Bigdata-Mining Data Streams
19 pages
Flink: Big Data Huawei Course
No ratings yet
Flink: Big Data Huawei Course
22 pages
Mining Data Streams in Data Analytics Refers To The Process of Extracting Useful Patterns
No ratings yet
Mining Data Streams in Data Analytics Refers To The Process of Extracting Useful Patterns
30 pages
Apache Flink for Big Data Engineers
No ratings yet
Apache Flink for Big Data Engineers
116 pages
Report
No ratings yet
Report
5 pages
Streaming Data Ingestion v1 181001151203
No ratings yet
Streaming Data Ingestion v1 181001151203
59 pages
Unit 3
No ratings yet
Unit 3
30 pages
Ade Mod 1 Incremental Processing With Spark Structured Streaming
No ratings yet
Ade Mod 1 Incremental Processing With Spark Structured Streaming
73 pages
Kafka
No ratings yet
Kafka
43 pages
BDA Notes (Unit-1)
No ratings yet
BDA Notes (Unit-1)
11 pages
Module-2-MINING DATA STREAMS
100% (3)
Module-2-MINING DATA STREAMS
17 pages
Bài Giảng Spark Streaming
No ratings yet
Bài Giảng Spark Streaming
75 pages
Kafka
No ratings yet
Kafka
21 pages
Apache Flink On Confluent Cloud
No ratings yet
Apache Flink On Confluent Cloud
2 pages
Customizing Kafka Stream Procssing
No ratings yet
Customizing Kafka Stream Procssing
4 pages
Real-Time Data Pipelines Made Easy With Structured Streaming in Apache Spark
No ratings yet
Real-Time Data Pipelines Made Easy With Structured Streaming in Apache Spark
51 pages
Big Data Notes
No ratings yet
Big Data Notes
37 pages
b0m33bdt 7p Spark Databricks Streaming - 2023 - en
No ratings yet
b0m33bdt 7p Spark Databricks Streaming - 2023 - en
50 pages
A17 IDS (CSE, IT, ECM) 14 07 2023 (Supple)
No ratings yet
A17 IDS (CSE, IT, ECM) 14 07 2023 (Supple)
2 pages
Boe U1
No ratings yet
Boe U1
34 pages
A18 IPR (CSE, IT) 19 07 2023 (Sup)
No ratings yet
A18 IPR (CSE, IT) 19 07 2023 (Sup)
1 page
Roadmap For Web Development Internship Program
No ratings yet
Roadmap For Web Development Internship Program
3 pages
A18 IDS (CSE, IT, ECM) 07 02 2024 (Supple)
No ratings yet
A18 IDS (CSE, IT, ECM) 07 02 2024 (Supple)
2 pages
Modeling Export Data Source
No ratings yet
Modeling Export Data Source
20 pages
Programming Robots With ROS 1 (Early Release) Edition Morgan Quigley Updated 2025
100% (13)
Programming Robots With ROS 1 (Early Release) Edition Morgan Quigley Updated 2025
164 pages
Understanding Discrimination
No ratings yet
Understanding Discrimination
16 pages
All I Want Is You (Soundtrack From Juno) : Wood Sway Rug Bee Nod Moat Bride Rumble Wild Shade Pod Kiss Seed
No ratings yet
All I Want Is You (Soundtrack From Juno) : Wood Sway Rug Bee Nod Moat Bride Rumble Wild Shade Pod Kiss Seed
1 page
Junior Java Developer PDF
No ratings yet
Junior Java Developer PDF
1 page
A Comparative Study Between Applications
No ratings yet
A Comparative Study Between Applications
7 pages
Gentoo Linux AMD64 Handbook
No ratings yet
Gentoo Linux AMD64 Handbook
95 pages
Demo 20 Pathfinder CDS Combined Defence 2022-23 - Arihant Experts
50% (2)
Demo 20 Pathfinder CDS Combined Defence 2022-23 - Arihant Experts
20 pages
Module 4 English Summaries (Ipte)
No ratings yet
Module 4 English Summaries (Ipte)
33 pages
bEAMEX hART PDF
No ratings yet
bEAMEX hART PDF
5 pages
A New Approach To Sorting Min Max Sorting Algorithm IJERTV2IS50210 PDF
No ratings yet
A New Approach To Sorting Min Max Sorting Algorithm IJERTV2IS50210 PDF
4 pages
Fractions of Million Step by Step Corrected
No ratings yet
Fractions of Million Step by Step Corrected
5 pages
Convert Scribd To PDF - Top Free Downloaders & Tips - UPDF
No ratings yet
Convert Scribd To PDF - Top Free Downloaders & Tips - UPDF
15 pages
Vocabulary Selecting AWL
No ratings yet
Vocabulary Selecting AWL
26 pages
Online Shopping Website Project Report
No ratings yet
Online Shopping Website Project Report
88 pages
21st Century Literature Final Periodic Test
0% (2)
21st Century Literature Final Periodic Test
10 pages
Trainer Observation Form - SYKES - PACC - Esmalin, Leo - 2021 - 0923
No ratings yet
Trainer Observation Form - SYKES - PACC - Esmalin, Leo - 2021 - 0923
10 pages
Death of A Salesman
No ratings yet
Death of A Salesman
2 pages
English SBA
No ratings yet
English SBA
2 pages
AMBROSIAOFSHREESWAMISAMARTH
No ratings yet
AMBROSIAOFSHREESWAMISAMARTH
11 pages
CSIWildlife StudentWS1 AnsKey
No ratings yet
CSIWildlife StudentWS1 AnsKey
4 pages
Amara Raza - 29 - 1
No ratings yet
Amara Raza - 29 - 1
12 pages
The Classical Association, Cambridge University Press The Classical Quarterly
No ratings yet
The Classical Association, Cambridge University Press The Classical Quarterly
14 pages
HSN Code & GST %
0% (1)
HSN Code & GST %
3 pages
?lady Cons 2023 Question
No ratings yet
?lady Cons 2023 Question
21 pages
Iwrbs Learning Activity Sheet 2
100% (1)
Iwrbs Learning Activity Sheet 2
8 pages
Mess
No ratings yet
Mess
3 pages
How To Exit The Reincarnation System
100% (4)
How To Exit The Reincarnation System
24 pages
INDIRECT QUESTIONS 6th
No ratings yet
INDIRECT QUESTIONS 6th
2 pages
Fatgen 103
No ratings yet
Fatgen 103
35 pages

Hyderabad Meetup Dec 7th 2024 - Diptiman - Confluent

Uploaded by

Hyderabad Meetup Dec 7th 2024 - Diptiman - Confluent

Uploaded by

Pyﬂink Table API for non-JVM stream processing on a

data streaming platform

● Apache Kafka - The Big Picture

● Apache Flink as a Data Stream

● DSP - Data Streaming Platform

Messages are added at the end of the log

Topics are similar in concept

Messages are guaranteed to be

Messages are added at the end of the log

Read to offset & scan

Messages will be produced in a

Partition TopicX TopicY TopicZ

Partition 2 TopicX TopicY TopicZ

Partition 3 TopicZ TopicX TopicY

Partition 4 TopicY TopicZ TopicX

Broker 1 Broker 2 Broker 3 Broker 4

A replica takes over on machine failure

Partition TopicX TopicX TopicX

Partition 2 TopicX TopicX TopicX

Partition 3 TopicX TopicX TopicX

Partition 4 TopicX TopicX TopicX

Broker 1 Broker 2 Broker 3 Broker 4

Partition TopicX TopicX TopicX

Partition 2 TopicX TopicX TopicX

Partition 3 TopicX TopicX TopicX

Partition 4 TopicX TopicX TopicX

Broker 1 Broker 2 Broker 3 Broker 4

Similar to a traditional messaging system

A Sale Real-time Stream Processing

A Customer Real-Time Backend

{EVENT} Stream processing

• Flink can provide insights into the stream

Files Real-time Stream Processing

Table API (dynamic tables) declarative DSL

stream processing &

● Dynamic tables change over time

● Querying dynamic tables yields a Continuous Query

● A continuous query never terminates and produces dynamic

● Append only stream - INSERT

● Retract Stream - INSERT:Add + DELETE:Retract +

● Upsert Stream - UPSERT + DELETE

Third Party Compute

Use Promo Code - POPTOUT000MZG62

You might also like