Flink入门-第一篇：Flink基础概念以及竞品对比

原创

于 2021-11-03 12:16:00 发布 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #hadoop #python #java #flink

本文介绍了Apache Flink的基础概念，包括无界和有界数据流处理，并对比了Flink与其他大数据处理框架Apache Spark和Apache Storm的特点。Flink作为统一流批处理框架，提供exactly-once语义、事件时间和灵活的窗口操作。Flink与Spark和Storm在处理方式和功能上有显著区别，如Flink的背压机制、用户定义状态和强大的窗口系统。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Flink入门-第一篇：Flink基础概念以及竞品对比

Flink介绍

截止2021年10月Flink最新的稳定版本已经发展到1.14.0

Flink起源于一个名为Stratosphere的研究项目主要是为了构建下一代大数据分析平台，在2014年成为Apache孵化器项目。2019 年 1 月，阿里巴巴实时计算团队宣布将经过双十一历练和集团内部业务打磨的 Blink 引擎进行开源并向 Apache Flink 贡献代码，为Flink迎来了一次高速发展，此后的一年中，阿里巴巴实时计算团队与 Apache Flink 社区密切合作，持续推进 Flink 对 Blink 的整合。 2 月 12 日Apache Flink 1.10.0 正式发布，在 Flink 的第一个双位数版本中正式完成了 Blink 向 Flink 的合并。在此基础之上，Flink 1.10 版本在生产可用性、功能、性能上都有大幅提升。 Flink 1.10 是迄今为止规模最大的一次版本升级，除标志着 Blink 的合并完成外，还实现了 Flink 作业的整体性能及稳定性的显著优化、还包括对原生 Kubernetes 的初步集成以及对 Python 支持(PyFlink)的重大优化等。

Apache Flink 是一个计算框架和分布式处理引擎，用于在无边界数据流和有边界的数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。目前Flink 也是 Apache 软件基金会和 GitHub 社区最为活跃的项目之一也是公认的新一代开源大数据计算引擎，可以支持流处理、批处理和机器学习等多种计算形态。

任何类型的数据都可以形成一种事件流。信用卡交易、传感器测量、机器日志、网站或移动应用程序上的用户交互记录，所有这些数据都形成一种数据流。在Flink上数据可以被作为无界或者有界流来处理。

无界数据流 有定义流的开始，但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理，即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理，因为输入是无限的，在任何时候输入都不会完成。处理无界数据通常要求以特定顺序摄取事件，例如事件发生的顺序，以便能够推断结果的完整性。
有界数据流 有定义流的开始，也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流所有数据可以被排序，所以并不需要有序摄取。有界流的处理通常被称为批处理。

我们知道大数据起源于批处理，随着发展大数据的计算模式随后主要分为批量计算(batch computing)、流式计算(stream computing)、交互计算(interactive computing)、图计算(graph computing)等。其中，流式计算和批量计算是两种主要的大数据计算模