自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 Flink 状态精准一次性特性

待补充。

2024-10-23 12:31:24 613

原创 Flink-运行架构

flink 运行四大组件

2024-10-10 12:48:23 507

原创 Flink-数据源(后续补充完善)

其他与上述相同。一旦。

2024-09-25 12:23:09 753

原创 Flink-算子-Full Window Partition

DataStream 上的全窗口分区处理DataStream 上使用全窗口分区处理 API。Flink 现在支持键控(key)和非键控 (not key)DataStream。表示将每个 subtask(子任务) 的所有记录分别收集到一个完整的窗口中。支持aggregate和reduce四个 API。注意:有关全窗口分区处理的设计和实现的详细信息,请参阅提案和设计文档。

2024-09-24 19:44:08 373

原创 Flink-算子-Process Function

是一个可以看作是一个 FlatMapFunction,可以访问和。它通过为输入流中接收的每个事件(数据)调用来处理事件。对于允许访问 Flink 的,可,类似于其他有状态函数访问 keyed state 的方式。允许应用程序对和的变化做出反应。Context。可用于为将来的事件/处理时间 Moment 注册回调。对于计时器,当前,将调用方法,而对于计时器,当挂钟时间时,将调用在该调用期间,所有状态的作用域再次限定为创建计时器时使用的键,从而允许计时器操作键控状态。

2024-09-24 19:31:56 973

原创 Flink-算子-Joining

Windows join

2024-09-24 17:56:38 726

原创 shell(后续会格式化)

atguigu@hadoop101 shells]$ cat cut.txt |grep guan | cut -d " " -f 1 ## 打印出,cut.txt中存在“guan”的行数据,然后按照空格进行切分,获取切分后第一列的数据。[atguigu@hadoop101 shells]$ echo $PATH | cut -d ":" -f 3- ## 按照冒号进行切分,获取第3个(包含第3个)后的所有数据,用 3-表示。

2024-09-24 13:14:07 514

原创 Flink-算子-窗口

窗口(Window)是的。窗口可以将数据流。本文的重心将放在 Flink 如何进行窗口操作以及开发者如何尽可能地利用 Flink 所提供的功能。下面展示了 Flink 窗口在keyed和non-keyed上使用的基本结构。我们可以看到,这两者唯一的区别仅在于:keyed streams 要调用keyBy(...)后再调用, 而non-keyed streams 只用直接调用。留意这个区别,它能帮我们更好地理解后面的内容Java/Scala上面方括号([…])中的命令是可选的。

2024-09-19 16:16:45 288 1

原创 Flink-算子

用户通过算子能将一个或多个 DataStream 转换成新的 DataStream,在应用程序中可以将多个数据转换算子合并成一个复杂的数据流拓扑。这部分内容将描述 Flink DataStream API 中,数据转换后各种,以及。

2024-09-18 19:56:00 1068

原创 Flink-数据类型以及序列化

数据类型以及序列化

2024-09-18 19:09:25 953

原创 Flink-Checkpointing

Flink 中的每个方法或算子都能够是(阅读了解更多)。状态化的方法在处理单个 元素/事件 的时候存储数据,让状态成为使各个类型的算子更加精细的重要部分。,Flink 需要。Checkpoint 使得 Flink 能够恢复状态和在流中的位置,从而向应用提供和无故障执行时一样的语义。

2024-09-18 17:46:38 713

原创 Flink -Broadcast State 模式

假设存在一个序列,序列中的元素是具有不同颜色与形状的图形,我们希望在序列里相同颜色的图形中寻找满足一定顺序模式的图形对(比如在红色的图形里,有一个长方形跟着一个三角形)。所以为了保证 broadcast state 在所有的并发实例中是一致的,我们在处理广播流元素的时候给予写权限,在所有的 task 中均可以看到这些元素,并且要求对这些元素处理是一致的, 那么最终所有 task 得到的 broadcast state 是一致的。在增大并发的情况下,task 会读取本身的 state,多出来的并发(

2024-09-18 17:11:55 1035

原创 Flink-状态与容错(了解 Flink 用于编写有状态程序的 API)

如果你希望使用 keyed state,首先需要为DataStream指定 key(主键)。这个主键用于状态分区(也会给数据流中的记录本身分区)。你可以使用DataStream中 Java/Scala API 的或者是 Python API 的来指定 key。它将生成,接下来允许使用 keyed state 操作。Key selector 函数接收单条记录作为输入,返回这条记录的 key。该 key 可以为任何类型,但是它的计算产生方式是具备确定性的。下面的例子展示了 key selector 函数。

2024-09-14 16:05:08 869 1

原创 Flink-用户自定义 Functions

(此处是计数器。

2024-09-14 12:04:26 832

原创 flink -故障恢复(后续补充完善)

执行模式下,Flink 会尝试并回溯到之前的中间结果仍可获取的处理阶段。只有失败的任务(或它们在图中的前辈)才可能需要重新启动。这与从 checkpoint 重新启动所有任务相比,可以提高作业的处理效率和整体处理时间。Checkpointing 用于故障恢复的特点之一是,在发生故障时,Flink 会从 checkpoint 重新启动所有正在运行的任务。模式下所要做的事情代价更高(如下文所解释),这也是如果你的任务允许的话应该使用。执行模式下,Flink 使用 checkpoints 进行故障恢复。

2024-09-13 17:34:21 327

原创 Flink-Watermarks的一些理解

方面,Flink 的流运行时间建立在一个事件(一个一个的事件)可能是乱序到来的悲观假设上的,即一个时间戳。下,数据是已知的,可以按照时间戳对元素进行排序,从而按照时间顺序进行处理。对于熟悉流的读者来说,在。为了摊平这种失序性对最终结果的影响,同时使系统实用,在。因为如此,系统永远无法确定在给定的时间戳。中,我们可以假设”完美的 Watermark“。模式下,Flink 使用了一种名为。的事件可能会在一个时间戳。的水印标志着再没有时间戳。下,未来不会再有时间戳。flink官网:在支持。

2024-09-13 17:31:59 260 1

原创 Flink-执行模式(流/批)

不管流模式亦或者是批模式,采取统一的处理方式(大部分的API两者都适用);如果适用批(BACH)模式,Flink 可以对有边界作业进行额外的优化。例如,可以使用不同的关联(join)/ 聚合(aggregation)策略、不同 shuffle 实现来提高任务调度和故障恢复的效率。批模式一般用于处理已知输入、不会连续运行的任务;流模式一般用于处理连续的无界数据;

2024-09-13 13:20:14 377

原创 Flink-控制延迟

默认情况下,元素不会在网络上一一传输(这会导致不必要的网络传输),而是被缓冲。缓冲区的大小(实际在机器之间传输)可以在 Flink 配置文件中设置;但是此种方式也会有延迟问题,当数据写入缓冲区过慢,会导致延迟问题;方法来设置缓冲区填满的最长等待时间。超过此时间后,即使缓冲区没有未满,也会被自动发送。超时时间的默认值为 100 毫秒。

2024-09-13 12:41:32 289 1

原创 Flink- Data Sinks

flink DataStream 通过Data sinks 将它们转发到文件、套接字、- 将元组写成逗号分隔值文件。行和字段的分隔符是可配置的。每个字段的值来自对象的。方法调用的自定义实现也可以参与 Flink 的 checkpointing,以实现。可选地,可以提供一个前缀(msg)附加到输出。如果并行度大于1,输出结果将附带输出任务标识符的前缀。支持自定义 object 到 byte 的转换。- 在标准输出/标准错误流上打印每个元素的。注意,DataStream 的。

2024-09-13 12:25:15 214

原创 Flink-DataSource

【代码】Flink-DataSource。

2024-09-13 11:08:43 314

原创 Flink-报错信息(flink版本1.11.1)

解决方法:引入依赖(Flink从1.15版本开始移除Scala依赖。通过分析报错和源码,发现需要引入`flink-clients`包解决本地运行问题)

2024-09-12 19:09:20 214

原创 Flink-DataStream API

【代码】Flink-DataStream API。

2024-09-12 19:05:45 270

原创 Flink 用户自定义函数(Demo)

消费所有的记录,然后计算报表所需内容,最后将结果以高效、可拓展的方式输出。按此逻辑实现,可以通过测试。Flink 内置的函数是有限的,有时是需要通过。函数不是系统预设函数,也可以自己实现。然后就可以在你的应用中使用了。

2024-09-12 13:07:39 287

原创 Flink-catalog 的一些理解

就是一个表的容器,里面可以创建数据输入表,数据输出表;至于输入和输出表的底层,也是可以指定的。flink 使用Table API 或者时候SQL的方式读取外部数据时(批流数据都可以),会在。

2024-09-12 12:59:21 328

原创 Flink 学习- ValueState(官网信息描述)

之后被调用的operator。一个 operator 中的。包含了 Flink 如何管理变量的一些元数据信息。,这是一种能够为被其封装的变量添加容错能力的类型。提供的 operator 中,即所有能够紧随。的作用域默认是属于它所属的 key 的。Flink 中最基础的状态类型是。

2024-09-12 12:14:07 457

原创 flink学习

官网地址:

2024-09-12 11:05:25 455

原创 spark读取mysql注意点

Spark读取MySQL数据_spark读取mysql10亿数据-CSDN博客

2024-09-10 12:56:57 258 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除