
大数据
文章平均质量分 86
大数据各种乱七八糟
Ray.1998
KEEP CODING
KEEP COOL(需要一份天津的工作,最好是在滨海)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flink并行度与分区机制深度解析
• 数据特征:日志数据包含固定日期范围(10-01至10-07共7天)• 处理要求:按日期分组处理后写入HDFS对应日期目录。2. 哈希计算:使用MurmurHash3算法。(以下两步为flink框架内部处理过程演示)注:表中哈希值为模拟演示用,非真实计算结果。3.1 自定义Partitioner。自定义Partitioner。是否需要动态调整分区规则?• 需要精确控制分区映射。• 需要动态调整分区规则。• 分区策略需要频繁更新。• 不依赖数据特征的分区。3.2 广播+过滤模式。• 简单快速的分区方案。原创 2025-05-18 12:04:33 · 1203 阅读 · 0 评论 -
数据仓库的 DWD 分层架构:构建高效数据平台的基石
DWD 分层架构是数据仓库设计中的一种经典分层方式,通常将数据仓库划分为ODS、DWD、DWS 和 ADS四层。每一层都有明确的职责,通过分层设计,可以实现数据的逐步加工、优化存储、提升查询效率,并支持多样化的业务需求。DWD 分层架构的核心优势在于:•更贴近业务需求:每一层的数据都针对特定的业务场景进行设计和优化。•提高数据质量:通过逐层清洗和转换,确保数据的准确性和一致性。•优化查询性能:通过预计算和聚合,显著提升查询效率。•支持复杂分析:从明细数据到汇总数据,满足不同用户的分析需求。原创 2025-03-23 20:30:17 · 1346 阅读 · 0 评论 -
Flink 中的滚动策略(Rolling Policy)
Flink 的滚动策略(Rolling Policy)是一个非常重要的功能,尤其在处理大量数据输出时,能帮助管理文件的大小、滚动周期和数据的合理分配。通过合理配置。原创 2025-02-25 15:33:36 · 999 阅读 · 0 评论 -
深入理解 Flink 中的 .name() 和 .uid() 方法
在 Flink 中,.name()和.uid().name():提升作业可读性,便于调试和监控,帮助开发人员快速识别作业中的具体操作。.uid():确保操作的唯一性,特别在涉及状态管理和容错恢复时,保证作业状态的一致性和正确性。在实际开发中,建议为每个操作设置合理的.name()和.uid(),以确保作业的高可维护性、容错性和可调试性。原创 2025-02-25 15:14:09 · 1300 阅读 · 0 评论 -
Flink Checkpoint机制详解
Checkpoint是一种状态快照机制,用于在流处理作业中定期保存作业的状态。Flink作业通常会在内存中维护一些状态(如窗口、聚合结果、历史记录等),当作业运行中发生故障时,Checkpoint能帮助系统恢复到最近的有效状态,从而避免丢失数据或重复处理数据。Flink的Checkpoint机制不仅能够保证作业的容错性,还能够支持精确一次(exactly-once)语义,即每条数据只会处理一次,即使发生了故障也能正确恢复。原创 2025-02-25 14:52:25 · 922 阅读 · 0 评论 -
优化 Flink 消费 Kafka 数据的速度:实战指南
Flink 默认的 Kafka 消费者并行度可能较低,导致消费速度无法充分利用 Kafka 的吞吐能力。等多个方面,详细解析如何优化 Flink 消费 Kafka 的速度。,这可能导致 Flink 处理 Kafka 数据时。,看看消费速度是否有提升,再尝试优化其他参数。,否则部分消费者会空闲。,进而影响 Kafka 的消费速率。,可以从以下几个方面进行优化: ✅。默认情况下,Kafka 消费者。在 Flink 代码中,可以。在 Kafka 消费者配置中,Kafka 消费者的数量。数据时,你可能会遇到。原创 2025-02-21 15:21:57 · 2996 阅读 · 0 评论 -
Flink底层架构与运行流程
这张图展示了Flink程序的架构和运行流程。原创 2025-01-21 10:08:16 · 926 阅读 · 0 评论 -
Flink在流处理中,为什么还会有窗口的概念呢
流数据是无限的,没有明确的结束点,而窗口将数据分割成有限的块,方便处理。窗口操作使得我们可以对流数据进行有意义的处理(如聚合、统计等)。不同类型的窗口(滚动、滑动、会话等)提供了灵活的方式来处理不同的场景。时间窗口保证了对事件的时间控制和聚合,让流处理更具可操作性。通过窗口,Flink 能够让无限流数据处理变得有序、可控,同时也提高了实时计算的准确性和效率。原创 2025-01-21 09:28:10 · 1225 阅读 · 0 评论 -
Flink的流处理和批处理
流处理(Stream Processing)适用于实时和持续不断到达的数据,强调对无界数据流的处理。批处理(Batch Processing)适用于有限的数据集,强调对有界数据流的高效批量处理。Flink提供了流批统一的框架,允许在相同的 API 下处理这两种类型的数据,使得流处理和批处理可以灵活结合,适应不同的需求。原创 2025-01-21 09:27:01 · 1150 阅读 · 0 评论 -
Flink基础概念
(Stream Processing),也支持批处理任务(Batch Processing)。Apache Flink 是一个分布式计算框架,专注于。原创 2025-01-09 18:42:35 · 677 阅读 · 0 评论 -
Flink 的核心特点和概念
Flink 是一个流式处理框架,专注于高吞吐量、低延迟的数据流处理。它能处理无限流(即实时数据流)和有限流(批处理),具有很强的灵活性和可扩展性,广泛应用于实时数据分析、监控系统、数据处理平台等场景。原创 2025-01-21 09:21:47 · 1045 阅读 · 0 评论