翰林小院-CSDN博客

原创【Kafka】Kafka Quick Start

Kafka 最初是由Linkedin 即领英公司基于Scala和 Java语言开发的分布式消息发布-订阅系统，现已捐献给Apache软件基金会。Kafka 最被广为人知的是作为一个消息队列(mq)系统存在，而事实上kafka已然成为一个流行的分布式流处理平台。其具有高吞吐、低延迟的特性，许多大数据处理系统比如storm、spark、flink等都能很好地与之集成。按照Wikipedia上的说法，kafka的核心数据结构本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”。消息系统。

2025-05-30 23:23:43 957

转载【kafka】Kafka基本原理详解

Partition在服务器上的表现形式就是一个一个的文件夹，每个partition的文件夹下面会有多组segment文件，每组segment文件又包含.index文件、.log文件、.timeindex文件（早期版本中没有）三个文件， log文件就实际是存储message的地方，而index和timeindex文件为索引文件，用于检索消息。所以在实际的应用中，。Kafka采用的是发布订阅模式，消费者主动的去kafka集群拉取消息，与producer相同的是，消费者在拉取消息的时候也是找！

2025-05-30 23:06:07 18

原创【Kafka】Kafka Overview

如果要降低潜在的延迟，就可以把参数值设置的小一些。跟其他与字节相关的配置参数一样，该参数指的是压缩后的消息大小，也就是说，只要压缩后的消息小于 mesage.max.bytes，那么消息的实际大小可以大于这个值。，比如我们经常回去淘宝购物，你打开淘宝的那一刻，你的登陆信息，登陆次数都会作为消息传输到 Kafka 后台，当你浏览购物的时候，你的浏览信息，你的搜索指数，你的购物爱好都会作为一个个消息传递给 Kafka 后台，然后淘宝会根据你的爱好做智能推荐，致使你的钱包从来都禁不住诱惑，那么这些生产者产生的。

2025-05-30 22:55:07 561

原创 Druid、ClickHouse、Doris、StarRocks 的区别与分析

本文对比分析了四种主流OLAP引擎Druid、ClickHouse、Doris和StarRocks的核心特性。Druid擅长实时时序数据分析，ClickHouse以单表查询性能著称，Doris提供均衡易用的分析能力，StarRocks则在复杂查询和实时更新方面表现突出。四者均采用列式存储和分布式架构，但数据模型、查询性能、更新机制和存储方式存在差异。选择时需考量业务场景：Druid适合实时监控，ClickHouse适用于日志分析，Doris满足企业级报表需求，StarRocks则胜任极速分析平台建设。技术选

2025-05-30 09:26:26 328

原创【Kubernetes】外暴露服务方式

会在所有节点（图示中的VM）上开放一个特定端口（图示中的30007），任何发送到该端口的流量都被转发到对应服务（图示中的Service）。但它可以充当集群的入口点，它可以将路由规则整合到一个资源中，并扮演“智能路由”的角色。在云环境（例如Azure）中，该服务类型会自动创建一个外部负载均衡器。负载均衡器会分配一个外部IP，并将流量分发到服务后端的不同实例。Ingress其实并不是一种服务类型，也就是说它并不是服务(，顾名思义，集群IP。它的作用就是为了能够让其所属Pod能够。的默认类型，如果没有指定。

2025-05-12 11:19:04 447

原创【AWS专栏】AWS Network

VPCsubnetNATIGWTGWCDNNSGACLDirect Connect一文看懂 Amazon EKS 中的网络规划网络规划

2025-05-12 11:05:28 235

原创【Azure 专栏】 AKS Network

离开集群的流量被源网络地址转换(Source NetworkAddress Translated，SNAT'd)为节点的IP地址，而入站的PodIP流量则通过一些服务路由，比如负载均衡器。这意味着podIP地址“隐藏”在节点的IP地址后面。与overlay networks不同，AKS中的flat networks模型将IP地址分配给来自与AKS节点相同的Azure VNet子网的。在覆盖网络中，pods从部署AKS节点的Azure VNet子网中获得一个私有的、逻辑上独立的CIDR的IP地址。

2025-05-08 11:18:15 312

原创【Azure专栏】 Azure IAM

2025-05-06 17:53:46 75

原创【Azure专栏】Azure AKS quick start

【代码】【Azure专栏】Azure AKS quick start。

2025-05-05 17:01:51 223

原创【Azure专栏】Azure AKS 权限

Use Microsoft Entra ID and Kubernetes RBAC for clusters - Azure Kubernetes Service | Microsoft Learn Enable managed identity authentication on Azure Kubernetes Service - Azure Kubernetes Service | Microsoft Learn

2025-05-05 13:10:41 199

原创【Azure专栏】Azure AKS 监控

Monitor Azure Kubernetes Service (AKS) - Azure Kubernetes Service | Microsoft Learn

2025-05-05 13:06:00 191

原创【Azure专栏】Azure 架构中心

Azure Architecture Center - Azure Architecture Center | Microsoft LearnChoose an Azure container service - Azure Architecture Center | Microsoft Learn

2025-05-05 11:03:33 156

原创 deploy an AWS EKS cluster via terraform

Provision an EKS cluster (AWS) | Terraform | HashiCorp Developer

2025-04-25 14:59:13 121

原创 Terraform Quick Start for AWS

Terraform是Iac（Infrastructures as Code),基础设施即代码，可以帮助在任何云上实现基础架构自动化。

2025-04-25 14:34:50 203

原创 Terraform and Helm

正如我们上面概述的，也可以将 Terraform 和 Helm 结合起来，从而确定您应该使用“两者”的答案，但前提是您要部署到 Kubernetes。在此方案中，您使用 Terraform 创建运行集群的基础设施，然后调用 Helm 来部署您的应用程序。这是通过与云服务接口的提供商来创建新的托管集群，或者通过编写脚本来手动创建新的计算资源、启动 Kubernetes 控制平面和注册 worker 节点来实现的。是 Terraform 的开源版本，它扩展了 Terraform 的现有概念和产品。

2025-04-24 12:58:34 715

原创【大数据专栏】大数据框架-Apache Druid 快速开始

至少需要一台6G的服务器，在此章节你将会1.部署一个Durid服务并启动服务2.使用SQL提取数据，并查询。

2025-04-16 14:43:10 170

原创【大数据专栏】大数据框架-部署Apache Druid

Coordinator 服务主要负责区段管理和分发。更具体地说， Coordinator 服务与 Historical 服务通信，以根据配置加载或删除 Segment。Coordinator 负责加载新 Segment、删除过时的 Segment、确保 Segment 被正确（配置）次数“复制”（即加载到多个不同的 Historical 节点上）以及移动（“平衡”）段，以保持后者均匀加载。druid元数据存储在pgsql中。ZK负责集群状态和一致性。

2025-04-16 14:18:33 260

原创【大数据专栏】大数据中的数据采集

2025-04-16 13:58:58 613

原创【大数据专栏】大数据框架-Apache Druid

Apache Druid 是一个集时间序列数据库、数据仓库和全文检索系统特点于一体的分析性数据平台。可以从消息总线流式获取数据（如 Kafka，Amazon Kinesis），或从数据湖批量加载文件（如 HDFS，Amazon S3 和其他同类数据源）。Druid 为 Clickstream，APM(应用性能管理系统)，supply chain(供应链)，网络遥测，数字营销和其他事件驱动形式的场景解锁了新的查询方式和工作流。Druid 专为实时和历史数据的快速临时查询而构建。

2025-04-16 11:27:39 555

原创【大数据专栏】大数据处理中列式数据库

在行式数据库中，尽管上述只处理了少数现有列，但系统仍然需要将来自其他现有列的数据从磁盘加载到内存中。原因是数据以称为块的块形式存储在磁盘上（通常为固定大小，例如 4 KB 或 8 KB）。块是从磁盘读取到内存的最小数据单位。当应用程序或数据库请求数据时，操作系统的磁盘 I/O 子系统会从磁盘读取所需的块。

2025-04-15 16:43:48 150

原创【大数据专栏】大数据架构

Apache Hive是一款由Facebook实现并开源建立在Hladoop之上的开源数据仓库系统，可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表，基于表提供了一种类似SQL的查询模型，称为Hive查询语言(HQL)，用于访问和分析存储在Hadoop文件中的大型数据集。presto是一个交互式查询引擎,是Facebook开源的MPP架构的OLAP查询引擎，可针对不同数据源执行大容量数据集的一款分布式SQL执行引擎，数据量支持GB到PB字节，主要用来处理秒级查询的场景。

2025-04-03 13:17:24 555

原创【大数据专栏】大数据中的基本概念

数据湖有所不同，因为它存储来自业务线应用程序的关系数据，以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时，未定义数据结构或 Schema。这意味着您可以存储所有数据，而不需要精心设计也无需知道将来您可能需要哪些问题的答案。您可以对数据使用不同类型的分析（如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习）来获得Insight。数据仓库是一个优化的数据库，用于分析来自事务系统和业务线应用程序的关系数据。数据经过了清理、丰富和转换，因此可以充当用户可信任的“单一信息源”。

2025-03-31 16:31:13 498

原创 MySQL FOR UPDATE 锁级别

MySQL FOR UPDATE 锁级别标签（空格分隔）： MySQL 表锁行锁文章目录MySQL FOR UPDATE 锁级别MySQL FOR UPDATE 锁级别结论例子无锁表锁1.事务中查询非索引字段会锁表。行锁1.事务中查询索引字段会锁该行数据。E450 i5 16g 性能测试MySQL FOR UPDATE 锁级别结论开启事务后，使用for update 会锁表,按照索...

2019-02-15 14:21:57 4918 1

原创 MySQL-事务介绍

MySQL-事务介绍标签（空格分隔）： Mysql 事务[TOC]MySQL事务ACID1.原子性（Atomcity）一个事务的最小单元，要么全部成功要么全部失败，执行的过程中是不能被打断或者执行其他操作的。2.一致性（Consistent）事务开始前和结束后，数据库的完整性约束没有被破坏。比如A向B转账，不可能A扣了钱，B却没收到，事务开始前A+B=500，事务结束后A+B不可...

2019-02-15 13:59:44 198 1

翰林小院