- 博客(291)
- 收藏
- 关注

原创 数据同步工具调研选型:SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比
Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品,支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据,已应用于数百家企业生产,也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。SeaTunnel 主要解决数据集成领域的常见问题:数据源多样:常用的数据源有数百种,版本不兼容。随着新技术的出现,出现了更多的数据源。用户很难找到能够全面快速支持这些数据源的工具。复杂同步场景。
2023-11-14 10:54:43
6205
7

原创 SeaTunnel毕业!首个国人主导的数据集成项目成为Apache顶级项目
这是首个由国人主导并贡献到 ASF 的大数据集成领域的顶级项目,这一里程碑的达成标志着 SeaTunnel 在开源软件开发领域的突破,并为其在技术、社区合作和开放创新方面的卓越表现获得了广泛认可。
2023-06-01 14:54:13
4448
原创 社区新贡献:X2SeaTunnel 助你无缝迁移到 SeaTunnel!
为了帮助用户更顺利地迁移到 Apache SeaTunnel 平台,社区成员提出了一个实用建议:开发一个通用的配置转换工具,支持将多种数据集成工具的配置文件转换为 SeaTunnel 支持的 HOCON 或 JSON 格式。这样,用户在迁移过程中将更加省心高效。
2025-07-31 16:49:30
541
原创 破 400!Apache SeaTunnel 成为全球开发者共建热土
随着 Apache SeaTunnel 项目在全球数据集成领域的不断发展壮大,今天我们迎来了一个重要的里程碑 —— GitHub 贡献者数量正式突破 400 人!
2025-07-22 16:43:17
563
原创 SeaTunnel 云仓连接器使用指南 | AI 助手解读系列
最近体验了一下 Deepwiki 的 AI 文档生成功能,本文展示其自动生成的《SeaTunnel 云端数据仓库连接器》文档内容,欢迎大家一起“挑刺捉虫”,看看 AI 写技术文档到底靠不靠谱?
2025-07-22 16:42:15
750
原创 主键分布不均 SeaTunnel CDC 同步卡顿多日?这样优化终于通了!
我们项目使用seatunnel从业务库抽数到数仓(StarRocks),已经成功使用Mysql-CDC做了大量的实时同步。但最近在抽一个MySQL表的时候遇到了异常情况,作业启动之后,日志显示读写数量一直为0,且长时间不停止,运行6小时之后以checkpoint timeout异常停止。
2025-07-08 16:18:02
551
原创 Apache SeaTunnel × Hive 深度集成指南:原理、配置与实践
在大数据处理的复杂生态中,数据的高效流转与整合是实现数据价值的关键。Apache SeaTunnel作为一款高性能、分布式、易扩展的数据集成框架,能够快速实现海量数据的实时采集、转换和加载;而Apache Hive作为经典的数据仓库工具,为结构化数据的存储、查询和分析提供了坚实的基础。
2025-07-08 16:16:31
821
原创 白鲸开源斩获「创业新星企业奖」,双开源项目同步摘奖!
在近日举行的 2025 上海开源创新菁英荟上,白鲸开源凭借在开源生态建设与技术商业化的双重突破,荣获 「创业新星企业奖」。
2025-07-02 11:45:48
424
原创 喜讯!Apache SeaTunnel 荣获上海开源创新菁英荟优秀开源项目奖
近日,在 2025 上海开源创新菁英荟上,Apache SeaTunnel 凭借信创生态适配与智能化技术突破,荣获 「优秀开源项目奖」。这个由中国团队孵化的开源项目,已成为全球数据集成领域的标杆。
2025-07-02 11:44:53
318
原创 SeaTunnel 社区月报(5-6 月):全新功能上线、Bug 大扫除、Merge 之星是谁?
在 5 月和 6 月,SeaTunnel 社区迎来了一轮密集更新:2.3.11 正式发布,新增对 Databend、Elasticsearch 向量、HTTP 批量写入、ClickHouse 多表写入等多个连接器能力,全面提升了数据同步灵活性。同时,近 100 个修复与优化 PR 合入,涵盖 Spark 引擎并行性修复、Paimon 精度兼容性增强、Mongo-CDC ExactlyOnce 默认值优化、Oracle DDL 类型支持补全等核心问题,稳定性和兼容性持续升级。
2025-07-01 17:32:25
1122
原创 SeaTunnel 社区 2 项目中选“开源之夏 2025”,探索高阶数据集成能力!
Apache SeaTunnel 社区在“开源之夏 2025”中再传捷报,共有两个项目成功入选,聚焦于 Flink CDC schema 支持与元数据管理的生态扩展方向,体现出 SeaTunnel 在实时数据集成和平台化能力构建上的深入布局。
2025-07-01 14:45:44
195
原创 一文吃透 SeaTunnel 线程共享机制与任务执行模型设计优化
Apache SeaTunnel Zeta 引擎是社区独立设计的大数据集成和同步专用引擎,本文聚焦于 Zeta 引擎中 TaskExecutionService 和任务调度模型的优化设计,涵盖 TaskGroup 的通信方式、call() 驱动模型,以及静态标记与动态线程共享两种线程资源优化策略,深度剖析这些创新机制如何让 Zeta 引擎实现性能数倍提升。
2025-06-24 10:39:45
706
原创 客户案例 | 某大型综合性券商借助白鲸开源产品打造全链路智能调度与数据集成平台
在数字化转型加速的今天,金融行业正面临前所未有的数据挑战:数据量指数级增长、任务调度日益复杂、数据源类型多样化、处理链路不断延长。某证券公司,作为国内领先的综合性券商,面向内部高强度的 IT 运维与业务流程自动化需求,构建了覆盖调度控制与数据集成的双引擎体系。
2025-06-19 10:30:44
653
原创 SQL Server CDC 机制全解:如何用 SeaTunnel 构建高效实时数据同步方案
在构建 AI-Ready 企业级数据集成方案中,SQL Server 的 CDC(Change Data Capture)机制为 Apache SeaTunnel 提供了稳定的变更数据捕获能力,适用于构建实时数据管道与增量同步任务。以下是对其工作机制、实现原理、应用模式的系统介绍。
2025-06-17 10:54:59
840
原创 实测提速 60%!Maven Daemon 全面加速 SeaTunnel 编译打包效率
综合测试数据可见,在 SeaTunnel 项目编译打包场景中,采用 Maven Daemon(mvnd)方案较传统 Maven 构建模式展现出显著性能优势:通过守护进程复用 JVM 环境及并行计算优化,相同构建任务的执行效率提升约 60%,大幅缩短了项目编译打包耗时。
2025-06-17 10:49:55
417
原创 3分钟搞懂 Apache SeaTunnel CDC 数据同步
CDC(Change Data Capture)是一种用于跟踪数据库库变更事件(插入、更新、删除)中的行级更改,并将事件以发生的顺序通知到其他系统处理。在容灾场景下,CDC主要实现的是主备间的数据同步,即从主数据库到备数据库的数据实时同步。
2025-06-17 10:07:45
716
原创 【Gartner权威解答】:合格CTO必懂的开源软件十大热点问题
技术创新领导者可以通过开源软件(OSS)推动创新、节省成本并提升灵活性。然而,若想真正的实现规避风险并提升业务价值,而不仅仅是炒作,优秀的管理和治理至关重要。
2025-06-11 17:18:27
720
原创 如何将SeaTunnel MySQL-CDC与Databend 高效整合?格式与方案全解析
本文将聚焦分析 SeaTunnel 中 MySQL-CDC 插件及其 Sink 输出的数据格式,并进一步探讨在实际场景中将 SeaTunnel 与 Databend 进行集成的可行性与实现路径。
2025-06-11 17:16:49
972
原创 多源多表写入、数据格式增强,SeaTunnel 2.3.11 重磅更新来了!
我们很高兴地宣布 Apache SeaTunnel 2.3.11 正式发布!
2025-06-05 15:03:34
716
原创 【异常总结】SeaTunnel集群脑裂配置优化方法
会根据该参数中该参数和历史回收耗时来计算本次要回收多少Region才能耗时200ms,假如回收了一部分远远没有达到回收的效果,G1还有一个特殊处理方法,STW后进行回收,然后恢复系统线程,然后再次STW,执行混合回收掉一部分Region,‐XX:G1MixedGCCountTarget=8 (默认是8次),反复执行上述过程8次。eg:假设要回收400个Region,如果受限200ms,每次只能回收50个Region,反复8次刚好全部回收完毕,避免单次停顿回收STW时间太长。该检测器默认处于禁用状态。
2025-05-27 18:35:29
830
原创 自然语言×数据集成新范式:SeaTunnel MCP深度解读 | 附视频讲解
此前,社区推出一篇文章《Apache SeaTunnel MCP Server:让AI成为你的ETL助手》介绍了即将推出的SeaTunnel MCP Server 能力,受到了大家的热烈反响。为了让大家更加深入地了解这个项目,社区又邀请到了该项目的核心开发者在线上 Meetup 上通过视频演示进行了长达十多分钟的细节展示。本文将此次活动整理成文字,带领大家再来深度了解一下 SeaTunnel MCP 的设计理念、架构演进及未来规划,适合对智能数据集成与大模型交互感兴趣的技术开发者阅读。
2025-05-27 18:24:06
722
原创 一招解决SeaTunnel Excel中无法将数字类型转换成字符串类型的问题 | 附源码打包
针对SeaTunnel处理Excel数字类型强转为字符串时导致的类型异常,本文将详解如何通过修改源码,实现数字类型到数据库字符串字段的兼容推送,并通过Maven打包部署修复后的代码。
2025-05-27 18:16:40
321
原创 4月报 | SeaTunnel支持TDengine的多表Sink功能
在本月的众多更新中,最令人关注的一项新特性是——TDengine 多表 Sink 功能的支持(由 @jia17 提交)。这一功能的引入,标志着 SeaTunnel 在面向时序数据库的数据写入能力上迈出了关键一步。
2025-05-27 18:14:32
813
原创 Java资源管理与防止泄漏:从SeaTunnel源码看资源释放
资源管理是 Java 开发中常被忽视却至关重要的一环。本文从 SeaTunnel 案例出发,探讨 Java 中如何正确管理资源,防止资源泄漏。
2025-05-19 18:20:42
439
原创 WhaleTunnel 信创数据库适配能力全景图:打通国产数据生态的最后一公里
随着国产化替代进程不断推进,信创数据库生态逐渐形成“百花齐放”的局面。然而,对于企业来说,如何在异构数据库间实现高效、稳定的数据同步与集成,仍是一大挑战。随着国产化替代进程不断推进,信创数据库生态逐渐形成“百花齐放”的局面。然而,对于企业来说,如何在异构数据库间实现高效、稳定的数据同步与集成,仍是一大挑战。
2025-05-14 15:58:43
683
原创 他为SeaTunnel写下10+高质量PR,还把开源带进了公司生产线!
最初是为了将 Elasticsearch 中的存量数据导出到其他存储系统。
2025-05-14 15:48:10
404
原创 SeaTunnel二次开发进阶:企业级复杂场景下的亿万级数据处理与智能容错机制
随着数据来源的不断复杂化及业务需求的快速演进,通用的数据集成框架在实际落地过程中往往面临诸多挑战:数据结构不规范、字段缺失、敏感信息混杂、数据语义不清等问题频繁出现。为了更好地应对这些复杂场景,某上市网络安全龙头企业基于 Apache SeaTunnel 进行了二次开发,构建了一套可扩展、易维护且具备复杂场景的数据处理与智能容错机制。本文将围绕实际功能扩展与设计理念,全面介绍相关技术实现。
2025-05-08 16:07:01
656
原创 SeaTunnel 2.3.9同步Oracle数据至Doris出现乱码?别慌,这么做
Oracle 字符集为 ASCII,如果想要同步数据到 Doris,就会出现中文乱码问题。那么出现这个问题该怎么办呢?实际上有办法解决。
2025-04-29 10:32:11
505
原创 从架构原理到落地实践:Apache SeaTunnel×Cloudberry数据集成全解读
本文将从数据集成的挑战谈起,深入解析 SeaTunnel 的设计理念与架构演进,并结合其在 Cloudberry 数据库中的实际集成应用,探讨未来面向高性能场景的扩展方向。
2025-04-29 10:28:26
1408
原创 Apache SeaTunnel 2025年3月份社区月度报告新鲜出炉!
各位热爱 Apache SeaTunnel 的小伙伴们,SeaTunnel 社区3月份月报来啦!刚加入社区的小伙伴们注意了!Apache SeaTunnel 正在迅猛发展,加入我们一起参与贡献,这将有利于提升数据同步的高可扩展性、高性能及高可靠性。
2025-04-23 15:19:11
1097
原创 万字长文 | Apache SeaTunnel 分离集群模式部署 K8s 集群实践
本文着重介绍了如何以推荐的分离集群模式(Separated Cluster Mode)部署k8s集群的实践,总结下来,部署过程主要包含以下步骤:准备 Kubernetes 环境确保已搭建并运行一个可用的 Kubernetes 集群,并安装所有必要的组件。构建 SeaTunnel Docker 镜像如果没有二次开发需求,可直接使用官方提供的镜像。否则,在本地编译打包后,编写 Dockerfile 并构建 SeaTunnel 镜像。配置Headless Service和Hazelcast集群。
2025-04-22 16:47:56
1282
原创 做到真正0丢失、0重复:Apache SeaTunnel 实现万亿级数据一致性全解密
Apache SeaTunnel通过精心设计的三维一致性架构,成功解决了企业级数据同步中最关键的数据一致性问题。这种设计既支持高吞吐量的批量数据处理,也保障了实时增量同步的精确性,为企业数据架构提供了坚实基础。端到端一致性:从数据读取到写入的全链路保障故障恢复能力:即使在极端条件下也能恢复并继续同步灵活的一致性级别:根据业务需求选择适当的一致性强度可验证的一致性:通过多种机制验证数据完整性。
2025-04-17 21:40:13
983
原创 欢迎 Apache SeaTunnel 新晋 Committer 王超
请您简单介绍一下自己,包括职业背景、当前的工作以及加入 Apache SeaTunnel 社区的起点。您的全名:王超当前职位/角色:后端开发工程师主要技术方向:主要聚焦在数据分片、数据处理以及开源技术的研发领域加入SeaTunnel社区的时间:2024年5月最初是在工作项目中寻找更高效数据传输和处理方案去替代现有的方案,从而了解到Apache SeaTunnel。项目需求促使我深入调研,进而被其插件化架构和灵活的实现方式所吸引,从而开启了参与和贡献的旅程。
2025-04-17 15:23:56
708
原创 CommunityOverCode Asia 2025议题征集倒计时,DataOps 分论坛等你发声
2025 年 7 月 25 日至 27 日,Apache 软件基金会亚洲年度峰会将在中国北京海淀区中关村国家自主创新示范区会议中心举办举办。这场开源盛会由官方主办,汇聚全球 Apache 顶级项目及其核心贡献者,是整个开源圈不可错过的年度盛典!其中,专注于数据集成、数据开发、数据治理等议题的将聚焦前沿数据技术与实践,是展示企业数据基础设施建设、工程能力、开源生态融合的绝佳舞台!🎤这不仅是一次面向全球的亮相机会,更是向 Apache 社区展示你与 SeaTunnel 实战经验的最佳时机。
2025-04-17 15:21:17
1010
原创 Apache SeaTunnel & Amazon Bedrock 助力生成式AI 应用规模化生产实践
本文通过 Apache SeaTunnel + Amazon Bedrock + Amazon OpenSearch 的组合,构建了一套高可扩展性、低耦合的语义搜索数据处理链路,成功实现了从结构化/非结构化文本数据到向量检索系统的全流程集成。松耦合架构设计:SeaTunnel 的插件式 Transform 和 Sink 机制,使得模型调用与向量写入逻辑保持解耦,方便后续替换嵌入模型或变更底层向量数据库;
2025-04-10 11:31:08
1177
原创 【同步教程】基于Apache SeaTunnel从MySQL同步到MySQL——Demo方舟计划
SeaTunnel 支持多种部署方式:使用 Seatunnel 自带引擎(Zeta)作为 Spark / Flink 作业运行。
2025-04-09 09:59:25
1525
原创 【双周会】就在今晚,Apache SeaTunnel Community Call 会议通知
会议主题:SeaTunnel Community Meeting(https://github.com/apache/seatunnel/issues/9100)点击提交您的议题:https://github.com/apache/seatunnel/issues/9100。:如果您在使用SeaTunnel中遇到任何问题,会议将为您提供一个面对面的互动机会。我们鼓励大家(任何人)提前提出议题与问题,确保会议内容更贴近社区成员的需求。请大家在会议链接中准时加入,并在议题收集链接中提交您关注的内容或问题。
2025-04-08 16:34:27
301
原创 Apache SeaTunnel MCP Server:让AI成为你的ETL助手
Apache SeaTunnel MCP Server,可以将 SeaTunnel 的接口文档提供给 Cursor 等支持 AI 编程的 IDE,或其他支持 MCP 的 AI 工具。是一种基于MCP协议的服务器,旨在为大型语言模型(LLM)提供与外部数据源和工具的无缝集成。它通过标准化AI系统与数据源的交互方式,帮助模型获取更丰富的上下文信息,从而生成更准确、更相关的响应。。
2025-04-02 10:02:38
526
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人