自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Azkaban:Flow2.0 与报警机制超实用用法大揭秘,启动脚本优化让效率飙升

Azkaban 是一个开源的工作流调度系统,用于在分布式环境中管理和执行复杂的任务流。它提供了一个可视化的界面,方便用户创建、调度和监控任务流。Azkaban 支持多种任务类型,包括 shell 脚本、Java 程序、Hive 脚本、Spark 任务等。

2025-06-21 09:14:24 677

原创 从 0 到 1 玩转 DolphinScheduler!一文解锁分布式任务调度神器的奥秘与安装攻略

在大数据与云计算技术飞速发展的当下,企业和开发者面临着日益复杂的数据处理与任务调度难题。传统的调度工具在面对大规模、多样化的任务时,往往力不从心。而 DolphinScheduler 作为一款开源的分布式工作流任务调度系统,凭借其强大的功能和便捷的使用体验,成为了众多企业和开发者的 “心头好”。本文将带你深入了解 DolphinScheduler 的魅力,并手把手教你完成安装部署,开启高效任务调度之旅。

2025-06-19 18:36:05 1054

原创 《一键激活数据引擎!Azkaban 安装与使用全攻略》

Azkaban 是 LinkedIn 开源的任务调度和工作流管理系统,基于 Java 开发,采用 Web Server 与 Executor Server 架构。其核心优势在于简洁易用,通过直观的 Web 界面和.job文件即可定义任务及其依赖关系,轻松处理批处理任务的调度,如传统数据仓库的 ETL 流程。它支持 Shell 脚本、Java 程序、Hadoop 作业等常见任务类型,并能通过插件扩展对 JDBC、Python 任务的支持。

2025-06-19 15:36:57 986

原创 Sqoop 数据抽取 “翻车” 现场急救指南

在大数据领域,Sqoop 凭借其高效的数据迁移能力,成为了从关系型数据库抽取数据到 Hadoop 生态系统的得力工具。然而,在实际使用过程中,各种报错问题却常常让开发者头疼不已,这些问题不仅影响数据抽取进度,还可能导致数据丢失或错误。本文将带您直击 Sqoop 数据抽取 “翻车” 现场,深度剖析 10 大高频报错问题,并提供详尽的解决方案,助您轻松化解数据抽取危机。

2025-06-17 20:55:09 760

原创 告别数据收集难题!Apache Flume 如何成为企业大数据基建 “顶梁柱”!!!

在大数据的广袤领域中,数据的收集与传输犹如基石,支撑着整个数据处理的大厦。Apache Flume,作为一款卓越的分布式日志采集、聚合和传输系统,正以其独特的魅力,在大数据生态系统中占据着举足轻重的地位。它能够高效地从各种数据源收集海量数据,并将其可靠地传输到集中式存储或处理系统,为后续的数据分析和应用提供坚实的数据基础。接下来,让我们一同揭开 Apache Flume 的神秘面纱,深入探索其强大的功能与特性。​。

2025-06-17 19:42:58 792

原创 Hive 深度优化指南:从原理到实战,附完整代码解析

在大数据处理领域,Hive 凭借其强大的数据处理能力和 SQL 友好性,成为众多企业处理海量数据的首选工具。然而,随着数据量的不断增长,Hive 的性能问题逐渐凸显。本文将从表设计、查询执行、资源管理等多个维度,深入探讨 Hive 优化的方法和技巧,并通过具体代码示例进行详细说明,帮助你显著提升 Hive 的运行效率。

2025-05-28 18:12:54 1028

原创 保姆级教程!10 分钟了解搞定 ZooKeeper!!!

zk就是一个分布式文件系统,不过存储数据的量极小。这个技术虽然比较小和简单,但是大数据领域还是离不开它的,比如:1 hadoop集群2 kafka集群3 hbase 等都需要zk的支持1. zookeeper是一个为分布式应用程序提供的一个分布式开源协调服务框架。是Google的Chubby的一个开源实现,是Hadoop和Hbase的重要组件。主要用于解决分布式集群中应用系统的一致性问题。2. 提供了基于类似Unix系统的目录节点树方式的数据存储。

2025-05-22 19:54:58 759

原创 《Hadoop 3.x 完全分布式集群搭建之HDFS指南 | 从原理到实战,万字详解》

Hadoop 分为三部分 : Common、HDFS 、Yarn、MapReduce(有点过时了)Hadoop生态圈:除了hadoop技术以外,还有hive、zookeeper、flume、sqoop、datax、azkaban等一系列技术。Hadoop 是 道格·卡丁 本身他是Lucene的创始人。Lucene 其实是一个jar包。检索现在主流的是Solr以及ES(Elastic Search)。

2025-05-21 19:59:51 1635

原创 Hive开发指南:Hive小技巧和Datagrip插入数据报错问题

比如:在shell中,可以查看到当前数据库的名字在hive的家目录下的conf文件夹下,创建 .hiverc 文件cd /opt/installs/hive/conf 下面在这个.hiverc 文件中,添加:注:配置完成后要重新进入。

2025-05-20 20:39:37 994

原创 解决DataGrip连接Hive驱动安装不成功问题,亲测有效

之后再打开 DataGrip。

2025-05-20 13:11:13 303

原创 《Trae AI IDE的安装详细教程》哇哇哇~

它借助 AI 技术,重塑了编程开发流程,它是一款对标 Cursor 和 Windsurf 的全新 IDE,也是一款真正为中文开发者量身定制的工具,可谓是中文开发者的福音。总而言之,trae工具智能体,他可以帮我们做很多场景方面的事,比如一些科研提效、办公场景啊,然后分析一些数据啊、一些代码生成、对于一些复杂的项目、网页也设计等等。其优雅的 UI、丝滑的交互、母语级的支持、更高的 AI 集成度、更‮然自‬的交‮式互‬对话开发、更‮‬精准的 AI 生‮效成‬果,都让你感到亲切和惊艳!比如下面的冒泡排序。

2025-05-15 13:21:00 424

原创 《Hadoop 3.x 伪分布式集群搭建指南 | 从原理到实战,万字详解》

Hadoop 分为三部分 : Common、HDFS 、Yarn、MapReduce(有点过时了)Hadoop生态圈:除了hadoop技术以外,还有hive、zookeeper、flume、sqoop、datax、azkaban等一系列技术。Hadoop 是 道格·卡丁 本身他是Lucene的创始人。Lucene 其实是一个jar包。检索现在主流的是Solr以及ES(Elastic Search)。

2025-05-13 11:04:48 964

原创 mysql8.0和5.7版本忘记密码详细教程(亲测有效)

重新开一个cmd窗口。

2025-05-13 08:39:24 605

原创 虚拟机的(保姆级)详细安装教程

在普通的物理机上,虚拟出来一块资源,安装另一个操作系统,这样的软件就称之为虚拟机。它可以自动的切割一些资源(内存,硬盘,CPU,网络)相当于是模拟器(windows -->模拟器--> 安卓系统-->王者荣耀)

2025-05-09 19:52:21 1067

原创 AWK 超详细教程:从入门到精通

AWK是一种强大的文本处理工具,它不仅仅是一个命令,更是一种编程语言。与其他文本处理工具(如grep、sed)相比,AWK提供了更高级的功能,如变量、数组、函数等,使你能够处理复杂的文本处理任务。

2025-05-09 19:39:56 403 1

原创 linux的mysql8.0保姆级详细安装教程

官方提供两种安装包下载,一种是rpm包安装,一种是tar包安装。本次我们选择rpm安装包安装。

2025-05-08 08:32:43 310

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除