
大数据
文章平均质量分 94
大数据
MadeInSQL
创新一是种生活方式、挑战是一种生活状态
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive在实时数仓中的应用
Hive在实时数仓中通常作为离线批处理的核心组件,通过Lambda架构与Spark/Flink等流处理引擎互补。其优势在于大规模历史数据分析能力,而实时性需求需结合其他技术实现。未来随着Hive ACID事务和物化视图的完善,其在准实时场景中的应用将进一步扩展。原创 2025-06-10 10:17:59 · 559 阅读 · 0 评论 -
Hive元数据管理
Hive元数据管理与最佳实践元数据存储:默认Derby(仅测试),生产环境推荐MySQL/PostgreSQL。元数据操作:SHOW TABLES、DESCRIBE FORMATTED table_name、ALTER TABLE table_name ADD PARTITION。备份与恢复:定期导出元数据(如mysqldump),避免单点故障。原创 2025-06-10 10:11:41 · 926 阅读 · 0 评论 -
HiveQL高级特性与优化详解
窗口函数窗口函数允许在数据集的"窗口"上执行计算,而不改变结果集的行数:ROW_NUMBER(): 为结果集中的行分配唯一序号RANK()/DENSE_RANK(): 为相同值的行分配相同排名NTILE(n): 将结果集分成n个大致相等的组分析函数分析函数提供跨行计算能力:LAG(col, n): 获取当前行前n行的值LEAD(col, n): 获取当前行后n行的值FIRST_VALUE(col): 获取窗口框架中的第一个值LAST_VALUE(col): 获取窗口框架中的最后一个值原创 2025-06-10 10:06:57 · 634 阅读 · 0 评论 -
Hive数据模型与存储格式深度解析
Hive的数据模型和存储格式直接影响查询性能、存储效率及维护成本。原创 2025-06-10 10:03:08 · 1007 阅读 · 0 评论 -
Hive基础架构与执行原理深度解析
MetaStore(元数据存储)作用:存储Hive表结构、分区信息、权限等元数据(如HDFS路径、列类型)。实现方式:默认使用嵌入式Derby(仅测试用),生产环境推荐MySQL/PostgreSQL。关键点:元数据是Hive与底层存储(HDFS/HBase)解耦的关键,支持多客户端并发访问。Driver(查询协调器)角色:接收用户HQL请求,驱动查询生命周期(编译→优化→执行)。交互对象:与Compiler、Execution Engine、MetaStore交原创 2025-06-10 09:54:13 · 726 阅读 · 0 评论 -
TDengine 整体架构
TDengine采用分布式高可靠架构设计,支持水平扩展,确保单点故障不影响系统可用性。其核心逻辑单元包括数据节点(dnode)、虚拟节点(vnode)、管理节点(mnode)、计算节点(qnode)和流计算节点(snode)。通过虚拟节点组(VGroup)实现数据分片和副本管理,采用Raft协议保证数据一致性。系统采用时序数据与标签数据分离存储模型,支持按时间分区和多级存储策略。写入流程基于主从复制机制,查询优化通过预计算和缓存策略实现。TDengine支持动态负载均衡和扩容,能够自动管理数据在不同存储介质原创 2025-05-26 14:38:56 · 971 阅读 · 0 评论 -
通过 Spark Web UI 识别和解决数据倾斜问题
假设有一个 Join 操作,将订单表(orders)和用户表(users)进行连接,连接条件是用户 ID(user_id)。通过 Spark Web UI 发现某些 Task 的执行时间明显长于其他 Task。结合这些指标,采取相应的优化措施,可以有效解决数据倾斜问题,提升 Spark 作业的性能。原创 2025-05-06 10:55:20 · 1132 阅读 · 0 评论 -
spark sql 数据倾斜的影响、识别及调优策略
Spark SQL 中的数据倾斜是指在进行并行数据处理时,由于数据分布不均,导致某些分区或计算节点的数据量远大于其他分区,从而拖慢整个作业的执行速度。原创 2025-05-06 10:49:06 · 629 阅读 · 0 评论