
大数据
文章平均质量分 69
大数据开发学习笔记
Stig_Q
我认出风暴而激动如大海
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
什么是Hbase
只有光头才能变强。文本已收录至我的GitHub精选文章,欢迎Starhttps://3y/3y在我还不了解分布式和大数据的时候已经听说过HBase了,但对它一直都半知不解,这篇文章来讲讲吧。在真实生活中,最开始听到这个词是我的一场面试,当年我还是个『小垃圾』,现在已经是个『大垃圾』了。面试官当时给了一个场景题问我,具体的题目我忘得差不多了,大概就是考试与试题的一个场景,问我数据库要如何设计。转载 2024-05-30 16:14:07 · 1874 阅读 · 0 评论 -
Hive:LATERAL VIEW 使用总结
lateral view用于和split, explode等UDTF一起使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF,UTDF会把一行拆分成一或者多行,lateral view再把结果组合,产生一个支持别名表的虚拟表。转载 2023-02-20 17:43:42 · 1163 阅读 · 0 评论 -
Hive函数用法:Cast(字段名 as 转换的类型 )
Hive函数用法:Cast(字段名 as 转换的类型 )原创 2023-02-16 14:03:35 · 1815 阅读 · 0 评论 -
数仓事实表分类:事务事实表,周期快照事实表,累计快照事实表。
建模数仓领域中的事实表大致分以下三种:事务事实表,周期快照事实表,累计事实表。事务事实表与周期快照事实表、累积快照事实表虽然使用相同的一致性维度,但是它们在内容构成以及业务描述上还是有很大的区别。原创 2023-02-16 11:24:13 · 1976 阅读 · 0 评论 -
MapReduce shuffle过程
我们知道MapReduce计算模型主要由三个阶段构成:Map、shuffle、Reduce。Map是映射,负责数据的过滤分法,将原始数据转化为键值对;Reduce是合并,将具有相同key值的value进行处理后再输出新的键值对作为最终结果。为了让Reduce可以并行处理Map的结果,必须对Map的输出进行一定的排序与分割,然后再交给对应的Reduce,而这个将Map输出进行进一步整理并交给Reduce的过程就是Shuffle。转载 2022-12-24 00:08:11 · 1369 阅读 · 0 评论 -
简单理解数据湖
微软的定义就更加模糊了,并没有明确给出什么是Data Lake,而是取巧的将数据湖的功能作为定义,数据湖包括一切使得开发者、数据科学家、分析师能更简单的存储、处理数据的能力,这些能力使得用户可以存储任意规模、任意类型、任意产生速度的数据,并且可以跨平台、跨语言的做所有类型的分析和处理。4、 数据湖需要具备完善的数据管理能力(完善的元数据),可以管理各类数据相关的要素,包括数据源、数据格式、连接信息、数据schema、权限管理等。2、 数据湖可以存储海量的任意类型的数据,包括结构化、半结构化和非结构化数据。原创 2022-11-22 15:23:02 · 450 阅读 · 0 评论 -
数仓范式建模、ER实体建模和维度建模
维度建模以数据分析作为出发点,为数据分析服务,因此它关注的重点的用户如何更快的完成需求分析以及如何实现较好的大规模复杂查询的响应性能。建模方式在范式理论上符合3NF,这里的3NF与OLTP中的3NF还是有点区别的:关系数据库中的3NF是针对具体的业务流程的实体对象关系抽象,而数据仓库的3NF是站在企业角度面向主题的抽象。这种建模方法的出发点是整合数据,其目的是将整个企业的数据进行组合和合并,并进行规范处理,减少数据冗余性,保证数据的一致性。能够结合业务系统的数据模型,较方便的实现数据仓库的模型;原创 2022-11-22 14:39:46 · 1559 阅读 · 0 评论 -
星型模型和雪花型模型的区别
星型模型因为数据的冗余所以很多统计查询不需要做外部的连接,因此一般情况下效率比雪花型模型要高。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 "层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,如在地域维度表中,存在国家 A省 B 的城市 C 以及国家 A 省 B 的城市 D 两条记录,那么国家 A 和省 B 的信息分别存储了两次,即存在冗余。原创 2022-11-22 14:28:43 · 760 阅读 · 0 评论 -
HBase与传统的关系数据库的区别?
1. 数据类型。关系数据库采用关系模型,具有丰富的数据类型和储存方式。HBase则采用了更加简单的数据模型,它把数据储存为未经解释的字符串,用户可以把不同格式的结构化数据和非结构化数据都序列化成字符串保存到HBase中,用户需要自己编写程序把字符串解析成不同的数据类型。原创 2022-10-31 11:20:28 · 2062 阅读 · 0 评论 -
HBase表和Regionserver组件的对应关系
MemStore 是一个缓存 (In Memory Sorted Buffer),当所有数据完成 WAL 日志写后,就会写入MemStore 中,由 MemStore 根据一定的算法将数据 Flush 到地层 HDFS 文件中(HFile),每个 HRegion 中的每个 Column Family 有一个自己的 MemStore。当服务器宕机时,MemStore 中的数据有可能会丢失,此时 HBase 就会使用 WAL 中的记录对 MemStroe 中的数据进行恢复。原创 2022-10-27 17:30:13 · 1351 阅读 · 0 评论 -
Kafka 判断一个节点是否还活着的条件
(1)节点必须可以维护和ZooKeeper 的连接,Zookeeper 通过心跳机制检查每个节点的连接。(2)如果节点是个follower,他必须能及时的同步leader 的写操作, 延时不能太久。原创 2022-10-21 14:29:04 · 664 阅读 · 0 评论 -
为什么选用MySQL存储Hive的元数据
实际生产环境中不适用, 为了支持多用户会话,则需要一个独立的元数据库,使用 MySQL 作为元数据库,MySQl支持多客户端访问,Hive 内部对 MySQL 提供了很好的支持。数据库中,只能允许一个会话连接,只适合简单的测试,如果你启动了两个终端软件执行hive的话,就会抛出异常。默认情况下,Hive 元数据 保存在内嵌的。原创 2022-10-12 16:29:28 · 1302 阅读 · 0 评论 -
HDFS读流程和写流程理解
读流程步骤:写流程步骤:原创 2022-09-30 16:25:57 · 588 阅读 · 0 评论 -
HDFS小文件危害以及如何解决
(1)生产上首先需要设置小文件的阈值,到达这个值对**小文件进行合并**。对于这个合并,一种是在HDFS存储之前就进行合并,还有一种就是计算完之后根据业务周期来进行合并。后一种需要在计算时格外对小文件进行调整。(1.1)**har回档**:Apache官方提供了官方工具去合并hdfs上的小文件(Hadoop Archive或者HAR)这是一个高效地将小文件放入HDFS块中的文件存档工具,它能够将多个小文件打包成一个HAR文件。具体说来,HDFS存档文件对内还是一个一个独立文件,对NameNode而言却是一原创 2022-09-29 21:42:25 · 3290 阅读 · 0 评论 -
Hadoop-谈谈你对Hadoop的正确认识和理解
什么叫大数据,“大”,说的并不仅是数据的“多”!不能用数据到了多少TB ,多少PB 来说。对于大数据,可以用四个词来表示:大量,多样,实时,不确定。也就是数据的量庞大,数据的种类繁杂多样话,数据的变化飞快,数据的真假存疑。大量:这个大家都知道,想百度,淘宝,腾讯,Facebook,Twitter等网站上的一些信息,这肯定算是大数据了,都要存储下来。多样:数据的多样性,是说数据可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等。实时:大数据需要快速的,实时的进行处理转载 2022-03-12 13:16:59 · 2870 阅读 · 0 评论 -
Maven是什么? Maven的概念+作用+仓库的介绍+常用命令
Maven系列11.什么是Maven?Maven是一个项目管理工具,它包含了一个对象模型。一组标准集合,一个依赖管理系统。和用来运行定义在生命周期阶段中插件目标和逻辑。 核心功能 Maven的核心功能是合理叙述项目间的依赖关系,通俗点 就是通过pom.xml文件的配置获取jar包不用手动的去添加jar包,,这个pom.xml包我后面会叙述,不过已经学习过maven的 人应该对这个很熟悉。其本质就是通过配置pom.xml来获取jar包,当然这是在该项目必须是maven项目的前提下。那么什么是maven项目转载 2022-03-11 20:33:29 · 63847 阅读 · 10 评论