
大数据从0到1的完美落地
文章平均质量分 75
全方位揭秘!大数据从0到1的完美落地
千锋IT教育
定期分享IT学习技术资料(java、前端、大数据、Python、全链路UI/UE等)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Linux安装操作(Mac版本)
Parallels Desktop是Mac平台上的虚拟机软件,也是Mac平台最好的虚拟机软件之一。它允许用户在Mac OS X系统上同时运行其他操作系统,例如Windows、Linux等。Parallels Desktop为Mac用户提供了使用其他操作系统和软件的便利性,而无需使用双系统或者重新启动电脑。Parallels Desktop支持在Mac电脑上运行多个虚拟机,并且能够访问Mac和虚拟机之间的文件和应用程序。原创 2023-07-31 09:00:14 · 2576 阅读 · 0 评论 -
Superset使用
如果出现连接失败问题(ERROR: Connection failed, please check your connection settings)添加你的表(mysql中对应数据创建一个表,表名随意,数据内容是id和times列,自行插入一些数据)官网:http://superset.apache.org/installation.html。”提示即表示连接成功。说明:对接不同的数据源,需安装不同的依赖,以下地址为官网说明。【千锋教育】大数据开发全套教程,史上最全面的大数据学习视频。原创 2023-07-27 09:15:04 · 1422 阅读 · 0 评论 -
Superset部署
说明:gunicorn是一个Python Web Server,可以和java中的Tomcat类比。:flask是一个python web框架,Superset使用的就是flask。说明:pip是python的包管理工具,可以和centos中的yum类比。在里面可以设置用户名与密码,其他的可以不用设置,直接enter就行。上面我每一个都设置的root,也就是以后我们登录Web界面的时候,采用的数据库是sqllite数据库,是一个轻量级的数据量。说明:-i的作用是指定镜像,这里选择国内镜像。原创 2023-07-27 09:12:32 · 487 阅读 · 0 评论 -
Superset基础安装
Superset快速,轻巧,直观,并带有各种选项,使各种技能的用户都可以轻松浏览和可视化其数据,从简单的折线图到高度详细的地理空间图。原创 2023-07-27 09:10:41 · 307 阅读 · 0 评论 -
Hive内部表和外部表
外部表:使用后数据不想被删除的情况使用外部表(推荐使用)所以,整个数据仓库的最底层的表使用外部表。2、drop时,内部表的表目录会被删除,但是外部表的表目录不会被删除。内部表: 平时用来测试或者少量数据,并且自己可以随时修改删除数据.就差两个关键字,EXTERNAL 和 LOCATION。在元数据库mysql创建相应表的描述数据(元数据)在Hive中,表类型主要分为两种。1、drop时,元数据都会被清除。默认创建的表就是内部表。在hdfs下创建表目录。原创 2023-07-26 09:26:13 · 1160 阅读 · 0 评论 -
Hive视图
hive的视图简单理解为逻辑上的表hive只支持逻辑视图,不支持物化视图视图存在的意义对数据进行局部暴露(涉及隐私的数据不暴露)简化复杂查询。原创 2023-07-26 09:22:30 · 1784 阅读 · 0 评论 -
Mysql遗忘密码
在任意的路径下,新建一个文本文件,其中添加修改密码的操作。将my.cnf中,刚刚添加的一行跳过权限检查删除掉。启动MySQL的服务,用新的密码登录即可。dmg直装 -> /etc/my.cnf。回车运行之后,就可以ctrl+c停止了。不需要密码登录到MySQL,并修改密码。使用管理员身份运行命令提示符。停止MySQL的服务。打开my.cnf文件。原创 2023-07-26 09:21:02 · 301 阅读 · 0 评论 -
Mysql操作DQL
DQL是数据查询语言(Data Query Language)的缩写,是一种用于从数据库中检索数据的编程语言。DQL是SQL(结构化查询语言)的子集,用于查询关系型数据库,例如MySQL、Oracle和SQL Server等。DQL提供了多种查询操作,如SELECT、FROM、WHERE、GROUP BY、HAVING、ORDER BY等。使用这些操作,可以根据特定的条件检索所需的数据,并按照特定的顺序进行排序和分组。DQL还支持多表查询和子查询,可以从多个表中联合检索数据,并在子查询中使用嵌套查询语句进行原创 2023-07-26 09:19:07 · 235 阅读 · 0 评论 -
YARN的设计思想
在1.x中JobTracker类似于之间HDSF结构的完全分布式的NameNode节点,单节点负载过重(既要分配任务也要资源管理)而且存在单点故障问题,在2.x中提供了Yarn的概念并且将JobTracker拆分成了两个单独的服务,一个是全局的资源管理器ResourceManager,另外一个就是每个程序都有的特定应用程序ApplicationManager,而且Yarn模式是支持(HA操作)所以也抗单点故障问题。Nodemanager整个集群有多个,负责每个节点上的资源和使用。原创 2023-07-25 09:15:19 · 244 阅读 · 0 评论 -
SQL语言书写与规则
即数据定义语言,是 SQL 语言的一个子集,用于定义数据库中的结构和约束。DDL 中常用的语句包括 CREATE、ALTER、DROP、TRUNCATE 等。原创 2023-07-25 09:13:08 · 235 阅读 · 0 评论 -
Mysql操作多表查询
有的时候,当一个查询语句A所需要的数据,不是直观在表中体现,而是由另外一个查询语句B查询出来的结果,那么查询语句A就是主查询语句,查询语句B就是子查询语句。这种查询我们称之为高级关联查询,也叫做子查询。- 返回单行单列 => 可以被视为一个数值来使用- 返回多行单列 => 可以被视为一个集合来使用- 返回单行多列 => 可以被视为一个虚拟表使用- 返回多行多列 => 可以被视为一个虚拟表使用- 在where子句中: 子查询的结果可用作条件筛选时使用的值。原创 2023-07-25 09:12:00 · 1502 阅读 · 0 评论 -
sqoop简介
Sqoop是一个用于Hadoop和结构化数据存储(如关系型数据库)之间进行高效传输大批量数据的工具。它包括以下两个方面: 可以使用Sqoop将数据从关系型数据库管理系统(如MySql)导入到Hadoop系统(如HDFS、Hive、HBase)中将数据从Hadoop系统中抽取并导出到关系型数据库(如MySql)原创 2023-07-24 09:24:28 · 265 阅读 · 0 评论 -
Hive压缩
map阶段的设置, 就是在MapReduce的shuffle阶段对mapper产生的中间结果数据压缩。在这个阶段,优先选择一个低CPU开销的算法。HQL语句最终会被编译成Hadoop的Mapreduce job,因此hive的压缩设置,实际上就是对底层MR在处理数据时的压缩设置。【千锋教育】大数据开发全套教程,史上最全面的大数据学习视频。即对reduce阶段的输出数据进行压缩设置。更多大数据精彩内容欢迎B站搜索“”或者扫码领取全套资料。原创 2023-07-24 09:21:31 · 231 阅读 · 0 评论 -
Linux二进制软件安装
学软件开发,各种台的软件熟练安装是必须要熟练掌握。大家都知道,Windows下安装软件时,只需用鼠标双击软件的安装程序,或者用Zip等解压缩软件解压缩即可安装;在android或者apple中安装软件时,只需要在手机应用商店点击安装即可。而在Linux下安装软件难度高于Windows、Android、ios和windows phone下软件安装。下面我就详细讲解Linux下如何安装软件。Linux下软件的安装大概可以分为如下几种:1 二进制程序的安装(最简单安装)原创 2023-07-21 09:12:43 · 318 阅读 · 0 评论 -
YARN的三种调度器
Scheduler即调度器,根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序。原创 2023-07-21 09:11:02 · 282 阅读 · 0 评论 -
YARN的命令
类似于Linux的top命令,查看正在运行的程序资源占用情况。【千锋教育】大数据开发全套教程,史上最全面的大数据学习视频。查看指定队列使用情况,下文会讲解任务队列。更多大数据精彩内容欢迎B站搜索“”或者扫码领取全套资料。原创 2023-07-21 09:09:28 · 282 阅读 · 0 评论 -
Hive排名函数
第一种函数:row_number从1开始,按照顺序,生成分组内记录的序列,row_number()的值不会存在重复,当排序的值相同时,按照表中记录的顺序进行排列。第三种函数:DENSE(但是)_RANK() 生成数据项在分组中的排名,排名相等会在名次中不会留下空位。第二种函数:RANK() 生成数据项在分组中的排名,排名相等会在名次中留下空位。原创 2023-07-20 09:09:17 · 529 阅读 · 0 评论 -
Hive序列函数
(num)个桶中, 将桶号分配给每一行。如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差1。ntile(n):把有序分区中的行发送到指定的组中(n是有几组),各个组有编号,编号是从1开始。可以看成是:它把有序的数据集合。【千锋教育】大数据开发全套教程,史上最全面的大数据学习视频。lead(列,行数,默认值):往后第n行数据。lag(列,行数,默认值):往前第n行数据。lead返回当前数据行的后第n行的数据。lag返回当前数据行的前第n行的数据。案例:求5分钟内点击100次的用户。原创 2023-07-20 09:07:30 · 243 阅读 · 0 评论 -
Hive_Shell操作
大多数的Hadoop, Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。有的时候 Hive的输入数据量是非常小的。通过参数-f +file文件名就可以,经常用在以后的sql文件单独执行,导入数据场景中 【执行的的是hive默认的default数据库】用户可以在Hive的shell中执行HDFS的DFS命令,不用敲入前缀hdfs或者hadoop。小技巧1:可以在shell中输入set命令,可以看到hive已经设定好的参数。通过shell的参数 -e 可以执行一次就运行完的命令。原创 2023-07-20 09:05:30 · 642 阅读 · 0 评论 -
Linux之vi命令
建议使用vim命令,如果没有这个命令可以使用 yum install -y vim 进行安装。vim/vi是Unix / Linux上最常用的文本编辑器而且功能非常强大。【千锋教育】大数据开发全套教程,史上最全面的大数据学习视频。编辑模式:又称底行模式,命令行模式。更多大数据精彩内容欢迎B站搜索“插入模式: 可以编辑文本。命令模式:又称一般模式。”或者扫码领取全套资料。只有命令,没有菜单。使用替换命令添删注释。原创 2023-07-19 08:47:31 · 269 阅读 · 0 评论 -
Mysql操作DDL
DDL代表数据定义语言(Data Definition Language),它是SQL语言的一个子集,用于定义数据库对象,如表、列、索引、约束等。DDL语句的执行将对数据库模式进行更改,这将影响到数据库的结构和存储。原创 2023-07-19 08:45:45 · 734 阅读 · 0 评论 -
Mysql操作DML
DML指的是数据操作语言(Data Manipulation Language),是SQL(结构化查询语言)的一个子集,用于操作关系型数据库中的数据。DML命令用于插入、更新、删除和检索数据库中的数据。原创 2023-07-19 08:44:32 · 221 阅读 · 0 评论 -
YARN的命令
类似于Linux的top命令,查看正在运行的程序资源占用情况。大数据开发全套教程,史上最全面的大数据学习视频。查看指定队列使用情况,下文会讲解任务队列。原创 2023-07-18 09:04:19 · 1049 阅读 · 0 评论 -
LinuxRPM软件安装
学软件开发,各种台的软件熟练安装是必须要熟练掌握。大家都知道,Windows下安装软件时,只需用鼠标双击软件的安装程序,或者用Zip等解压缩软件解压缩即可安装;在android或者apple中安装软件时,只需要在手机应用商店点击安装即可。而在Linux下安装软件难度高于Windows、Android、ios和windows phone下软件安装。下面我就详细讲解Linux下如何安装软件。Linux下软件的安装大概可以分为如下几种:1 二进制程序的安装(最简单安装)原创 2023-07-18 09:03:14 · 2835 阅读 · 0 评论 -
Linux关机重启、网络命令
【千锋教育】大数据开发全套教程,史上最全面的大数据学习视频。更多大数据精彩内容欢迎B站搜索“”或者扫码领取全套资料。原创 2023-07-18 09:01:12 · 270 阅读 · 0 评论 -
Linux查看、搜索查找命令
iname : 按照名字查找。-name : 按照名字查找。-size : 按照大小查找。-type : 按照类型查找。原创 2023-07-17 09:06:24 · 398 阅读 · 0 评论 -
Linux磁盘、压缩解压命令
【千锋教育】大数据开发全套教程,史上最全面的大数据学习视频。更多大数据精彩内容欢迎B站搜索“”或者扫码领取全套资料。原创 2023-07-17 09:05:02 · 767 阅读 · 0 评论 -
Linux常用命令
【千锋教育】大数据开发全套教程,史上最全面的大数据学习视频。更多大数据精彩内容欢迎B站搜索“”或者扫码领取全套资料。原创 2023-07-17 09:03:24 · 164 阅读 · 0 评论 -
HDFS读写流程
注意:在读取数据的时候,如果FSInputStream与DataNode通信时遇到错误,会尝试从这个块的最近的DataNode读取数据,并且记住那个故障的DataNode,保证后续不会反复读取该节点上后续的块。客户端通过调用FileSystem对象的open()方法来打开希望读取的文件,对于HDFS来说,这个对象是DistributedFileSystem,它通过使用远程过程调用(RPC)来调用namenode,以确定文件起始块的位置。【千锋教育】大数据开发全套教程,史上最全面的大数据学习视频。原创 2023-07-12 09:08:21 · 145 阅读 · 0 评论 -
HDFS的Shell操作
HDFS的文件系统上的文件,不允许进行文件中的数据插入、删除、修改操作,只支持向文件的末尾追加内容。例如: 删除文件的第10行数据,在第11行插入数据,修改第12行数据等,这些都是不允许的。HDFS的Shell操作主命令都是 hdfs dfs,其他的操作直接向后拼接即可。HDFS是一个分布式文件系统,我们可以使用一些命令来操作HDFS集群上的文件。【千锋教育】大数据开发全套教程,史上最全面的大数据学习视频。例如: 文件上传、下载、移动、拷贝等操作。更多大数据精彩内容欢迎B站搜索“”或者扫码领取全套资料。原创 2023-07-12 09:06:45 · 431 阅读 · 0 评论 -
Hadoop概述
现在的我们,生活在数据大爆炸的年代。国际数据公司已经预测在2020年,全球的数据总量将达到44ZB,经过单位换算后,至少在440亿TB以上,也就是说,全球每人一块1TB的硬盘都存储不下。扩展:数据大小单位:Byte,KB,MB,GB,TB,PB,EB,ZB,YB,DB,NB一些数据集的大小更远远超过了1TB,也就是说,数据的存储是一个要解决的问题。同时,硬盘技术也面临一个技术瓶颈,就是硬盘的传输速度(读数据的速度)的提升远远低于硬盘容量的提升。原创 2023-07-12 09:03:58 · 349 阅读 · 0 评论 -
Flume优化
负载均衡Sink 选择器提供了在多个sink上进行负载均衡流量的功能。它维护一个活动sink列表的索引来实现负载的分配。flume的自动容灾指的是当某一个channel或者sink挡掉后,由其他的sink来接收数据。flume的负载均衡指的是多个channel处理的event的数量尽可能的相同。)两种选择机制分配负载。2)下游的qianfeng02上的方案。3)下游的qianfeng03上的方案。2)下游的qianfeng02上的方案。3)下游的qianfeng03上的方案。”或者扫码领取全套资料。原创 2023-07-11 09:35:29 · 421 阅读 · 0 评论 -
HDFS的体系结构
比如,用户在Client上需要访问一个文件时,HDFS的实际工作流程如此:客户端先把文件名发送给Namenode,Namenode根据文件名找到对应的数据块信息及其每个数据块所在的Datanode位置,然后把这些信息发送给客户端。这种设计方式,实现了并发访问,大大提高了数据的访问速度。命名空间镜像文件,它是文件系统元数据的一个完整的永久检查点,内部维护的是最近一次检查点的文件系统树和整棵树内部的所有文件和目录的元数据,如修改时间,访问时间,访问权限,副本数据,块大小,文件的块列表信息等等。原创 2023-07-11 09:33:14 · 404 阅读 · 0 评论 -
HDFS块详解
但是如果存储的都是128M的文件,则集群存储的数据大小为109.6PB的数据。因为HDFS的文件是以块为单位存储的,且如果文件大小不到128M的时候,是不会占用整个块的空间的。一个过大的文件存储在一个节点磁盘上,当有并行处理时,每个线程都需要从这个节点磁盘上读取这个文件的内容,那么就会出现网络瓶颈,不利于分布式的数据处理。同样假设存储1M和128M的文件对比,同样存储1PB的数据,如果是1M的小文件存储,占用的内存空间为1PB/1Mb。可以看到,同样存储1PB的数据,小文件的存储比起大文件占用更多的内存。原创 2023-07-11 09:31:47 · 552 阅读 · 0 评论 -
Hive分桶
数据分区可能导致有些分区数据过多,有些分区数据极少。分桶是将数据集分解为若干部分(数据文件)的另一种技术。分区和分桶其实都是对数据更细粒度的管理。当单个分区或者表中的数据越来越大,分区不能细粒度的划分数据时,我们就采用分桶技术将数据更细粒度的划分和管理。原创 2023-07-10 09:03:11 · 197 阅读 · 0 评论 -
Hive自定义函数
hive的内置函数满足不了所有的业务需求。hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。而自定义函数可以分为以下三类:用户自定义函数,一对一的输入输出 (最常用的)。用户自定义聚合函数,多对一的输入输出,比如:count sum max。用户自定义表生产函数 一对多的输入输出,比如:lateral view explode1)准备工作和注意事项在pom.xml,加入以下maven的依赖包。原创 2023-07-10 09:01:44 · 280 阅读 · 0 评论 -
YARN的Node Label机制
官网对NodeLabel的介绍如下:节点标签是一种对具有相似特征的节点进行分组的方法,应用程序可以指定在哪里运行。那么标签到底是做什么的?我们可以创建多个队列,划分集群的总的资源。例如队列hive占集群总资源的70%,那么这个70%具体会落地在哪一个节点上呢?没办法确定,有可能在qianfeng01,也有可能在qianfeng03。而节点标签,可以为每一个NodeManager打上标签,可以限定某一个程序只能够运行在哪些节点上。原创 2023-07-10 08:59:46 · 582 阅读 · 0 评论 -
Linux系统目录和网络链接
目录描述、说明Linux的根目录/binbinaries,存放系统命令的目录,所有用户都可以执行/sbinsuper user binaries,保存和系统环境设置相关的命令,只有超级用户可以使用这些命令,有些命令可以允许普通用户查看/usr/bin存放系统命令的目录,所有用户都可以执行。这些命令和系统启动无关,单用户模式下不能执行/usr/sbin存放根文件系统不必要的系统管理命令,超级用户可执行/root存放root用户的相关文件,root用户的家目录。超级用户宿主目录。原创 2023-07-07 09:42:01 · 264 阅读 · 0 评论 -
Linux远程连接工具
SSH 为 Secure Shell 的缩写,由 IETF 的网络小组(Network Working Group)所制定SSH 为建立在应用层基础上的安全协议。SSH 专为远程登录会话和其他网络服务提供安全性的协议,可以有效防止远程管理过程中的信息泄露问题。SSH 由客户端和服务端两部分组成。服务端是一个sshd进程,提供密钥认证、密钥交换等处理。客户端包含 SSH程序以及scp(远程拷贝)、slogin(远程登陆)、sftp(安全文件传输)原创 2023-07-07 09:34:54 · 465 阅读 · 0 评论 -
Linux系统设置
【千锋教育】大数据开发全套教程,史上最全面的大数据学习视频。更多大数据精彩内容欢迎B站搜索“”或者扫码领取全套资料。原创 2023-07-07 09:32:55 · 188 阅读 · 0 评论