
hadoop
文章平均质量分 92
数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
Young丶
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【开源】用户画像系统
用户画像系统可以帮助企业更好地了解用户需求和喜好,提供个性化的产品推荐、营销策略和服务,提升用户体验和用户满意度。通过用户画像系统,企业可以更精准地定位目标用户,优化产品设计和营销活动,提高市场竞争力。构建用户画像系统的流程。原创 2023-07-12 07:15:00 · 59679 阅读 · 0 评论 -
大数据平台核心架构图鉴,建议收藏
我们先来看看这张图,这是某公司使用的大数据平台架构图,大部分公司应该都差不多:从这张大数据的整体架构图上看来,大数据的核心层应该是:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有所不同,本质上的角色都大同小异。所以我下面就按这张架构图上的线索,慢慢来剖析一下,大数据的核心技术都包括什么。数据采集的任务就是把数据从各种数据源中采集和存储到数据存储上,期间有可能会做一些简单的清洗。数据源的种类比较多:作为互联网行业,网站日志占的份额最大,网站日志存储在多台网站日志服务器上,一般是在每台网站日志转载 2022-06-02 10:43:40 · 4490 阅读 · 0 评论 -
Hadoop之HDFS详解以及工作机制介绍
1. HDFS 概述1.1 HDFS 产出背景及定义1)HDFS 产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系 统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这 就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。2)HDFS 定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目 录树来定位文件;其次,它是分布式的,由很多服务器联合原创 2022-05-12 23:37:54 · 3548 阅读 · 0 评论 -
大数据之Hadoop 运行环境搭建
基础环境:Centos 7.7参考:VMware虚拟机安装详细教程网络NAT、网桥配置安装包、源码包下载地址https://archive.apache.org/dist/hadoop/common/hadoop-3.3.0/为什么要重新编译Hadoop源码?匹配不同操作系统本地库环境,Hadoop某些操作比如压缩、IO需要调用系统本地库(.so|.dll)修改源码、重构源码如何编译Hadoop 源码包根目录下文件:BUILDING.txt 详细步骤参考附件资料Hadoop 运.原创 2022-05-11 23:38:57 · 3188 阅读 · 0 评论 -
大数据技术之 Hadoop概念讲解
Hadoop介绍狭义上Hadoop指的是Apache软件基金会的一款开源软件。用java语言实现,开源允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理Hadoop核心组件Hadoop HDFS(分布式文件存储系统):解决海量数据存储Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度Hadoop MapReduce(分布式计算框架):解决海量数据计算官网http://hadoop.apache.org/广义上Hadoop指的是围绕H原创 2022-05-11 22:33:24 · 3999 阅读 · 0 评论 -
大数据技术之大数据概论
大数据概念1.大数据概念大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决,海量数据的采集、存储和分析计算问题按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte = 8bit 1K = 1024Byte 1MB = 1024K1G = 1024M 1T = 1024G 1原创 2022-05-10 23:57:12 · 4492 阅读 · 0 评论