第一章 阿里大数据产品体系

1.大数据基础知识

什么是数据分析?

数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程。

数据分析流程:需求分析明确目标➡️数据收集加工处理➡️数据分析数据展现➡️分析报告提炼价值

什么是数据仓库?

数据仓库是一个面向主题的(subject oriented)、集成的(integrated)、非易失的(non- volatile)、时变的(time variant)数据集合,用于支持管理决策。

  • 面向主题:数据仓库中的数据是按照主题来组织的;
  • 集成:一个数据仓库的数据源可以来源于不同的业务系统;
  • 非易失的:数据到达数据仓库一般不会被改变,即数据仓库对外一般支持查询,不支持修改等;
  • 时变:数据仓库中的数据随时间不断变化;

数据仓库解决的问题

  1. 为业务部门提供准确及时的报表;
  2. 为管理人员提供更强的分析能力,如OLAP(联机分析处理)技术;
  3. 为数据挖掘和知识发现奠定基础;

什么是大数据?

大数据,指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的四个特征

  • 体量极大(volume)
  • 种类繁多(variety)
  • 价值密度低(value)
  • 处理速度快(velocity)

云计算与大数据的关系

云计算提供存储与计算的基础设施,大数据则是运行在其上的应用。

大数据的处理思路

减治:将问题化简成一个更简单的能处理的问题
分治:将问题拆分成多个可以简单求解的小问题

大数据计算技术三种计算场景

  • 离线,定时发生,批量处理,实时性差;
  • 在线,用户操作触发,频繁交互,快速响应;
  • 流式:消息触发,逐条处理;

大数据应用常见场景

  • 数据仓库:通过搭建数据仓库,实现传统的数据分析;
  • 智能算法:通过智能算法,实现语音,图像,文本分析处理等;
  • 大数据应用:将成熟的解决方案应用到系
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值