1.大数据基础知识
什么是数据分析?
数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程。
数据分析流程:需求分析明确目标➡️数据收集加工处理➡️数据分析数据展现➡️分析报告提炼价值
什么是数据仓库?
数据仓库是一个面向主题的(subject oriented)、集成的(integrated)、非易失的(non- volatile)、时变的(time variant)数据集合,用于支持管理决策。
- 面向主题:数据仓库中的数据是按照主题来组织的;
- 集成:一个数据仓库的数据源可以来源于不同的业务系统;
- 非易失的:数据到达数据仓库一般不会被改变,即数据仓库对外一般支持查询,不支持修改等;
- 时变:数据仓库中的数据随时间不断变化;
数据仓库解决的问题
- 为业务部门提供准确及时的报表;
- 为管理人员提供更强的分析能力,如OLAP(联机分析处理)技术;
- 为数据挖掘和知识发现奠定基础;
什么是大数据?
大数据,指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的四个特征
- 体量极大(volume)
- 种类繁多(variety)
- 价值密度低(value)
- 处理速度快(velocity)
云计算与大数据的关系
云计算提供存储与计算的基础设施,大数据则是运行在其上的应用。
大数据的处理思路
减治:将问题化简成一个更简单的能处理的问题
分治:将问题拆分成多个可以简单求解的小问题
大数据计算技术三种计算场景
- 离线,定时发生,批量处理,实时性差;
- 在线,用户操作触发,频繁交互,快速响应;
- 流式:消息触发,逐条处理;
大数据应用常见场景
- 数据仓库:通过搭建数据仓库,实现传统的数据分析;
- 智能算法:通过智能算法,实现语音,图像,文本分析处理等;
- 大数据应用:将成熟的解决方案应用到系