数据思维--总结

本文深入探讨大数据思维,包括全数据、容错性和相关性思维,详述大数据的生产、采集、存储、预处理、分析及可视化流程。涵盖HDFS、云存储、NoSQL存储模型、数据清洗、数据分析算法等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.大数据思维:全数据思维、容错性思维、相关性思维
全数据思维:“以大见小”
容错性思维:容许大数据噪音、杂志,接受数据的错误和噪音;
相关性思维:
1)对消费者诉求和实际情况统计和分析;
2)挖掘事物间的某种联系;并具体应用;
2.大数据生产
1)UGC;百度问答、微博、微信
2)数据加工成新数据:数据清洗、加工、包装成数据产品;例如:政府开放数据、物联网数
3.大数据采集
数据源:线上行为数据(网页数据、交互应该数据、传播数据源、政府数据源);内容数据(系统日志、电子文档);
结构化数据、半结构化数
4.大数据存储
HDFS存储:
1)一次写入、多次读取;
2)数据块存储:块(Block):默认64MB;分块(Chunk):文件被划分为多个分块
3)Namenode(项目经理)client(客户端)
Datanodes(团队成员)
云存储:
1)公有云:百度云、华为云,360云盘、腾讯云
私有云:为用户独自构建云服务
混合云:混合云
2)no-sql特点:
一致性:执行某项操作,系统仍处于一致性;
可用性:每一个操作总能在一定时间内返回结果;
容错性:分区后,系统对接点动态加入和离开的处理能力,集群内部的网络分区。
3)BASE理论:
B-BASICALLY
A-AVAILABLE:基本可用
S-STATE
软状态:允许系统存在中间状态,可以有一段时间不同步,具有滞后性
硬状态:保证数据的一致性,数据一直是正确的
E- eVENTUALLy CONSISTENCY
强一致性:更新一次操作,其他读写保证最新数据
弱一致性:更新一次操作,不保证其他读写保证最新数据
4)NOSQL存储模型:键值存储、列式存储、文档存储、图存储
键值存储:
优势:模型简单易于实现;key查询、修改;
劣势:批量数据查询、更新失效低
列式存储:
优势:节省I/O,适合数据分析、数据仓库
5.大数据预处理:
数据清洗:确实数据清洗、冗余数据清洗、噪声数据清洗
噪声数据:表现-错误数据、虚假数据及异常数据
处理方法-分箱、聚类和回归;
数据变换、数据集成(内容集成、结构集成)
数据脱敏:单向性、无残留、易于实现
6.大数据分析:
1)基础业务理解:定性分析、定量分析
2)数据理解:数据存储、数据收集过程、数据更新
3)数据分析:简单统计分析、关联分析
4)数据分析分类:结构化数据分析、文本数据、web数据分析、多媒体分析、社交网络分析
5)常见数据分析算发:分类算法、聚类算法、K-Means算法、回归分析、深度数据学习
7.数据可视化
可视化工具:excel、Tableau、Echarts、ggplot2
8.大数据测试流程:
人物画像标签及规则—标签计算规则—构造测试数据(本地csv数据-转“json”-添加至QA环境)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值