
数据科学导论复习笔记:大数据、数据存储与预处理
下载需积分: 0 | 1.43MB |
更新于2024-06-27
| 109 浏览量 | 举报
6
收藏
"这是一份山东大学软件学院数据科学导论的复习笔记,主要涵盖了大数据的4V特征、数据采集整理的ETL过程、数据存储的类型与数据库系统组成、关系型与非关系型数据库的对比,以及数据预处理的重要性和方法。这份笔记特别强调了在大数据背景下NoSQL数据库的使用场景,并提供了数据清洗和数据相似度计算的概述。笔记适用于2023年软件工程专业的学生复习使用。"
详细说明:
1. **大数据的4V特征**:
- 数据量巨大(Volume):指数据的规模,可能达到PB级别。
- 高实时性(Velocity):数据生成和处理的速度要求非常高。
- 数据类型多(Variety):包括结构化、半结构化和非结构化的各种数据类型。
- 价值巨大但价值密度低(Value):大量数据中蕴含的有用信息比例较低,需要高效挖掘。
2. **数据采集整理(ETL过程)**:
- Extract:从不同源系统抽取数据。
- Transform:对抽取的数据进行清洗、转换,使其符合目标系统的要求。
- Load:将转换后的数据加载到目标系统(如数据仓库)。
3. **数据预准备**:
- 包括数据特征化、数据清洗和数据集成,涉及数据的传输、序列化和反序列化操作。
4. **数据格式**:
- JSON、XML、HTML是常见的数据交换格式,其中JSON和XML常用于数据传输,HTML则用于网页内容。
5. **数据存储形态**:
- 结构化数据:如关系型数据库中的数据,有固定模式。
- 半结构化数据:如XML和JSON,包含相关标记但结构灵活。
- 非结构化数据:如文本、图片、视频,没有固定结构。
6. **数据库系统**:
- 包括DB(数据库)、DBMS(数据库管理系统)、应用系统和数据库管理员,RDBMS在大数据面前面临挑战。
7. **NoSQL与SQL的对比**:
- NoSQL适应大规模、分布式和非结构化数据存储,适合快速迭代的开发需求。
- SQL适用于结构化数据和事务一致性要求高的场景。
8. **数据预处理**:
- 数据预处理是消除数据质量差的问题,如缺失值、噪声数据、不一致性,以便进行有效分析和建模。
- 数据清洗方法包括填充缺失值、去除噪声、一致性校验和数据整理。
- 数据规范化用于不同尺度数据的比较,通过缩放使之具有可比性。
9. **数据相似度计算**:
- SMC(Simple Matching Coefficient)和Jaccard系数用于衡量集合的相似性。
- 余弦相似性衡量向量之间的角度,常用于文本相似度计算。
这些知识点是数据科学导论的基础,对于理解和处理大数据问题至关重要。在实际应用中,理解并掌握这些概念可以帮助学生更好地进行数据分析和决策。
相关推荐







rose334
- 粉丝: 6
最新资源
- NIIT SM3系统中VoIP技术的应用与实践
- 国际软件工程案例分析与文档研究
- SWFObject技术——新一代SWF嵌入解决方案
- 探索VS2005与SQL2005构建的三层架构MIS系统
- 电子秒表单片机课程设计开发指南
- 初学者入门指南:深度解析DELPHI编程
- 某地区电信项目需求与静态页面开发文档
- WordPress高级新闻主题介绍与下载指南
- 全面软件开发文档模板指南
- 编译原理课程设计:for循环语句翻译解析
- ASP.NET开发的实物物品在线交易平台
- VB源码实现简易记事本,助力毕业设计
- C++编程新手入门:全面解析问题分析与程序设计
- VB.NET实现的简单购物网站教程
- 实时网络流量监测:下载与上传流量一目了然
- 自定义报表工具,提升工作效率的利器
- 掌握国标软件工程文档的正确打开方式
- JSP网络开发实战:从系统运行到源动力解析
- 高校学生课绩管理系统升级版功能解析
- JSP中执行存储过程与事务管理的实践教程
- 本地无IIS环境下运行网站的便捷工具
- 实现带时间选择功能的JavaScript日期控件
- C++版药品库存管理系统实例分析
- Flash与PHP结合实现多文件上传技术详解