数据科学是现代信息技术领域的重要分支,它涉及到对大量复杂数据的收集、整理、分析和解释,以揭示隐藏的模式和趋势,为企业决策提供依据。在2021-2022年的数据科学导论期末试题中,涵盖了一系列关键概念和技术。
大数据的定义指的是无法用传统数据处理方法有效管理的大量、高速、多样化的信息资产。大数据的四个特性,通常被称为4V:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。Volume体现在数据的规模上,Velocity关注数据生成的速度,Variety则指数据的种类和结构,而Value强调从数据中提取的价值。
数据处理流程通常包括ETL(Extract, Transform, Load)三个阶段。Extract是指从各种源系统中抽取数据,Transform是对数据进行清洗、转换,使其满足目标系统的格式要求,Load则是将处理后的数据加载到目标系统,如数据仓库或数据湖。
XML(Extensible Markup Language)是一种用于存储和传输数据的标记语言。解析XML的方法有DOM(Document Object Model)和SAX(Simple API for XML)。DOM将整个XML文档加载到内存中,便于随机访问,但内存消耗大;SAX是事件驱动,逐行读取,节省内存,但不支持随机访问。
SQL(Structured Query Language)是用于管理关系数据库的语言。它包括数据查询、数据操作、数据定义、数据控制等部分。创建一个名为student,包含sid、name、age三列的表格的SQL语句如下:
```sql
CREATE TABLE student (
sid INT PRIMARY KEY,
name VARCHAR(100),
age INT
);
```
SQL中的JOIN操作用于合并两个或多个表的数据。INNER JOIN返回两个表中匹配的行,LEFT OUTER JOIN返回左表的所有行,即使右表没有匹配项,匹配的行在结果中显示所有列,非匹配行在右表列填充NULL。
MapReduce是大数据处理的一种分布式计算模型。它分为Map阶段、Shuffle阶段和Reduce阶段。Map阶段将输入数据分割成键值对,由各个工作节点并行处理;Shuffle阶段负责数据排序和分区,确保相同键的值被分发到同一台机器;Reduce阶段聚合键值对,生成最终结果。
探索性数据分析(Exploratory Data Analysis, EDA)是数据分析的初步阶段,旨在理解数据的性质、发现潜在结构和异常值。基本方法包括描述性统计、可视化、相关性分析等。
K-means算法是一种无监督学习的聚类方法,步骤大致为:初始化质心、分配数据点到最近的质心、更新质心、重复以上步骤直到质心不再变化或达到预设迭代次数。
N-gram是自然语言处理中的一个概念,例如2-grams(bigrams)是连续的两个词,如“Shandong university”,3-grams(trigrams)是连续的三个词,如“Shandong university is”。对于给定的句子,“Shandong university is a famous university in China”,2-grams和3-grams可以列举出来。
图数据是数据科学中的一个重要类型,常见的图数据包括社交网络、交通网络、基因网络等。数据可视化工具如Tableau、Power BI、Gephi等,能够帮助我们将复杂的数据以图形化的方式展示,便于理解和分析。