数据科学入门:从基础到实践
1. 数据科学中的数据规模对比
在数据科学领域,不同项目的数据规模差异巨大。例如,有研究对 edX 平台上的 862 个慕课(MOOC)视频、超 12 万学生以及 690 万次视频观看记录进行跟踪分析,这是一个基于慕课的项目规模。然而,还有更大的数据生产系统,如大型强子对撞机(LHC),它是当今最大的数据生产设施,目前在 LHC 设施中进行的四个实验,每个每秒都会产生数千吉字节的数据,每年约产生 15 拍字节的数据。另外,物联网(IoT)也是一个数据“巨兽”。
2. 数据科学的学习理念
数据科学强调持续学习,这涵盖了领域知识、技术、算法、编程语言等各个层面。正如中国的一句古话:“授人以鱼,不如授人以渔”,在数据科学中,我们不能仅仅满足于掌握现有的事实,而要为未来综合知识。
3. 数据科学的核心能力领域
数据科学有三个相互关联的核心能力领域:
- 领域知识 :指对特定领域的深入了解。
- 数学 :包含概率论和统计学等。
- 软件工程 :确保数据科学软件解决方案具有可维护性和可扩展性。
这三个领域可以用维恩图来表示,虽然自 2010 年 Drew Conway 首次提出后有许多变体,但核心思想不变。大多数人通常只在某一个领域特别强,但只要在另外两个领域有扎实的基础就可以。由于数据科学注重团队合作,因此多层次的沟通能力至关重要。例如,在项目中,你需要用领域内的专业语言与重要利益相关者和其他团队成员进行有效沟通。
以下是获取领域知识