数据科学导论
平时分50分 有4个实验 两个人一组
爬虫、实体融合、twitter、MapReduce
3道题
- 简答:各种距离
- 设计:MapReduce
- 算法:PersonalRank
如果是非数据科学方向的同学,一定慎重,复习就像开天辟地。我们本学期是计算机网络考完后隔一天考数据科学导论,时间比较紧,大致整理如下。具体内容我有上传word资源。




- 大数据
- 云计算
- 文本分析
- 文本特征提取
- 输入单词、id,输出词袋向量
- 理解词袋的表示方式,优缺点
- 输入句子,给出N-Gram表示
- 数据科学有什么难点
- 数据科学解决问题的步骤
- 数据质量如何评估
- 数据质量