数据科学导论 考试有感 2019 山东大学

本文是关于数据科学导论的学习总结,重点探讨了MapReduce的实际应用,包括实验经历、大数据与云计算概念、文本分析以及数据质量问题。同时,文章对比了Hadoop与Spark,详细解析了HDFS的架构和MapReduce的工作流程,还涉及了数据挖掘中的距离计算方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据科学导论 考试有感 2019 山东大学

数据科学导论

平时分50分 有4个实验 两个人一组
爬虫、实体融合、twitter、MapReduce

3道题

  • 简答:各种距离
  • 设计:MapReduce
  • 算法:PersonalRank

如果是非数据科学方向的同学,一定慎重,复习就像开天辟地。我们本学期是计算机网络考完后隔一天考数据科学导论,时间比较紧,大致整理如下。具体内容我有上传word资源。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

  • 大数据
  • 云计算
  • 文本分析
    • 文本特征提取
    • 输入单词、id,输出词袋向量
    • 理解词袋的表示方式,优缺点
    • 输入句子,给出N-Gram表示
  • 数据科学有什么难点
  • 数据科学解决问题的步骤
  • 数据质量如何评估
  • 数据质量
评论 30
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值