数据管理技术与方法试题

这是一份关于数据管理技术与方法的试题,涵盖了数据分类、统计分析、数据库类型、正态分布特性、K均值算法、聚类分析、PageRank、关联规则、数据归约、Spark服务端口和HDFS Block Size等多个知识点,旨在测试读者在这些领域的理解和应用能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.数据分类是一个两阶段过程,包括(A)和分类阶段。

    A.学习阶段     B.分析阶段     C.实验阶段    D.预测阶段

2.直线回归系数假设检验,其自由度为(D)。

    A. n-1         B. 2n-1       C. n        D.n-2

3.对于(D)的分析往往需要将特殊的数据预处理方法与分析处理算法集成在一起考虑。

   A.事物数据库  B.关系数据库  C.异构数据库  D.多媒体数据库

4.关于正态分布,下列说法错误的是(D)。

   A.正态分布的均值和方差能够决定正态分布的位置和形态

   B.正太分布具有集中性和对称性

   C.标准正态分布的均值为0,方差为1

   D.正态分布的偏度为0,峰度为1

5.在基本K均值算法里,当邻近度函数采用(C)的时候,合适的质心是簇中各点的中位数。

   A.欧几里德距离     B.余弦距离     C.曼哈顿距离     D.Bregman散度

6.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(A

   A.聚类       B.关联分析       C.隐马尔可夫链       D.分类

7.PageRank是一个函数,它对Web中的每个网页赋予一个实数值,它的意图在于网页的PageRank越高,那么它就(D

   A.越不重要     B.相关性越低    C.相关性越高    D.越重要

8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为(D

TIM截图20190309191841.png

   A. 0.67 , 0.67       B. 0.67 , 0.4       C. 0.4 , 0.4        D. 0.4 , 0.67

9.数据归约的目的是(B

   A.集成多个数据源的数据     B.得到数据集的压缩表示     C.规范化数据        D.填补数据中的空缺值

10.下面哪个端口不是spark自带服务的端口(C

   A. 4040           B. 18080              C.8090             D.8080

11. HDFS默认Block Size的大小是(C

   A. 128M          B. 1M           C. 64MB         D.32M

12.(B)适用于多维数据,且每个维度必须可以排序。

   A.曲线图          B.雷达图        C.饼图          D.直方图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值