1.数据分类是一个两阶段过程,包括(A)和分类阶段。
A.学习阶段 B.分析阶段 C.实验阶段 D.预测阶段
2.直线回归系数假设检验,其自由度为(D)。
A. n-1 B. 2n-1 C. n D.n-2
3.对于(D)的分析往往需要将特殊的数据预处理方法与分析处理算法集成在一起考虑。
A.事物数据库 B.关系数据库 C.异构数据库 D.多媒体数据库
4.关于正态分布,下列说法错误的是(D)。
A.正态分布的均值和方差能够决定正态分布的位置和形态
B.正太分布具有集中性和对称性
C.标准正态分布的均值为0,方差为1
D.正态分布的偏度为0,峰度为1
5.在基本K均值算法里,当邻近度函数采用(C)的时候,合适的质心是簇中各点的中位数。
A.欧几里德距离 B.余弦距离 C.曼哈顿距离 D.Bregman散度
6.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(A)
A.聚类 B.关联分析 C.隐马尔可夫链 D.分类
7.PageRank是一个函数,它对Web中的每个网页赋予一个实数值,它的意图在于网页的PageRank越高,那么它就(D)
A.越不重要 B.相关性越低 C.相关性越高 D.越重要
8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为(D)
A. 0.67 , 0.67 B. 0.67 , 0.4 C. 0.4 , 0.4 D. 0.4 , 0.67
9.数据归约的目的是(B)
A.集成多个数据源的数据 B.得到数据集的压缩表示 C.规范化数据 D.填补数据中的空缺值
10.下面哪个端口不是spark自带服务的端口(C)
A. 4040 B. 18080 C.8090 D.8080
11. HDFS默认Block Size的大小是(C)
A. 128M B. 1M C. 64MB D.32M
12.(B)适用于多维数据,且每个维度必须可以排序。
A.曲线图 B.雷达图 C.饼图 D.直方图