山东大学软件学院2021级数据可视化押题
(前言:之前个人整理了很多学科资料,因为太懒没有上传到博客,最近刚开学也没啥事干,就挑挑拣拣上传一些还算是有点用的东西。。。。。。这个押题是我之前考数据可视化时押的,老师是liuning,押中率还是比较高的)
文章目录
- 山东大学软件学院2021级数据可视化押题
- 0、各种距离的计算:
- 1、什么是可视化?可视化的作用?
- 2、变化盲视:
- 3、常用的可视化工具:
- 4、感知/认知:
- 5、格式塔理论的基本法则:
- 6、格式塔理论法则的举例:
- 7、各种细胞:
- 8、脑神经感知颜色的特性(人眼对颜色感知的特点):
- 9、加性/减性混合
- 10、视觉映像形成的过程(信息处理流程):
- 11、色彩空间:描述使用一组值表示颜色的方法的抽象数学模型。
- 12、色彩空间举例:
- 13、色盲的原因:缺少中长波感受器或色谱敏感性有所偏移。
- 14、色盲的解决方案:
- 15、什么是视觉假象,举例:
- 16、可视化编码:
- 17、标记和视觉通道举例:
- 18、可视化编码的表现力:
- 19、视觉通道表现力的判断标准:
- 20、数据的几种类别属性类型:
- 21、数据特征的基本统计描述:
- 22、ETL的含义:
- 23、常用的可视化质量指标:尺寸、视觉有效性和特征保留度。
- 24、NoSQL数据库实例:
- 25、数据仓库:面向主题的、已整合的、时变且稳定的数据集合,用来支持管理的决策过程。
- 26、探索式数据分析中的可视化方法:
- 27、什么是探索式数据分析?有哪些方法?
- 28、数据挖掘中的任务和方法:
- 29、数据可视化流程:
- 30、可视化流程的三个核心要素:
- 31、灰度值可被认为是有序的,编码数值型数据;色调认为是无序的,编码不同类型的值。
- 32、什么是视觉隐喻?作用?
- 33、小面积区域和大面积区域的感知特点及各自的设计原则:
- 34、表达类别型数据的颜色种类要少于8个。
- 35、有序型数据的设计原则:
- 36、数值型数据的设计原则:
- 37、聚类及K-means聚类的步骤:将一组属性变换为一个单一的类别型标签。
- 38、对偶尺度的模式:聚焦式、重叠式、中断式
- 39、地图映射的分类:
- 40、地理数据可视化的难点:二维平面的可视化对于立体的数据表现有困难。
- 41、点数据可视化的优缺点:
- 42、连线绑定技术(FlowMap算法的流程):
- 43、区域数据可视化的缺点:
- 44、简述力导向布局算法及优缺点:
- 45、层次数据可视化的两种基本方法:
- 46、树图布局算法:
- 47、常用的网络数据的布局:
- 48、正交布局的优缺点:
- 49、径向布局的优缺点:
- 50、节点-链接优缺点:
- 51、相邻矩阵法优缺点:
- 52、写出散点图、折线图、柱状图、箱须图的标记、必备视觉通道、常见视觉通道。
0、各种距离的计算:
Jaccard系数、欧氏距离、曼哈顿距离、明可夫斯基距离
1、什么是可视化?可视化的作用?
可视化:(1)可视图像的表达形式,用可视形式进行解释的动作或过程。
(2)利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术。
作用:记录信息,分析推理,证实假设,交流思想。
2、变化盲视:
当我们经历着多样事物发生时,仅仅关注其中一样,而忽视了其他事物的发生而且不知道其他事物的发生,称这种现象为变化盲视。
3、常用的可视化工具:
Google Refine, Echarts, Tableau, R, Processing, D3,ColorBrewer
4、感知/认知:
(1)感知:客观事物通过人的感觉器官在人脑中形成的直接反映。
(2)认知:包含注意力、记忆、产生和理解语言、解决问题,以及进行决策的心理过程的组合
5、格式塔理论的基本法则:
(1)人们在进行观察的时候,倾向于将视觉感知内容理解为常规的、简单的、相连的、对称的或有序的结构。
(2)人们在获取视觉感知的时候,会倾向于将事物理解为一个整体,而不是将事物理解为组成该事物的所有部分的集合。
6、格式塔理论法则的举例:
(1)贴近原则:当视觉元素在空间距离上较劲时,人们通常倾向于将他们归为一组。
(2)相似原则:人们在观察事物的时候,会自然的根据事物的相似性进行感知分组。
(3)连续原则:人们在观察事物的时候会自然的沿着事物的边界,将不连续的物体视为连续的整体。
(4)闭合原则:只要物体的形状足以表征物体本身,就容易感知整个物体而忽视未闭合的特征。
7、各种细胞:
视杆细胞:对亮度更敏感。(分布在视网膜中心周围)
视锥细胞:感知色彩,分为对红、绿、蓝敏感的三类。(分布在视网膜中心处)
神经节细胞:负责把细胞受到的刺激传递给视神经。
8、脑神经感知颜色的特性(人眼对颜色感知的特点):
(1)颜色恒定性。
(2)人脑对颜色的感知取决于该颜色与周围颜色的关系。
(3)人脑对亮度变化的感知要比色彩变化的感知更敏感。
9、加性/减性混合
加性混合:用于主动发光的物体;
减性混合:用于被动发光的物体。
10、视觉映像形成的过程(信息处理流程):
(1)刺激输入(2)前注意加工(3)视觉感知(4)选择性注意(5)判断和响应选择(6)响应执行(7)工作记忆和长期记忆(8)形成认知
11、色彩空间:描述使用一组值表示颜色的方法的抽象数学模型。
12、色彩空间举例:
(1)RGB/CMYK色彩空间(感知上不均匀:色彩空间中数值的变化与颜色的变化不一致)
(2)HSV/HSL色彩空间
(3)绝对色彩空间和相对色彩空间
13、色盲的原因:缺少中长波感受器或色谱敏感性有所偏移。
14、色盲的解决方案:
(1)避免混用色盲难以区分的颜色。
(2)无法避免时,尽量与符号联合使用。
(3)通过不同的亮度增加对比效果。
15、什么是视觉假象,举例:
人们通过眼睛所获得的信息被大脑处理后形成的关于事物的感知,与事物在客观世界中的物理现实并不一致,这种现象称为视觉假象。
(1)尺寸错觉(2)细胞错觉(3)轮廓错觉(4)不可能错觉(5)运动错觉
16、可视化编码:
概念:将数据信息映射成可视化元素的技术。由标记和视觉通道构成。
特点:表达直观、易于理解和记忆。
标记:数据属性到可视化元素的映射,用于直观的代表数据的性质分类(通常是一些几何图形)。
视觉通道:用于控制标记的展现特征,从定量的角度描述标记在可视化图像中的呈现状态。
17、标记和视觉通道举例:
标记:点、线、面
视觉通道:位置、大小、形状、方向、色调、饱和度、亮度……
(要会看图分析出来)
18、可视化编码的表现力:
视觉通道的表现力要求视觉通道准确编码数据包含的所有信息。视觉通道在对数据进行编码时,需尽量忠于原始数据。
有效性:通道表现力符合数据属性的重要性。
19、视觉通道表现力的判断标准:
(1)精确性:描述人类感知系统对可视化的判断结果与原始数据的吻合程度。
(2)可辨性:视觉通道可以具有不同的取值范围。
(3)可分离性:一个视觉通道的使用可能会影响人们对另外视觉通道的正确感知,从而影响对可视化结果的信息获取。
(4)视觉突出:在很短的时间内,人们可以仅仅依赖感知的前向注意,直接发觉某一对象和其他对象的不同。
20、数据的几种类别属性类型:
(1)类别型属性(2)有序性属性(3)数值型属性(4)离散型和连续型
21、数据特征的基本统计描述:
均值、中位数、均方差、相似度和相异度
22、ETL的含义:
抽取(Extract)、转化(Transform)、装载(Load)
23、常用的可视化质量指标:尺寸、视觉有效性和特征保留度。
24、NoSQL数据库实例:
Neo4j、Redis、MongoDB、CouchDB
25、数据仓库:面向主题的、已整合的、时变且稳定的数据集合,用来支持管理的决策过程。
26、探索式数据分析中的可视化方法:
(1)原始数据绘图(2)简单统计值标绘(3)多视图协调关联
27、什么是探索式数据分析?有哪些方法?
EDA:
方法:(1)基于统计(2)数据可视化驱动的方法(3)使用简单的方式概括数据主要特征
28、数据挖掘中的任务和方法:
任务:描述性任务、预测性任务
方法:统计方法、机器学习、算法方法、统计学习方法
29、数据可视化流程:
(1)数据采集(2)数据处理与变换(3)可视化映射(4)用户感知与交互
30、可视化流程的三个核心要素:
(1)数据处理与变换(2)可视化映射(3)用户感知与交互
31、灰度值可被认为是有序的,编码数值型数据;色调认为是无序的,编码不同类型的值。
32、什么是视觉隐喻?作用?
视觉隐喻,可以看做是用真实的物体,表达抽象的概念,或者额外的含义。
作用:让内容表达更加出色,符合我们日常的认知,引起观众的思考,并增加趣味性和更多含义。
33、小面积区域和大面积区域的感知特点及各自的设计原则:
感知特点:小面积区域颜色难于感知,大面积区域如果颜色明亮,会使面积看上去更大。
设计原则:小区域使用明亮的、饱和度高的颜色,大区域和背景中使用低饱和度的蜡笔风格颜色。
34、表达类别型数据的颜色种类要少于8个。
35、有序型数据的设计原则:
亮度和饱和度有一种内在的有序性,因此对顺序性数据非常有效。
设计原则:使用某种颜色下的亮度和饱和度的变化来表现顺序型数据。
36、数值型数据的设计原则:
(1)颜色映射采用有限个数的颜色色阶,同时带有亮度和饱和度的变化。
(2)精确表示的情况下可使用离散的颜色映射。
37、聚类及K-means聚类的步骤:将一组属性变换为一个单一的类别型标签。
(1)随机产生K个中心位置。
(2)将每个数据点归为距离最近的中心位置所属的类。
(3)根据新的类别划分重新计算中心位置。
(4)回到第二步,直到满足一定约束。
(和K-mediods的区别:K-medoids的中心位置必须在某个数据点上,且满足“到类内所有数据点的距离之和最小”,可以处理“距离型”数据)
38、对偶尺度的模式:聚焦式、重叠式、中断式
39、地图映射的分类:
(1)等距离(2)等面积(3)等角度
40、地理数据可视化的难点:二维平面的可视化对于立体的数据表现有困难。
41、点数据可视化的优缺点:
优点:简单,直观,与逻辑结构相匹配。
缺点:对于密集数据点表述力差。
42、连线绑定技术(FlowMap算法的流程):
(1)调整布局(2)将所有节点进行聚类(3)将源/汇移至根节点(4)绕开相交的边
43、区域数据可视化的缺点:
(1)数据分布和地理区域大小不对称。
(2)对空间的利用非常不经济。
(3)易造成用户对数据理解的错误。
44、简述力导向布局算法及优缺点:
(1)从随机生成的节点排列开始循环:为每一对节点计算排斥力;为每一条边计算引力;将各个节点的各个力累加到一起;沿着合力的方向更新各个节点的位置;
(2)当节点的排列足够好时结束更新。
优点:
(1)非常灵活,对各种类型的图都能生成较好的显示效果。
(2)相对容易实现。
(3)有现成软件包和算法可用。
缺点:
(1)往往是局部最优。
(2)初始位置对结果影响很大。
(3)算法复杂度比较大。
45、层次数据可视化的两种基本方法:
(1)节点-链接:将单个个体绘制成一个节点,节点之间的连线表示个体之间的层次关系。
(2)空间填充:用空间中的分块区域表示数据中的个体,用外层区域对内层区域包围表示彼此之间的层次关系。
46、树图布局算法:
(1)递归划分屏幕空间为矩形块。
(2)整个矩形表示最高层。
(3)较低层节点有各自权重比例。
(4)子节点重复上述步骤。
47、常用的网络数据的布局:
(1)节点-链接法
(2)相邻矩阵法
48、正交布局的优缺点:
优点:(1)布局规则(2)非常直观。
缺点:对大型层次结构,这样布局会导致不合理的长宽比。
49、径向布局的优缺点:
优点:更加合理利用空间。
缺点:(1)不直观(2)随着层次加深,圆周可能无法容纳所有点。
50、节点-链接优缺点:
优点:(1)关系反映直观(2)灵活多变
缺点:(1)复杂度高(2)密集图不适用
51、相邻矩阵法优缺点:
优点:(1)适用于致密图(2)视觉伸缩性强
缺点:(1)可视化结果抽象(2)难以跟踪出路径
52、写出散点图、折线图、柱状图、箱须图的标记、必备视觉通道、常见视觉通道。
①散点图:(a)标记:点 (b)必备的视觉通道: x,y坐标 (c)常见的视觉通道: 大小、色彩、形状
②折线图:(a)标记:折线 (b)必备的视觉通道:拐点的x,y坐标 (c)常见的视觉通道:色彩、宽度、形态(虚实,箭头等)
③柱状图:(a)标记: 矩形 (b)必备的视觉通道: 矩形的高度与x坐标次序 (c)常见的视觉通道:色彩、纹理、y坐标绝对位置
④箱须图:(a) 标记:矩形,点,线 (b)必备的视觉通道:矩形与点的y坐标位置与x坐标次序,矩形的高度 (c)常见的视觉通道:矩形的形状