散点图的解读、优化与避坑指南
立即解锁
发布时间: 2025-09-02 02:05:37 阅读量: 14 订阅数: 34 AIGC 


用数据讲故事的艺术
# 散点图的解读、优化与避坑指南
## 1. 散点图元素解析
散点图是一种强大的数据可视化工具,但添加过多细节可能会使其难以阅读。我们先从一家自行车店Allchains的简单散点图开始,该图比较了每种自行车类型的销售价值和利润。散点图主要包含以下几个关键元素:
### 1.1 多轴
与之前常见的单轴图表不同,散点图有两个轴(如图1所示)。这在直接比较两个指标时非常有用,两个轴形成一个二维空间,用于定位和比较数据点。

- **自变量与因变量**:通常,x轴代表自变量,即不受y轴影响的变量;y轴代表因变量,其值依赖于x轴。例如,在销售与利润的散点图中,销售价值通常放在x轴,因为没有销售就不会有利润,利润依赖于销售。
- **相关性模式**:散点图中的数据点形成的模式可归类为相关性模式。但要注意,“相关性并不等于因果关系”。比如,Allchains在晴天销售更多的自行车头盔,但这并不意味着晴天导致了更多的自行车装备销售,可能是因为晴天大多在夏天,整体温暖的季节天气促使人们更多地骑行。
- **相关性类型**:
- **正相关**:当x轴上的指标增加时,y轴上的指标也随之增加(如图2所示),可以用趋势线来展示。
- **负相关**:当自变量增加时,因变量减少(如图3所示)。例如,Allchains为自行车提供维护服务的次数增加,客户次年的机械故障次数会减少。
- **强相关与弱相关**:数据点紧密围绕趋势线表示强相关(如图4所示),数据点离趋势线越远,相关性越弱(如图5所示)。也存在无相关性的情况,即x轴和y轴上的指标之间没有关系(如图6所示)。





### 1.2 数据点
散点图中的数据点是核心。每个点代表两个数据值,分别来自x轴和y轴的指标(x, y)。
- **数据点数量问题**:数据点太少时,很难从图表中得出有用信息;而数据点过多则会导致过度绘图,使图表难以解读(如图7所示)。不过,这种图表仍能显示出异常值。
- **解决方法**:
- **增加透明度**:当需要分析单个数据点时,可以增加数据点的透明度,这样能更清楚地看到重叠点的位置(如图8所示)。
- **添加边框**:为数据点添加边框,至少从表面上显示数据点的数量,使重叠的点更突出(如图9所示)。



### 1.3 颜色
在散点图中,很难直观地看出每个点对应的分类值。可以通过添加颜色和颜色图例来解决这个问题(如图10所示)。

- **避免过度使用颜色**:过多的颜色会让观众难以记住每种颜色代表的含义,增加理解成本。
- **利用颜色的文化关联**:大多数文化对颜色有既定的含义,可以利用这一点来降低观众的认知负担。例如,用红色表示草莓、黄色表示香蕉来展示果蔬销售情况;用黑色和红色分别表示盈利和亏损。
- **颜色调色板类型**:
- **分类颜色调色板**:用不同的颜色代表不同的类别,如用类似泥土的颜色表示山地自行车,石头色表示砾石自行车,灰色表示公路自行车。
- **顺序颜色调色板**:当数据点代表有序数据时,可以使用单一颜色的不同深浅来表示值的顺序,如从浅到深表示从低到高或从早到晚(如图11所示)。
- **发散颜色调色板**:用两种颜色表示超过或低于某个阈值的值,如一种颜色表示表现不佳,另一种颜色表示表现出色。
- **突出
0
0
复制全文
相关推荐










