数据相关性分析代码
时间: 2025-05-28 11:02:43 浏览: 9
### 数据相关性分析示例代码
以下是基于 Pandas 和 NumPy 的数据相关性分析的完整代码示例。此代码展示了如何加载数据、清理缺失值以及计算不同类型的关联度量。
#### 加载和准备数据
首先,创建一个简单的 DataFrame 来模拟实际场景中的数据集:
```python
import pandas as pd
import numpy as np
# 创建样本数据
data = {
'Temperature': [20, 22, 19, 23, 24, 25, None],
'Humidity': [60, 58, 65, 70, 75, 80, 68],
'Pollution_Index': [50, 45, 55, 60, 65, 70, 52]
}
df = pd.DataFrame(data)
print("原始数据:")
print(df)
```
#### 清理数据
在进行相关性分析之前,通常需要移除或填充缺失值。这里通过 `dropna()` 方法删除含有缺失值的行。
```python
# 删除含 NaN 值的行
df_cleaned = df.dropna()
print("\n清洗后的数据:")
print(df_cleaned)
```
[^1]
#### 计算皮尔逊相关系数
皮尔逊相关系数适用于衡量两个连续变量之间的线性关系强度。
```python
# 计算 Pearson 相关系数矩阵
correlation_matrix = df_cleaned.corr(method='pearson')
print("\nPearson 相关系数矩阵:")
print(correlation_matrix)
```
[^2]
#### 计算斯皮尔曼秩相关系数
如果数据不符合正态分布或者存在异常值,则可以考虑使用斯皮尔曼秩相关系数来评估单调关系。
```python
# 计算 Spearman 秩相关系数矩阵
spearman_correlation = df_cleaned.corr(method='spearman')
print("\nSpearman 秩相关系数矩阵:")
print(spearman_correlation)
```
[^3]
#### 可视化相关性
为了更直观地理解变量间的相互作用,还可以借助 Seaborn 库绘制热力图。
```python
import seaborn as sns
import matplotlib.pyplot as plt
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Pearson Correlation Heatmap")
plt.show()
```
以上代码涵盖了从数据预处理到最终可视化整个流程的关键部分。
---
###
阅读全文
相关推荐


















