python作皮尔逊相关分析
时间: 2025-02-01 17:56:44 浏览: 53
### 使用 Python 实现皮尔逊相关性分析
为了执行皮尔逊相关性分析,在 Python 中通常会利用 `pandas` 和 `numpy` 这两个库来处理数据,并通过 `scipy.stats` 或者 `pandas.DataFrame.corr()` 方法来进行计算。
下面是一个完整的例子,展示如何读取数据并计算两列之间的皮尔逊相关系数:
```python
import pandas as pd
from scipy import stats
# 创建一个简单的 DataFrame 示例
data = {'X': [1, 2, 3, 4, 5],
'Y': [0.8, 2.7, 3.9, 5.1, 6]}
df = pd.DataFrame(data)
# 计算 X 列和 Y 列间的皮尔逊相关系数
pearson_corr, _ = stats.pearsonr(df['X'], df['Y'])
print(f'Pearsons correlation: {pearson_corr:.3f}')
```
这段代码创建了一个包含两列表的数据框,并调用了 SciPy 的 pearsonr 函数来获取这两列之间皮尔逊相关性的度量[^2]。
对于更复杂的情况,比如想要得到整个数据集内各变量间的关系,则可以直接使用 Pandas 提供的方法:
```python
correlation_matrix = df.corr(method='pearson')
print(correlation_matrix)
```
这将会返回一个矩阵形式的结果,其中每个元素代表对应位置上两列特征的相关程度。如果希望直观地查看这些关系,还可以借助 Seaborn 绘制热力图[^4]:
```python
import seaborn as sns
import matplotlib.pyplot as plt
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt='.2g')
plt.show()
```
上述绘图命令能够帮助更好地理解不同属性之间的关联强度及其方向(正向还是负向),从而辅助后续数据分析工作。
阅读全文
相关推荐


















