计算一个数据集中特征和标签之间的皮尔逊相关系数python
时间: 2025-07-06 12:50:38 浏览: 11
### 计算皮尔逊相关系数
为了计算数据集中特征与标签之间的皮尔逊相关系数,可以利用 Python 中强大的库如 Pandas 和 NumPy。这些库提供了简单而高效的方法来处理和分析数据。
下面是一个具体的例子,展示如何使用 Pandas 来创建一个包含多个股票收益率的数据框,并计算其中一个系列与其他所有列之间的皮尔逊相关性:
```python
import pandas as pd
import numpy as np
# 创建一个 DataFrame 表示不同股票的日涨跌幅百分比
data = {
'000001.SZ': [-1.7391, -0.5, 2.1],
'000002.SZ': [0.6250, 1.2, -0.8],
'000004.SZ': [1.1378, 0.3, 1.5],
'002600.SZ': [0.0000, 0.0, 0.0],
'000010.SZ': [-1.0013, -0.7, 0.6]
}
df = pd.DataFrame(data)
# 假设我们想要找到'000001.SZ'和其他股票日涨幅之间的皮尔森相关系数
pearson_corr = df.corr(method='pearson')['000001.SZ']
print(pearson_corr)
```
这段代码会输出 `DataFrame` 中每一列相对于 `'000001.SZ'` 的皮尔逊相关系数[^1]。
如果希望单独针对某两个特定变量之间求解,则可以直接调用 `.corr()` 方法并传入这两个 Series 对象作为参数:
```python
series_a = pd.Series([-1.7391, 0.6250])
series_b = pd.Series([1.1378, 0.0])
correlation_ab = series_a.corr(series_b, method="pearson")
print(f"The Pearson Correlation between A and B is {correlation_ab}")
```
此段脚本将会打印出给定两组数值间的皮尔逊相关度量值[^2]。
对于更复杂的场景下可能涉及到多维数组的操作时,还可以借助于 SciPy 库中的函数来进行更加深入的相关性检验。
阅读全文
相关推荐



















