#本章需导入的模块 import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline plt.rcParams['font.sans-serif']=['SimHei'] #解决中文显示乱码问题 plt.rcParams['axes.unicode_minus']=False import warnings warnings.filterwarnings(action = 'ignore') from sklearn.metrics import confusion_matrix,f1_score,roc_curve, auc, precision_recall_curve,accuracy_score from sklearn.model_selection import train_test_split,KFold,LeaveOneOut,LeavePOut # 数据集划分方法 from sklearn.model_selection import cross_val_score,cross_validate # 计算交叉验证下的测试误差 from sklearn import preprocessing import sklearn.linear_model as LM from sklearn import neighbors
时间: 2025-03-31 17:01:11 浏览: 93
### 常见Python数据分析库的功能与用法
#### NumPy 功能与用法
NumPy 是 Python 中用于数值计算的核心库之一,提供了多维数组对象以及各种派生对象(如掩码数组和矩阵)。它支持大量的数学函数操作,能够高效地处理大规模数据集。通过 NumPy 的 `ndarray` 对象,可以实现向量化运算,从而显著提高性能[^1]。
以下是创建并操作 NumPy 数组的一个简单例子:
```python
import numpy as np
arr = np.array([1, 2, 3])
print(arr)
matrix = np.random.rand(3, 4)
print(matrix)
```
#### Pandas 功能与用法
Pandas 提供了灵活且高效的工具来进行数据分析和探索。它的主要特点是 DataFrame 和 Series 数据结构,允许用户轻松加载、清洗、转换和分析复杂的数据表。Pandas 还支持时间序列分析和多种文件格式的读写操作[^2]。
下面是一个简单的 Pandas 使用示例:
```python
import pandas as pd
data = {'Name': ['Alice', 'Bob'], 'Age': [25, 30]}
df = pd.DataFrame(data)
print(df)
```
#### Matplotlib 功能与用法
Matplotlib 是一个非常流行的绘图库,主要用于生成高质量的二维图表。它可以绘制线形图、散点图、柱状图等多种类型的图形,并提供丰富的自定义选项来美化图像[^3]。
这里展示了一个基本的时间序列折线图:
```python
from matplotlib import pyplot as plt
import random
x = range(0, 120)
y = [random.randint(23, 37) for _ in range(120)]
plt.figure(figsize=(20, 8), dpi=80)
plt.plot(x, y)
plt.show()
```
#### Scikit-learn 功能与用法
Scikit-learn 是基于 SciPy 构建的强大机器学习库,涵盖了分类、回归、聚类等经典算法。此外,还包含了模型评估方法、特征提取等功能模块,非常适合初学者快速上手机器学习项目。
以下是如何利用 scikit-learn 实现线性回归的例子:
```python
from sklearn.linear_model import LinearRegression
import numpy as np
X = np.array([[1], [2], [3]])
Y = np.array([2, 4, 6])
model = LinearRegression().fit(X, Y)
predictions = model.predict(np.array([[4]]))
print(predictions)
```
阅读全文
相关推荐



















