第二版清华大学出版社-图书详情-《Python数据分析与可视化》第二版第七章实训代码
时间: 2025-07-01 16:30:06 浏览: 13
### 关于《Python数据分析与可视化》第二版第七章实训代码
以下是基于参考资料整理的关于《Python数据分析与可视化》第二版第七章的部分实训代码示例。这些代码涵盖了数据预处理、特征工程以及简单的机器学习模型训练等内容。
#### 数据加载与初步探索
以下是一个典型的代码片段,用于加载并查看数据集的内容:
```python
import pandas as pd
# 加载数据
data = pd.read_csv("example.csv") # 假设数据存储在一个CSV文件中
print(data.head()) # 查看前几行数据
print(data.info()) # 获取数据的基本信息
```
此部分展示了如何通过 `pandas` 库加载 CSV 文件,并对数据进行基本的信息展示[^2]。
---
#### 数据清洗与预处理
在实际的数据分析过程中,通常需要对原始数据进行清理和转换操作。以下是一些常见的数据预处理方法:
```python
# 处理缺失值
data.fillna(method="ffill", inplace=True)
# 转换类别型变量为数值型
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
data["category"] = label_encoder.fit_transform(data["category"])
# 特征缩放
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaled_features = scaler.fit_transform(data[['feature1', 'feature2']])
```
上述代码实现了缺失值填充、类别型变量编码以及特征标准化的操作[^3]。
---
#### 构建与评估机器学习模型
构建一个简单的线性回归模型作为示例:
```python
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
scaled_features, data['target'], test_size=0.2, random_state=42
)
# 训练模型
model = LinearRegression()
model.fit(X_train, y_train)
# 预测与评估
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"均方误差 (MSE): {mse}")
```
这段代码演示了如何利用 `sklearn` 中的工具完成模型划分、训练及性能评估的过程[^1]。
---
#### 可视化结果
为了更好地理解数据分布及其预测效果,可以通过绘图来辅助分析:
```python
import matplotlib.pyplot as plt
plt.scatter(y_test, y_pred, color='blue')
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], linestyle='--', color='red')
plt.xlabel('真实值')
plt.ylabel('预测值')
plt.title('真实值 vs 预测值')
plt.show()
```
该段代码使用 `matplotlib` 绘制散点图,直观比较真实值与预测值之间的关系[^4]。
---
### 总结
以上代码覆盖了从数据加载到模型训练再到结果可视化的全流程。具体实现可能因不同版本教材而略有差异,建议结合官方文档进一步验证细节。
阅读全文
相关推荐















