python数据分析与应用第五章实训题
时间: 2025-06-04 17:01:25 浏览: 30
### Python 数据分析与应用 第五章 实训题 练习
以下是关于《Python数据分析与应用》第五章的相关实训题目和练习内容,结合提供的参考资料以及常见教材中的知识点整理而成。
#### 数据清洗与预处理
1. **数据读取与展示**
- 使用 `pandas` 库加载两个 Excel 文件,并打印前五行数据以验证数据是否成功导入[^2]。
```python
import pandas as pd
df1 = pd.read_excel('data_file1.xlsx')
df2 = pd.read_excel('data_file2.xlsx')
print("Data File 1 前5行:")
print(df1.head())
print("\n----------------------------------------\n")
print("Data File 2 前5行:")
print(df2.head())
```
2. **缺失值检测与填充**
- 针对给定的数据集,统计每列的缺失值数量,并采用适当方法填补缺失值(如均值、中位数或众数)。
```python
missing_values = df1.isnull().sum()
print(missing_values)
# 使用均值填充数值型变量
df1.fillna(df1.mean(), inplace=True)
```
3. **重复记录删除**
- 检查是否存在完全相同的记录,并将其移除。
```python
df_cleaned = df1.drop_duplicates()
```
#### 特征工程
4. **特征提取**
- 提取日期字段中的年份、月份等信息作为新特征。
```python
df['year'] = pd.to_datetime(df['date_column']).dt.year
df['month'] = pd.to_datetime(df['date_column']).dt.month
```
5. **类别编码**
- 将分类变量转换为数值形式以便后续建模操作。
```python
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['category_encoded'] = le.fit_transform(df['category'])
```
6. **标准化与归一化**
- 对连续型变量执行标准化或归一化处理,使不同量纲下的特征具有可比性。
```python
from sklearn.preprocessing import StandardScaler, MinMaxScaler
scaler = StandardScaler()
scaled_features = scaler.fit_transform(df[['feature1', 'feature2']])
minmax_scaler = MinMaxScaler()
normalized_features = minmax_scaler.fit_transform(df[['feature1', 'feature2']])
```
#### 数据可视化
7. **探索性数据分析 (EDA)**
- 利用 `matplotlib` 或 `seaborn` 进行基本的图表绘制,帮助理解数据分布特性。
```python
import matplotlib.pyplot as plt
import seaborn as sns
sns.histplot(data=df, x='age', bins=30)
plt.show()
sns.boxplot(x='gender', y='income', data=df)
plt.show()
```
8. **相关矩阵热图**
- 计算各变量间的皮尔逊相关系数,并通过热力图直观呈现其关系强度。
```python
corr_matrix = df.corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.show()
```
#### 结合机器学习初步实践
9. **划分训练集与测试集**
- 将数据随机分割成训练子集和评估子集,比例通常设为 8:2 或 7:3。
```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
10. **模型构建与预测**
- 构造简单的线性回归或其他基础算法完成目标变量估计任务。
```python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
```
---
###
阅读全文
相关推荐



















