**数据:
**
代码功能概述
该代码实现以下功能:
- 读取并清洗房屋数据(处理单价格式)
- 统计各户型出现频次,筛选Top5户型
- 计算这些户型的平均单价
- 绘制横向条形图展示价格分布
代码分步解析
1. 库导入与中文设置
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
# 解决中文显示问题
matplotlib.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
matplotlib.rcParams['axes.unicode_minus'] = False # 解决负号显示异常
matplotlib.rcParams
:全局配置绘图参数- 示例:设置字号
plt.rcParams['font.size'] = 12
- 示例:设置字号
2. 数据清洗函数
def clean_data():
data = pd.read_csv("第一次清洗后数据.csv")
data['单价'] = data['单价'].str.replace("[,元/平]", "", regex=True).astype(int)
return data
str.replace
:正则表达式替换
df['价格'] = df['价格'].str.replace('美元', '') # 将"100美元"转为"100"
- 示例:清理带单位的数据
astype(int)
:转换数据类型- 示例:字符串转浮点数
df['列名'].astype(float)
- 示例:字符串转浮点数
3. 数据分析流程
# 统计各户型出现次数
a = data.groupby('户型').size()
# 排序并取前5
sorted_data = a.sort_values(ascending=False)
b = sorted_data.head(5)
# 获取户型名称
y = b.index
# 计算均价
c = data.groupby('户型')['单价'].mean().round(2)
x = c[y].values
groupby().size()
:分组计数(包含空值)
city_counts = df.groupby('城市').size()
- 示例ÿ