波士顿房价预测pycharm多元
时间: 2025-01-06 20:37:49 浏览: 91
### 波士顿房价预测的多元线性回归模型
在 PyCharm 中实现波士顿房价预测的多元线性回归模型涉及多个步骤,包括加载数据、预处理、构建模型以及评估性能。
#### 加载必要的库和数据集
为了开始项目,需要导入一些基本的数据科学库,并加载波士顿房价数据集。由于 `sklearn` 的版本更新,波士顿房价数据集不再直接提供于最新版中,可以使用其他方式获取该数据集或采用类似的替代数据集。
```python
import pandas as pd
from sklearn.datasets import load_boston # 如果可用的话
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
# 尝试加载波士顿房价数据集;如果不可用,则需寻找外部资源下载
try:
boston = load_boston()
except AttributeError:
url = "https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv"
data = pd.read_csv(url)
else:
data = pd.DataFrame(boston.data, columns=boston.feature_names)
data['MEDV'] = boston.target
```
#### 数据探索与准备
了解各个变量之间的关联程度对于后续建模至关重要。通过计算各特征相对于目标变量 MEDV (即房屋价格) 的皮尔逊相关系数来识别重要特性[^1]。
```python
correlation_matrix = data.corr().round(2)
print(correlation_matrix["MEDV"].sort_values(ascending=False))
```
#### 特征工程
根据上述分析结果去除那些与响应变量几乎没有联系的属性,比如 CHAS 这样的二元分类器可能不会显著影响最终的结果。保留像 RM 这样显示出较强正相关的因素作为输入给定到机器学习算法里去。
```python
selected_features = ['RM', 'LSTAT', 'PTRATIO']
X = data[selected_features]
y = data['MEDV']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
#### 构建并训练模型
利用选定好的特征子集创建一个简单的线性回归实例来进行拟合操作:
```python
model = LinearRegression()
model.fit(X_train, y_train)
# 预测新样本的价格
predictions = model.predict(X_test)
```
#### 模型评价
最后一步是对所建立起来的预测系统做出合理的评判标准,这里选用均方误差(MSE) 和决定系数(R² score),这两个度量可以帮助衡量模型的好坏程度。
```python
mse = mean_squared_error(y_test, predictions)
r2 = r2_score(y_test, predictions)
print(f'Mean Squared Error: {mse}')
print(f'R-squared Score: {r2}')
```
阅读全文
相关推荐
















