住宅房产估值模型的比较分析
立即解锁
发布时间: 2025-08-20 02:26:29 阅读量: 3 订阅数: 7 

### 住宅房产估值模型的比较分析
在房地产评估领域,准确评估住宅房产价值至关重要。传统的销售比较法虽常用,但依赖评估师的主观判断和经验。随着科技发展,自动化估值模型(AVMs)应运而生,其基于多元回归分析、软计算和地理信息系统(GIS)等技术,为评估工作提供了更客观的支持。本文将探讨使用KEEL、RapidMiner和WEKA这三款流行的数据挖掘系统,对常见机器学习算法构建住宅房产估值模型进行比较分析。
#### 1. 引言
销售比较法是确定房产市场价值的常用方法。运用该方法时,需有与被评估房产属性相似的交易价格数据。若有优质的可比交易,就能获得可靠估值。然而,评估师在评估前需综合利用地籍系统、交易登记册等信息源,进行市场分析和实地考察,其估值往往具有主观性,依赖个人经验和直觉。
自动化估值模型(AVMs)主要基于多元回归分析、软计算和地理信息系统(GIS)等技术,众多智能方法如神经网络、模糊系统、基于案例的推理、数据挖掘和混合方法等也被用于支持评估工作。此前,研究人员已使用MATLAB和KEEL等工具,对进化模糊系统、神经网络和统计算法等构建房地产评估模型进行了研究。
为了进一步探究,我们选择了三款用Java开发的非商业数据挖掘工具:KEEL、RapidMiner和WEKA,测试其中包含的常见机器学习算法,如神经网络、决策树、线性回归方法和支持向量机等,以确定这些算法在不同系统中的实现是否相似,以及能否生成具有可比预测精度的评估模型。实验数据来自地籍系统和房地产交易登记册。
#### 2. 地籍系统作为模型生成的数据源
基于销售比较法,提出了数据驱动的房产估值模型概念。假设将整个评估区域(如城市或地区)划分为具有可比房产属性的区域(如集群)。评估师通过互联网访问系统,选择合适区域,输入待评估房产的属性值,系统使用给定模型计算输出,并将房产建议价值反馈给评估师。
实验数据来自波兰某大城市2001 - 2002年以市场价格出售的住宅房产的地籍系统和房地产交易登记册,包含1098笔交易记录。确定了四个影响价格的属性:房产使用面积、所在楼层、建筑建造年份和建筑层数,房产价格作为输出变量。
#### 3. 实验中使用的数据挖掘系统
- **KEEL(基于进化学习的知识提取)**:用于评估数据挖掘问题的进化算法,涵盖回归、分类、聚类等多种任务。它包含基于不同方法的进化学习算法,以及进化学习方法与不同预处理技术的集成,可对任何学习模型进行全面分析。
- **RapidMiner(RM)**:一个机器学习和数据挖掘环境,是开源免费的Java项目。采用模块化操作符概念,可设计复杂嵌套操作符链,用于解决大量学习问题。使用XML描述操作符树,对知识发现(KD)过程进行建模,具有灵活的数据输入和输出操作符,包含100多种用于回归、分类和聚类任务的学习方案。
- **WEKA(怀卡托知识分析环境)**:非商业开源项目,包含数据预处理、分类、回归、聚类、关联规则和可视化等工具,也适合开发新的机器学习方案。
#### 4. 实验中使用的回归算法
选择了KEEL、RM和WEKA中常见的算法,这些算法构建回归模型的方法相同,但参数可能不同。具体算法如下:
| 类型 | 代码 | KEEL名称 | RapidMiner名称 | WEKA名称 |
| ---- | ---- | ---- | ---- | ---- |
| NNR | MLP | Regr - MLPerceptronConj - Grad | W - MultilayerPerceptron | MultilayerPerceptron |
| NNR | RBF | Regr - RBFN | W - RBFNetwork | RBFNetwork |
| DTR | M5P | Regr - M5 | W - M5P | M5P |
| DTR | M5R | Regr - M5Rules | W - M5Rules | M5Rules |
| SRM | LRM | Regr - LinearLMS | LinearRegression | LinearRegression |
| SVM | SVM | Regr - NU_SVR | LibSVM | LibSVM |
- **MLP - 多层感知器**:在多层网络上执行,通常以前馈方式互连,每层神经元与下一层神经元有定向连接。
- **RBF - 径向基函数神经网络**:基于前馈神经网络,每个隐藏层使用径向激活函数,输出层是隐藏神经元信号的加权和。
- **M5P**:基于决策树,每个节点包含多元线性回归模型。使用训练数据及其结果将输入空间划分为单元,在每个单元中构建回归模型作为树的叶子。
- **M5R - M5规则**:将参数空间划分为区域(子空间),在每个区域中构建线性回归模型。基于M5算法,每次迭代生成M5树,并根据给定启发式提取最佳规则,直到覆盖所有示例。
- **LRM - 线性回归模型**:一种标准统计方法,使用最小均方方法调整线性模型参数,根据已知变量值预测变量值。
- **SVM - NU - 支持向量机**:在高维特征空间中构建支持向量,然后构建具有最大间隔的超平面。使用核函数转换数据,增加数据维度,提高数据可分离性,建立最小预测概率误差度量。
#### 5. 实验计划
主要目标是比较KEEL、RM和WEKA中六种常见的回归算法:多层感知器、径向基函数网络、两种模型树、线性回归和支持向量机。这些算法分为四组:回归神经网络(NNR)、回归决策树(DTR)、统计回归模型(SRM)和支持向量机(SVM)。
通过试错法为每个算法选择最佳参数,确定最佳参数后,进行最终实验,比较使用这六种算法在KEEL、RM和WEKA中创建的模型的预测精度。所有实验使用10折交叉验证,为获得可比结果,使用最小 - 最大方法对数据进行归一化。使用KEEL中的均方误差(MSE)和WEKA、RM中的均方根误差(RMSE)作为适应度函数(MSE = RMSE²),采用非参数Wilcoxon符号秩检验评估结果。使用了12种常用性能指标评估模型,具体指标如下表所示:
| 符号 | 描述 | 维度 | 最小值 | 最大值 | 理想结果 | 公式编号 |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| MSE | 均方误差 | d² | 0 | ∞ | 最小 | 1 |
| RMSE | 均方根误差 | d | 0 | ∞ | 最小 | 2 |
| RSE | 相对平方误差 | 无 | 0 | ∞ | 最小 | 3 |
| RRSE | 相对平方误差的平方根 | 无 | 0 | ∞ | 最小 | 4 |
| MAE | 平均绝对误差 | d | 0 | ∞ | 最小 | 5 |
| RAE | 相对绝对误差 | 无 | 0 | ∞ | 最小 | 6 |
| MAPE | 平均绝对百分比误差 | % | 0 | ∞ | 最小 | 7 |
| NDEI | 无量纲误差指数 | 无 | 0 | ∞ | 最小 | 8 |
| r | 线性相关系数 | 无 | -1 | 1 | 接近1 | 9 |
| R² | 决定系数 | % | 0 | ∞ | 接近100% | 10 |
| var(AE) | 绝对误差的方差 | d² | 0 | ∞ | 最小 | 11 |
| var(APE) | 绝对百分比误差的方差 | 无 | 0 | ∞ | 最小 | 12 |
公式如下:
\[
MSE = \
0
0
复制全文
相关推荐










