在线房源识别系统-毕设项目
项目背景:
随着我国流动人口的不断增多,网络租房市场快速发展,当前网络房屋成千上万,数据纷杂,很多信息是重复的,还有一些信息属于虚假房源。租客租房前会由于缺乏了解而造成不必要的麻烦,为了给租客提供简明、可靠的房源信息,本课题对网络房源的重复度和真实性进行分析研究,提出合理的度量标准和解决方案,并设计开发出具有实用价值的在线房源识别系统。
本系统利用爬虫技术爬取房产中介网站的二手房信息,并对大量网络房源的重复度和真实性进行分析研究,得出合理且真实有效的优质房源数据。在房源展示方面,用户能够通过输入关键字进行可靠房源搜索,也可直接根据地域选择推荐的优质房源进行查看,还可以根据大数据分析结果进行房源筛选,使租客们更快的选取心仪房源。
前言
写在前面: 现在是2021年9月,20届毕业的我毕设项目感觉自己完成的还不错,之前打算趁热打铁更新到git上;这是一篇本来2020年7月就该存在的博客,因为本人拖延症太严重,当时觉得应该立马记录下来,由于入职啊工作啊这样那样的事儿导致今天才发现自己还有个一年没完成的事情,费尽千辛万苦找到了当时的代码和文档,凭借一点点记忆在此记录,为什么隔了一年还要干这个事儿呢,一方面可以自己留作纪念,另一方面可供大家参考。代码已上传至github这是个链接,可根据本文自行探索~
项目构成
系统结构总共分为两个模块,如图所示,其中数据获取及数据模块由两部分构成:node爬虫程序为数据分析奠定基础提供数据源,Python数据分析程序结果则作为第一个模块的输出;信息展示及数据接口模块同样由两部分组成,后端编写接口为前端保障增删改查的数据来源,前端接收数据展示所有信息。
其中Reptile模块负责大数据的获取,产生系统所需的源数据,Data analysis模块用于接收源数据并清洗数据,分析数据得到系统所需的优质房源数据,interface模块用于提供系统数据支持,属于接口服务,view则主要呈现推荐房源各项信息,作为视图展示模块,数据的流动性由database模块支持,数据的存储和查找均使用到该模块。
分别对应4个程序模块:爬虫,数据库,数据分析程序,展示项目(前端展示程序+服务器代码)
项目技术
讲下概览,后文会对于每个模块我会细讲~源码都在前面Git地址里找就可。
数据存储:mysql数据库(.sql文件)