优信二手车数据可视化

本文介绍了作者如何清洗从优信二手车抓取的数据,包括处理标题和价格,使用正则表达式提取数值,以及在Jupyter Notebook中进行数据可视化,展示了主要集中在2.0L排量的二手车市场趋势,常见品牌分布以及价格统计。最后,作者分享了从这个简单案例中学到的经验和代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前使用scrapy抓取了优信二手车的数据,经过这几天的努力,终于把这些数据进行了清洗,并用echarts进行了可视化处理

1.观察数据

可以看到由于抓取的时候没有进行处理,所以整个标题都拿了下来,并且价格也包含了文字,所以需要对这些进行处理

优信二手车

2.修改数据

通过观察发现,可以通过以空格为分隔符,进行截取,这里只取出前面的第一部分,即:‘宝马’二字,并通过MongoDBupdate方法进行修改

for  car in car_item.find():
    title = car['title'].split()[0]
    car_item.update({
  '_id':car['_id']}, {
  '$set': {
  'title':  title}})

同样,价格,可以通过正则表达式取出数值部分

for  car in car_item.find():
    price= re.findall(r'\d+.\d+',car['price'])
    car_item.update({
  '_id':car['_id']}, {
  '$set': {
  'price':  price}})

如果MongoDB不是很了解的可以去 菜鸟教程 看看
修改之后,可以看到数据库的数据已经变成我们想要的样子了
数据库
PS:由于抓取的时候没有改善方法,所以这里的get_car_time(提车天数)出现了小误差,这里就不管了

3.进入jupyter
  1. 引入相应的模块
    这里写图片描述
    如果出现

    Server running in the folder D:\JupyterNotebook\PythonProject at 127.0.0.1:51316

    说明可以进行下面的步骤了,如果不行,可以参考我之前的文章,传送门

  2. 使用管道aggregate
    首先,定义一个函数输出想要的数据,这里先处理displacement(排量)信息,统
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值