scrapy pip中间件个人处理

weixin_34184158

于 2019-06-27 00:10:00 发布

阅读量178

点赞数

CC 4.0 BY-SA版权

文章标签： python

原文链接：http://www.cnblogs.com/zengxm/p/11094674.html

本文介绍了一个使用Python编写的Scrapy框架的数据管道，该管道将爬取的数据存储到MongoDB数据库中。通过Mongodb_Pipeline类实现，连接MongoDB客户端，根据item的classification1字段确定集合名称，并插入数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import pymongo
from scrapy.conf import settings
import pymysql



class Mongodb_Pipeline(object):

    def __init__(self):
        self.client = pymongo.MongoClient()
        self.db = self.client[settings.get('MONGODB_NAME')]

    def process_item(self, item, spider):
        if item:
            coll = item['classification1']
            self.db[coll].insert(dict(item))
        return item


    def close_spider(self):
        self.client.close()