
Scrapy
N/A
Dear Slim.
NO PAIN NO GAIN
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python中csv文件读取中文乱码问题
之前都没规定过解码方式,今天突然就不行了。 查了一下应该这么改 直接国标转码就好了 在read那一行改成—— data = pd.read_csv('hello.csv',encoding = 'gb2312') ...原创 2019-11-30 14:26:03 · 952 阅读 · 0 评论 -
scrapy中遇到的ValueError: Missing scheme in request url:问题解决
昨天在爬寻医问药网站的时候出现了一个没有遇到过的问题: ValueError: Missing scheme in request url: 查了百度,bings都没能解决,归纳起来网上的解决办法围绕的都是图片路径等详细问题,归根结底就是url并不完整,可以单纯地通过: url = "http"+response.xpath("....")[0] 这样的方式解决。 解决办法 然鹅,我的代码...原创 2019-10-18 14:58:38 · 4939 阅读 · 3 评论 -
基于scrapy框架的爬虫详细步骤(含没有“下一页”按钮的href抓取)
脱离八爪鱼,最近两天用scrapy爬了一个商品网站,本来可以快很多的,其中有一天把时间花在一行代码上最后绕了一大圈改了个参数就解决了??希望大家少走点弯路。 很多都是对慕课网的一个总结,网址:https://www.imooc.com/video/17519 讲得非常好! 比较敏感所以用课程的代码例子了。 第一次写,难免不专业多多指教。 1.新建项目 第一步先安装,可以按照视频上安装,略。 例子中...原创 2019-07-19 17:51:35 · 5136 阅读 · 2 评论 -
scrapy多层爬取
想了很久最终还是决定把分层爬取加上 最关键的是这几行: #获取详情页网址 security_item['url'] = i_item.xpath(".//div[@class='row2']/h3/a/@href").extract()[0] #跳转detail_parse方法,抓取数据以后返回 yield scrapy.Request(security_item['url'],...原创 2019-07-24 17:04:22 · 507 阅读 · 0 评论 -
pandas——对csv文件进行增加列、删除列、删除行、修改、查找重复等系列操作
算是爬虫中对庞大的数据进行预处理的很重要的一步。 经过一段时间的工作不断完善,功能上基本实现了我的预期。 import pandas as pd import numpy as np import re import csv import sys 这是我的引用import各种包。 1. 合并csv文件(在cmd中进行操作) cat *.csv>all.csv 或者 cat 1.csv ...原创 2019-08-07 15:37:50 · 54826 阅读 · 8 评论