
爬虫/bs4/Scrapy/Selenuim
userxxcc
「我的文章都是完全免费的,如收费非我为」
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python将汉字转义成百分号形式,urllib.parse.quote
参考:https://www.mscto.com/python/616828.html做爬虫时链接拼如汉字发现不能请求到正确的地址,以为是需要加cookie、换成get请求等,试了多次,发现是链接中汉字未转义。urllib.parse.quote() 转义汉字 urllib.parse.unquote() 解析还原汉字from urllib import parsename = urllib.parse.quote('汉字') # 将汉字转义print(name)# 会输...原创 2020-10-20 11:18:51 · 2006 阅读 · 1 评论 -
【Python机器人】利用Selenium自动上传图片(以此示例展示Python在处理文件、运行js的能力)
-①利用到的知识点:1. 遍历文件夹+遍历文件夹下的所有文件名(文件名带格式);2. 根据图片像素判断判断图片图片和不合规(使用扩展:from PIL import Image # pip install pillow);3. 创建文件夹+移动文件(使用扩展:import shutil)3. Selenium的自动点击+自动填写input+Selenium运行js能力(可运行...原创 2020-05-04 10:04:04 · 1198 阅读 · 0 评论 -
【python3爬虫应用+PHP数据清洗】爬取研究生招生信息网的研究生专业信息
-由于需要抓取的信息比较棘手,没有使用基于cookie的虚拟环境想法,4联级分类才能得到最终信息详情页的内容,而信息详情页的内容包含了4联级的分类名称内容:类->目->学科->专业。于是乎手动20分钟把专业的目录页的片段源代码复制到html文件里面->用python3抓取所有专业目录->得到专业详情页的url->python3第一次清洗节点,得到基本信息-&...原创 2020-02-20 09:56:07 · 1268 阅读 · 1 评论 -
【python3应用】单线程下载多种格式文件
-说明:对于譬如百度爬虫能爬到的页面内容,此python爬虫不当作破解活动。-封装好的单线程爬取文件的python3爬虫:1. sleep延时对对方服务器友好,不至于拖死下行带宽;2. 单线程更好的控制文件下载断点;3. 同步特性完成文件的批量下载。-全部代码如下:(使用过程中会有一小部分的文件下载为空或者下载报错跳过,可能原因是对方服务器文件编码错误或本地电脑...原创 2020-02-20 09:31:20 · 266 阅读 · 0 评论 -
【python3爬虫-爬文章】爬IT之家10万篇文章(GET、POST)
-1. 技术要点:多线程; Python3 GET请求(请求评论数),POST请求(将抓取的数据存入数据库); 数据持久化(将抓取数据存入MySQL)。2. 过程:采用穷举的办法(为什么用穷举,因为文章url地址是数字结尾但是又没有明显规律),开600线程,一共抓90万次,每次延时0.05秒,一共花费时间47小时。获取网页html文件(前端js未渲染的html,js渲染页面数...原创 2018-11-20 11:30:12 · 1337 阅读 · 0 评论 -
随机HTTP_User_Agent(爬虫所用)
功能:随机获取HTTP_User_Agent ''' 功能:随机获取HTTP_User_Agent ''' user_agents=[ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",...原创 2018-11-26 16:01:51 · 824 阅读 · 0 评论 -
【Python机器人】selenium的安装并利用selenium实现【代理IP+自动登录+利用js点击和处理dom+自动填写文本+自动上传图片】
selenium官方教程:https://python-selenium-zh.readthedocs.io/zh_CN/latest/1.%E5%AE%89%E8%A3%85/0. 说明:selenium主要实现模仿人来操作来 自动填写数据,点击按钮,操作dom,缩放浏览器,切换浏览器标签,扩展外部js功能等。selenium不好操作的功能可以用js来操作,比如 自动填写数据,点击按钮,...原创 2019-01-09 17:54:13 · 1224 阅读 · 0 评论 -
PHP+Python3+MySQL做自动化爬虫系统(爬头条投放广告的实时数据)
这里主要谈思路:1)利用Python3良好的爬虫特性,进行原始数据的爬取(这里爬虫数据爬的是头条api,利用构造虚拟浏览器+cookie+GET,进行抓数据,这样简单一点。模拟登录则比较难,不如分析api和cookie来得爽。);2)利用世界上做好的语言PHP+MySQL做数据存储与数据清洗;3)为什么数据存储不用Django——Django比起TP5.1和Laravel差多了,但是D...原创 2019-03-04 15:51:26 · 2179 阅读 · 0 评论 -
【转载】【python3.x爬虫】设置IP代理
-爬取的网站采取了反爬取技术,高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封。1. 所需库:安装requests库 安装bs4库 安装lxml库2. 用法示例:函数get_ip_list(url, headers)传入url和headers,最后返回一个IP列表,列表的元素类似42.84.226.65:8888格式,...转载 2018-11-19 13:41:35 · 581 阅读 · 0 评论 -
【python爬虫-爬微博】爬取王思聪所有微博数据
1. 准备:代理IP 。网上有很多免费代理ip,如西刺免费代理IP http://www.xicidaili.com/,自己可找一个可以使用的进行测试; 抓包分析 。通过抓包获取微博内容地址。当然web下的api地址可以通过浏览器获得。以下是通过浏览器调试获得的接口:个人信息接口:微博列表接口:2. 完整代码:import urllib.requestimpo...翻译 2018-11-21 15:23:10 · 7516 阅读 · 3 评论 -
【Python3爬虫-爬小说】爬取某小说网小说1/2--利用网址顺序抓
声明:爬虫为学习使用,请各位同学务必不要对当放网站或i服务器造成伤害。务必不要写死循环。-练习目标:爬取https://b.faloo.com/BuyBook.aspx?id=526024 《我的高中女友门》-解释请看代码注释:主要是网页是xxx/1.html,xxx/2.html这种数字递增的网页;小说内容在id=content这个地方。from bs4 import ...原创 2018-11-13 21:50:34 · 1550 阅读 · 0 评论 -
【python3爬虫】安装beautifulsoup4 、Scrapy、selenium、Django
以win10为例:1)安装exe:下载python-3.7.6-amd64.exe ,安装时勾选path和all user;2)777授权:安装好后,将文件夹【Lib】【libs】【Scripts】的属性——安全——组与安全-—Users——高级,勾选“完全控制”、“修改”,保存即可。2-1)安装C++依赖::Microsoft Visual C++ Build Too...原创 2018-11-15 15:25:37 · 610 阅读 · 0 评论 -
win10 ent安装Django时报错:Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。
-Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。: 'c:\\program files\\python37\\Lib\\site-packages\\pytz'Consider using the `--user` option or check the permissions.-方法...原创 2018-11-13 10:10:33 · 1778 阅读 · 2 评论 -
【Python3爬虫-爬小说】爬取某小说网小说2/2--利用下一页抓
声明:爬虫为学习使用,请各位同学务必不要对当放网站或i服务器造成伤害。务必不要写死循环。-详细思路参照代码注释:如下:网址无任何规律,但是页面有一个下一页。那是要抓到下一页的地址就能把小说全部抓取。-from bs4 import BeautifulSoupimport urllib.requestimport redef down(url, num): ...原创 2018-11-14 11:13:46 · 1500 阅读 · 0 评论 -
【Python3爬虫-爬图片】爬中国国家地理全站1.7万张图片
声明:爬虫为学习使用,请各位同学务必不要对当放网站或i服务器造成伤害。务必不要写死循环。-思路:古镇——古镇列表(循环获取古镇详情href)——xx古镇详情(获取所有img的src)-需要安装requests:pip install requests# 低版本Python需要去除SSL验证:import ssl# 获取网页ssl._create_default_ht...原创 2018-11-14 15:28:13 · 1624 阅读 · 0 评论 -
【python3爬虫】Scrapy Win10下安装与新建Scrapy项目
详细安装教程可参考:http://www.runoob.com/w3cnote/scrapy-detail.htmlhttps://segmentfault.com/a/1190000013178839其他教程:https://oner-wv.gitbooks.io/scrapy_zh/content/%E5%9F%BA%E6%9C%AC%E6%A6%82%E5%BF%B5/%E9...原创 2018-11-21 09:53:08 · 1084 阅读 · 0 评论 -
做爬虫是否违法事项(根据多篇相关文章总结)
采集内容的时候,可根据自身经验对法律风险级别做个预判,把法律风险等级分为高、中。 法律风险高 :司法解释里面提到以下集中类型的数据,无论是“非法提供”和“非法获取”都可以入刑:第一类:高度敏感信息,包括四种信息:行踪轨迹信息、通信内容、征信信息、财产信息。涉及高度敏感信息的违法活动,由于定罪门槛最低,因此严格限制在此四类,不做任何扩展; 第二类:敏感信息,即住宿信息、通信记录、健康生...翻译 2018-11-19 09:30:50 · 3486 阅读 · 0 评论