
Splash
chengqiuming
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫之Splash基础篇
一 点睛Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库。利用它,我们同样可以实现动态渲染页面的抓取。二 功能介绍利用Splash,我们可以实现如下功能: 异步方式处理多个网页渲染过程; 获取渲染后的页面的源代码或截图; 通过关闭图片渲染或者使用Adblock规则来加快...原创 2019-01-19 17:15:22 · 7440 阅读 · 0 评论 -
爬虫之Splash对象属性
一 点睛main()方法的第一个参数是splash,这个对象非常重要,它类似于Selenium中的WebDriver对象,我们可以调用它的一些属性和方法来控制加载过程。二 agrs1 点睛该属性可以获取加载时配置的参数,比如URL,如果为GET请求,它还可以获取GET请求参数;如果为POST请求,它可以获取表单提交的数据。Splash也支持使用第二个参数直接作为args。2 代...原创 2019-01-19 20:01:30 · 730 阅读 · 0 评论 -
爬虫之Splash对象方法(一)
一 go()1 点睛该方法用来请求某个链接,而且它可以模拟GET和POST请求,同时支持传入请求头、表单等数据,其用法如下:ok, reason = splash:go{url, baseurl=nil, headers=nil, http_method="GET", body=nil, formdata=nil}其参数说明如下。url:请求的URL。 baseurl:可选...原创 2019-02-05 09:58:46 · 1002 阅读 · 0 评论 -
爬虫之Splash对象方法(二)
一 autoload()1 点睛此方法可以设置每个页面访问时自动加载的对象,使用方法如下:ok, reason = splash:autoload{source_or_url, source=nil, url=nil}参数说明如下。source_or_url:JavaScript代码或者JavaScript库链接。 source:JavaScript代码。 url:Jav...原创 2019-02-05 11:25:02 · 611 阅读 · 1 评论 -
爬虫之Splash对象方法(三)
一 set_content()1 点睛用来设置页面内容。2 代码function main(splash) assert(splash:set_content("<html><body><h1>hello</h1></body></html>")) return splash:png()原创 2019-02-05 11:38:25 · 421 阅读 · 0 评论 -
爬虫之Splash对象方法(四)
一 get_cookies()1 点睛此方法获取当前页面的Cookies2 代码function main(splash, args) splash:go("https://www.baidu.com") return splash:get_cookies()end3 效果二 add_cookie()1 点睛为当前页面添加Cookie,用法如下:...原创 2019-02-05 12:10:16 · 553 阅读 · 0 评论 -
爬虫之Splash对象方法(五)
一 set_user_agent()1 点睛设置浏览器的User-Agent2 代码function main(splash) splash:set_user_agent('Splash') splash:go("http://httpbin.org/get") return splash:html()end3 效果二 set_custom_header...原创 2019-02-05 13:25:59 · 1057 阅读 · 0 评论 -
爬虫之Splash API调用(上)
一 点睛如何才能利用Splash渲染页面呢?怎样才能和Python程序结合使用并抓取JavaScript渲染的页面呢?其实Splash给我们提供了一些HTTP API接口,我们只需要请求这些接口并传递相应的参数即可。二 render.html1 点睛此接口用于获取JavaScript渲染的页面的HTML代码,接口地址就是Splash的运行地址加此接口名称。例如http://...原创 2019-02-05 13:58:10 · 1374 阅读 · 0 评论 -
爬虫之Splash API调用(下)
一 render.json1 点睛此接口包含了前面接口的所有功能,返回结果是JSON格式。2 编码curl http://localhost:8050/render.json?url=https://httpbin.org3 结果4 说明可以看到,这里以JSON形式返回了相应的请求数据。我们可以通过传入不同参数控制其返回结果。比如,传入html=1,返回结果即...原创 2019-02-05 14:24:02 · 1330 阅读 · 0 评论