
爬虫
SpiderFlamK
Java
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一些反爬机制
写爬虫的时候总结出部分反爬机制:(1)U-A校验模式 当你在家用浏览器上网的时候,每次发送请求时请求头会自动携带浏览器参数还有系统参数给服务器。从而让服务器知道这是一个人啊!一次来作为反爬机制的一种。(2)限制访问频率 正常人浏览网站点击速度有多少?机器访问快多了,短时间发送几百个请求。这时候服务器检测到后就可以通过设置一个速度去封IP,例如一分钟访问200次就封锁IP(3)设...原创 2018-04-07 15:48:20 · 4708 阅读 · 0 评论 -
Scrapy的中间件Downloader Middleware实现User-Agent随机切换
如何实现随机更换User-Agent这里要做的是通过自己在Downlaoder Middleware中定义一个类来实现随机更换User-Agent,但是我们需要知道的是scrapy其实本身提供了一个user-agent这个我们在源码中可以看到如下图:源码:from scrapy import signalsclass UserAgentMiddleware(object): """Thi...转载 2018-04-18 09:33:25 · 3131 阅读 · 0 评论 -
selenium集成到scrapy
from selenium import webdriverfrom scrapy.selector import Selectorimport time#1、selenium获取页面元素# browser = webdriver.Chrome(executable_path="D:/browserexe/chromedriver.exe")# browser.get("https:/...原创 2018-04-19 17:36:03 · 468 阅读 · 0 评论 -
ElasticSearch安装windows 安装时报“此时不应有 \JVM.option”或者Could not find any executable java binary的解决办法
下载jdk后配置一次环境变量,计算有右键-》属性-》更改设置-》高级-》环境变量-》上面一个框,下面一个框,在下面的框进行新建,编辑操作(1)新建->变量名"JAVA_HOME",变量值"C:\Program Files\Java\jdk1.8.0_05"(即JDK的安装路径) (2)编辑->变量名"Path",在原变量值的最后面加上“;%JAVA_HOME%\bin;%JAVA_HO...原创 2018-04-24 20:53:25 · 6029 阅读 · 3 评论 -
elasticsearch dsl集成python中indices.analyze方法参数analyzer的坑(调用es的analyze接口分析字符串)
今天在做elasticsearch的过程中遇上大坑,填坑过程 在python中调用elasticsearch的indices.analyze接口的过程中,本来看网上的文章是这样写的result = es.indices.analyze(index=index,body=text,analyzer='ik_max_word' params={'filter':["lowercase"]...原创 2018-04-27 23:46:43 · 4968 阅读 · 2 评论