
网络爬虫技术
文章平均质量分 80
lxshen
多一分心力去注意别人,就少一分心力反省自己,你懂吗?
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python定向爬虫——爬取某代理Ip网站上的所有ip
爬取一个网站的基本过程确定目标 –> 分析目标 –> 编写程序 -> 执行爬虫 分析目标: url 格式 数据格式 网页编码分析目标数据在源代码里的结构,以便在后去整个页面源代码后,可以利用正则进行匹配。注意:目标网站的格式会随时升级,定向爬虫也需要定期升级。实例:爬取某代理Ip网站上的所有ip确定目标:爬取西刺代理上存活一年以上的高匿代理IP原创 2017-08-13 15:43:04 · 5382 阅读 · 2 评论 -
python 网络爬虫——cookie的使用
什么是cookie?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 客户端访问服务器的过程 为什么要使用cookie模拟登陆?有些网站需要登陆后才能访问摸个页面,在登陆之前,我们想住区某个页面内容是不允许的,那么我们可以利用urllib2库保存我们登陆的cookie,然原创 2017-08-11 22:32:00 · 595 阅读 · 0 评论 -
python爬虫之BeautifulSoup的用法
概念:Beautiful Soup 是什么?Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库,它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。目前Beautiful Soup3已经停止开发,推荐使用Beautiful Soup4解析器Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个原创 2017-08-21 23:05:35 · 662 阅读 · 0 评论 -
python 网络爬虫——请求头,ip代理
1.构造合理的 HTTP 请求头(1)为什么要伪装? 有些网站在处理请求的时候,会对请求头中的字段进行判断,如果发现这个请求头中出现有关爬虫程序的信息,会对这个请求做出禁止访问或者封杀的操作,因此我们需要对请求进行伪装,让网站无法分别请求是否为爬虫。(2)分析:爬虫爬取网页时: 经典的 Python 爬虫在使用 urllib 标准库时,都会发送如下的请求头:原创 2017-08-10 20:55:49 · 1969 阅读 · 0 评论 -
一图让你明白爬虫与反爬虫手段
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家?重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络、小区网络再或者网络网络都是共享一个公共ip,这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特别好,通...转载 2018-04-02 16:15:45 · 12146 阅读 · 6 评论