
搜索引擎
技术没有止境_2015
多年的C\C++\.NET(C#)\Matlab开发经历,热衷于算法的研究和实现,现从事大数据开发方面的工作,每天和Java、Hadoop、R打交道。热爱软件开发这个行业,希望结交行业内热爱技术的大牛。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
网络爬虫开发技术——快速线程池爬虫
0×00 简介0×01 功能定义0×02 总体流程0×03 线程池任务迭代0×04 具体实现0×05 测试使用0×06 结语0×00 简介本文算是填前面的一个坑,有朋友和我将我前面写了这么多,真正没看到什么特别突出的实战,给了应对各种情况的方案。多线程那里讲的也是坑。忽然想想,说的也对,为读者考虑我确实应该把多线程这里的坑补完。然后决定再以一篇文转载 2016-04-06 13:44:18 · 1999 阅读 · 0 评论 -
网络爬虫开发技术——数据存储以及多线程
0×00 介绍本文我们就两个方面来讨论如何改进我们的爬虫:数据存储和多线程,当然我承认这是为我们以后要讨论的一些东西做铺垫。目的:通常我们需要对爬虫捕捉的数据进行分析,处理,再次利用或者格式化,显然我们不能只是把爬虫捕捉到的数据在内存中处理,然后打印在屏幕上。在本章,我将介绍几种主流的数据存储方法。爬虫处理数据的能力往往是决定爬虫价值的决定性因素,同时一个稳定的存储数据的方法也绝对转载 2016-04-06 13:41:39 · 3352 阅读 · 0 评论 -
网络爬虫开发技术——整站爬虫与Web挖掘
0×00 介绍0×01 协议0×02 原则0×03 确立目标与分析过程0×04 动手0×05 sitemap爬虫0×06 web元素处理0×07 总结与预告0×00 介绍在互联网这个复杂的环境中,搜索引擎本身的爬虫,出于个人目的的爬虫,商业爬虫肆意横行,肆意掠夺网上的或者公共或者私人的资源。显然数据的收集并不是为所欲为,有一些协议或者原则还是需要转载 2016-04-06 13:36:54 · 3397 阅读 · 0 评论 -
网络爬虫开发技术——入门
0×00 介绍0×01 要求0×02 你能学到什么?0×03 知识补充0×04 最简单的开始0×05 更优雅的解决方案0×06 url合法性判断0×07 总结与预告0×00 介绍爬虫技术是数据挖掘,测试技术的重要的组成部分,是搜索引擎技术的核心。但是作为一项普通的技术,普通人同样可以用爬虫技术做很多很多的事情,比如:你想了解一下FreeBuf转载 2016-04-06 13:31:11 · 7160 阅读 · 0 评论