
Python&爬虫
文章平均质量分 83
不净之心
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python字符串编码判断
[size=large][color=darkblue]Python 字符编码判断[/color][/size] [url]http://blog.sina.com.cn/s/blog_44c781ec0100sgsh.html[/url] [url]http://my.oschina.net/eonezhang/blog/125440[/url] [code="python"]def...原创 2013-09-30 14:13:49 · 317 阅读 · 0 评论 -
python类型转换
[url]http://jayzotion.iteye.com/blog/349654[/url] python类型转换 函数 描述 [code="python"]int(x [,base ]) 将x转换为一个整数 long(x [,base ]) 将x转换为一个长整数 float(x ) ...原创 2013-10-01 14:12:59 · 870 阅读 · 0 评论 -
python requests 下载图片和数据库读取
[color=red][size=x-large]python requests 下载图片[/size][/color] [code="python"]def downloadImageFile(imgUrl): local_filename = imgUrl.split('/')[-1] print "Download Image File=", local_filenam...原创 2013-10-02 15:56:05 · 547 阅读 · 0 评论 -
python: json,base64 的使用
JSON 1. import json 2. json.dumps() json obj => string 3. json.load() string => json obj Base64 [code="python"]import base64 import StringIO a = "this is a test" b = base64.encodestring(a)...原创 2013-10-06 19:12:44 · 871 阅读 · 0 评论 -
python对文件的创建等处理
[url]http://www.qttc.net/201209207.html[/url] [color=darkblue]import os[/color] 主要涉及到三个函数 1、[color=darkblue]os.path.exists[/color](path) 判断一个目录是否存在 2、[color=darkblue]os.makedirs[/color](path) 多层创建...原创 2013-10-06 21:24:09 · 145 阅读 · 0 评论 -
python + request + lxml的几个例子
例子没有加入[color=darkblue]失败后重做的功能[/color],这个也可以考虑增加。 第三个例子加入了[b][color=red]访问频率控制[/color][/b] 遍历图片的例子[color=red]加入多线程,明显爬得快很多[/color] [color=red][size=x-large]解析163新闻列表的例子:[/size][/color] [code="py...原创 2013-10-06 22:09:52 · 439 阅读 · 0 评论 -
问题: Max retries exceeded with url
解决一: [url]http://stackoverflow.com/questions/15431044/can-i-set-max-retries-for-requests-request[/url] [code="python"]requests.adapters.DEFAULT_RETRIES = 5[/code] 解决二: [url]http://obroll.com/max...原创 2013-10-07 11:36:05 · 1400 阅读 · 1 评论 -
Python多线程学习
[url]http://www.cnblogs.com/tqsummer/archive/2011/01/25/1944771.html[/url] 一、Python中的线程使用: Python中使用线程有两种方式:函数或者用类来包装线程对象。 1、 函数式:调用thread模块中的start_new_thread()函数来产生新线程。如下例: [code="python"]...原创 2013-10-08 09:39:08 · 99 阅读 · 0 评论 -
python: 界面开发Tkinter
python GUI开发 工具选择 [url]http://blog.csdn.net/kiki113/article/details/4066828[/url] python学习笔记——Tkinter GUI编程——简介[url]http://blog.sina.com.cn/s/blog_4b5039210100eoq7.html[/url] Python GUI编程(Tkinter)...原创 2013-10-10 16:38:57 · 296 阅读 · 0 评论 -
Python中执行外部命令并捕获双向输出
原文:[url]http://my.oschina.net/qihh/blog/74266[/url] 利用python的subprocess模块执行外部命令,并捕获stdout,stderr的输出: [code="python"]import subprocess #print ’popen3:’ def external_cmd(cmd, msg_in=''): try:...原创 2013-10-12 15:08:42 · 197 阅读 · 0 评论 -
python Tkinter的一些记录
[color=red][b]1. Label里面的文本对齐方式[/b][/color]:[url]http://www.hiadmin.org/code/python_tkinter_label[/url] Label(root, text="www.hiadmin.org",bg="red",width=20,height=2, wraplength=80,anchor="w",[color=...原创 2013-10-14 11:06:45 · 191 阅读 · 0 评论 -
Htmlunit使用
[url]http://my.oschina.net/u/852445/blog/398931[/url]原创 2015-04-11 20:12:05 · 163 阅读 · 0 评论 -
Python:数组、列表(list)、字典(dict)、字符串(string)常用基本操作小结
[size=x-large][color=red]连接 list 与分割字符串[/color][/size][url]http://woodpecker.org.cn/diveintopython/native_data_types/joining_lists.html[/url] 连接 list 与分割字符串 3.7.1. 字符串方法的历史注解 您有了一个形如 key=value 的 ke...原创 2013-09-30 13:07:01 · 508 阅读 · 0 评论 -
Python模块学习 ---- datetime
[Python Tip]如何计算时间差 [url]http://blog.donews.com/limodou/archive/2005/02/16/278221.aspx[/url] Q:如何方便的计算两个时间的差,如两个时间相差几天,几小时等 A:使用datetime模块可以很方便的解决这个问题,举例如下: [code="python"]>>> import datetime >>...原创 2013-09-30 09:39:22 · 139 阅读 · 0 评论 -
Java搜索引擎 Nutch 介绍
[url]http://www.open-open.com/lib/view/1325297750139[/url] Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索...原创 2013-09-27 15:43:47 · 105 阅读 · 0 评论 -
开源爬虫Labin,Nutch,Neritrix介绍和对比
[url]http://my.oschina.net/zplswf/blog/95093[/url] [color=darkblue][b]Larbin[/b][/color] 开发语言:C++ http://larbin.sourceforge.net/index-eng.html larbin是个基于C++的web爬虫工具,拥有易于操作的界面,不过只能跑在LINUX下,在一台普通PC下...原创 2013-09-27 15:46:05 · 118 阅读 · 0 评论 -
Nutch和CasperJS的区别
[url]http://bingozhao.com/blog/?p=53[/url] 研究淘宝产品数据抓取的时候遇到动态内容读取的问题(淘宝上的价格,评论信息是通过JS动态加载的),Nutch在这方面并未考虑。 对应的解决方案是基于Webkit/Geko等浏览器核心创建的Headless Browser Agent,比如casperjs(基于pantomjs),可以灵活实现各种模拟用户操作...原创 2013-09-27 21:03:00 · 107 阅读 · 0 评论 -
[Python]网络爬虫
[Python]网络爬虫(一):抓取网页的含义和URL基本构成 [url]http://blog.csdn.net/pleasecallmewhy/article/details/8922826[/url] [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容 [url]http://blog.csdn.net/pleasecallmewhy/article/de...原创 2013-09-28 17:28:01 · 148 阅读 · 0 评论 -
你们都用什么来做爬虫的
看这里的回复 [url]http://www.v2ex.com/t/62657[/url] 42 回复 | 直到 2013-03-18 23:08:21 PM 1 for4 200 天前 ♥ 3 [color=darkblue]Python +requests +lxml +celery[/color] 2 xdeng 200 天前...原创 2013-09-28 20:30:35 · 331 阅读 · 0 评论 -
python + request + pyquery[安装失败]
[color=red][size=x-large]比urllib好用的requests[/size][/color] [url]http://www.bsdmap.com/2013/01/13/python-requests/[/url] 更多见官方文档: [url]http://docs.python-requests.org/en/latest/user/quickstart/[/url]...原创 2013-09-28 20:51:17 · 275 阅读 · 0 评论 -
Beautiful Soup 中文教程
[url]http://www.pythonclub.org/modules/beautifulsoup/start[/url] [color=red]使用yumex安装[/color] 官方文档:[url]http://www.crummy.com/software/BeautifulSoup/bs4/doc/[/url],version=4 中文文档:[url]http://www....原创 2013-09-29 09:36:29 · 197 阅读 · 0 评论 -
Python中使用中文
[url]http://blog.csdn.net/kernelspirit/article/details/2650696[/url] 1.需要在[b][color=red]第一行或第二行指定编码声明[/color][/b]。把ChineseTest.py文件的编码重新改为ANSI,并加上编码声明: # coding=gbk 2. 在中文字符串前面[color=red][b]加上u...原创 2013-09-29 10:25:03 · 150 阅读 · 0 评论 -
Python 字符串操作(截取/替换/查找/分割)
[color=red][size=large]python字符串连接[/size][/color] 先介绍下效率比较低的,有些新手朋友就会犯这个错误: [code="python"]a = ['a','b','c','d'] content = '' for i in a: content = content + i print content[/code] 说下为什么效...原创 2013-09-29 13:01:16 · 1552 阅读 · 0 评论 -
用Python操作Mysql和中文问题
[url]http://www.iteye.com/topic/573092[/url] 平时的主要编程语言是Java,开发时也主要用Mysql,经常为了测试,调试的目的需要操作数据库,比如备份,插入测试数据,修改测试数据,有些时候不能简单的用SQL就能完成任务,或都很好的完成任务,用Java写又有点太麻烦了,就想到了Python。Python语法简洁,不用编译,可以经较好的完成任务。今天看了下...原创 2013-09-29 13:55:54 · 214 阅读 · 0 评论 -
python html parser库lxml的介绍和使用
使用由 Python 编写的 lxml 实现高性能 XML 解析 [url]http://blog.csdn.net/yatere/article/details/6667043[/url] [color=darkblue][size=x-large]用lxml解析HTML[/size][/color][url]http://www.cnblogs.com/descusr/archive/2...原创 2013-09-30 09:39:07 · 672 阅读 · 0 评论 -
垂直爬虫 webmagic
新版文档地址 [url]http://webmagic.io/docs/zh/[/url], [url]http://webmagic.io/docs/zh/posts/ch1-overview/README.html[/url] webmagic的使用文档:[url]https://github.com/code4craft/webmagic/blob/master/user-manual.m...原创 2014-09-05 20:24:57 · 222 阅读 · 0 评论