初学爬虫简单的爬了爬贴吧图片
#!/usr/bin/python
# coding utf-8
import re
import time
import urllib
def getHtml():
x=0
for i in range(1,41):
url = ' '% i
page = urllib.urlopen(url)
html = page.read()
reg = r'src="(.*?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
print(imglist)
time.sleep(1)
# x = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x+=1
getHtml()
本文介绍了一个简单的Python爬虫程序,用于抓取贴吧中的图片资源。通过解析网页源码并匹配图片链接,利用urllib库实现图片下载。该程序演示了基本的网页请求、正则表达式匹配及文件保存操作。
1万+

被折叠的 条评论
为什么被折叠?



