桌面背景天天换：Python爬虫帮你从花瓣网抓取壁纸

原创于 2024-12-24 12:27:39 发布 · 1.6k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言

Python爬虫实战专栏收录该内容

18 篇文章

订阅专栏

手把手教你：Python爬虫花瓣网，美图自动存桌面！

亲爱的朋友们，今天咱们来点干货——用Python做个小爬虫，专门从花瓣网上扒拉美图，一键保存到你的桌面上。这不仅是个技术活，也是个挺有趣的小项目。赶紧来看看怎么做吧！

在这里插入图片描述

1. 准备工具

首先，你得有Python环境，然后安装两个库：requests用于发送网络请求，BeautifulSoup用于解析HTML文档。如果你还没装，可以在命令行里输入：

pip install requests beautifulsoup4

在这里插入图片描述

2. 编写爬虫花瓣网代码

下面这段代码是一个Python脚本，使用Selenium和BeautifulSoup库来爬取花瓣网，用来抓取花瓣网的美图，并保存到桌面。

# coding=utf-8

import time

from bs4 import BeautifulSoup

from selenium import webdriver

from urllib.request import urlretrieve

# 定义一个爬虫类，用于爬取花瓣网上的图片
class crawl_huaban:
    def __init__(self, url):
        self.url = url  # 初始化时传入的URL

    # 获取网页HTML内容的方法
    def getHtml(self, url):
        driver = webdriver.PhantomJS()  # 使用PhantomJS驱动
        driver.get(url)  # 访问URL
        driver.implicitly_wait(3)  # 隐式等待3秒
        resp = BeautifulSoup(driver.page_source, 'html5lib')  # 解析页面
        driver.quit()  # 关闭驱动
        return resp  # 返回解析后的页面对象

    # 获取页面内容的方法
    def getPage(self):
        driver = webdriver.PhantomJS()  # 使用PhantomJS驱动
        driver.get(self.url)  # 访问初始化时传入的URL
        driver.implicitly_wait(3)  # 隐式等待3秒
        resp = BeautifulSoup(driver.page_source, 'html5lib')  # 解析页面
        driver.quit()  # 关闭驱动
        return resp  # 返回解析后的页面对象

    # 获取图片的方法
    def getImage(self):
        resp = self.getPage()  # 获取页面内容
        pins_ids = []  # 存储图片ID的列表
        pins = resp.find_all("a", class_="img x layer-view loaded")  # 查找所有图片链接
        for pin in pins:
            pins_ids.append(pin.get('href'))  # 提取图片链接并添加到列表
        pins_ids = pins_ids[2:]  # 去掉前两个链接，可能是广告或无关内容

        total = 1  # 初始化计数器
        for pinid in pins_ids:  # 遍历图片链接
            print('第{0}张照片'.format(total))  # 打印当前图片编号
            img_url = 'http://huaban.com%s' % pinid  # 构造图片页面的URL
            img_html = self.getHtml(img_url)  # 获取图片页面的HTML
            img_hold = img_html.find("div", class_="image-holder")  # 查找包含图片的div
            img_src = img_hold.find("img").get("src")  # 提取图片的src属性
            img_src_url = 'http:' + img_src  # 构造完整的图片URL

            try:
                urlretrieve(img_src_url, '%s.jpg' % pinid)  # 下载图片
                print("获取图片：%s成功!" % img_src_url)  # 打印成功信息
            except:
                print("获取图片：%s失败，跳过，获取下一张!" % img_src_url)  # 打印失败信息
            total += 1  # 计数器加1

        print("获取图片完毕")  # 打印完成信息

# 程序入口
if __name__ == '__main__':
    for i in range(1, 11):  # 遍历1到10页
        print('第{0}页'.format(i))  # 打印当前页码
        url = 'http://huaban.com/search/?q=%E7%BE%8E%E8%85%BF&page={0}&per_page=20&wfl=1'.format(i)  # 构造搜索URL
        crawler = crawl_huaban(url)  # 创建爬虫实例
        start = time.perf_counter()  # 记录开始时间
        crawler.getImage()  # 调用方法获取图片
        end = time.perf_counter()  # 记录结束时间
        print('总共用时:%03f seconds\n\n' % (end - start))  # 打印用时

在这里插入图片描述

3. 代码解释归类

以下是对上述代码的归类解释：

导入模块

time：用于测量代码执行时间。
BeautifulSoup：用于解析HTML和XML文档。
webdriver：Selenium库的一部分，用于自动化Web浏览器操作。
urlretrieve：从urllib.request模块，用于从网络下载文件。

类定义：`crawl_huaban`

这个类是用于爬取花瓣网上的图片。

构造函数 `init(self, url)`

初始化类实例，接收一个url参数作为花瓣网的搜索页面地址。

方法 `getHtml(self, url)`

使用webdriver.PhantomJS()启动一个无界面的浏览器（PhantomJS）。
访问传入的url。
使用BeautifulSoup解析页面源代码。
关闭浏览器。
返回解析后的页面对象。

方法 `getPage(self)`

类似于getHtml方法，但是访问的是类的初始化参数self.url。
返回解析后的页面对象。

方法 `getImage(self)`

获取页面内容。
解析页面中的所有图片链接。
遍历图片链接，对于每个链接：
- 构造图片页面的URL。
- 获取图片页面的HTML。
- 提取图片的源地址（src）。
- 构造完整的图片URL。
- 使用urlretrieve下载图片。
- 打印下载成功或失败的信息。
打印获取图片完毕的信息。

程序入口

使用if __name__ == '__main__':判断，确保以下代码只在直接运行此脚本时执行。
循环从第1页到第10页，构造每页的搜索URL。
对于每个URL，创建crawl_huaban类的实例。
记录开始时间，调用getImage方法下载图片。
记录结束时间，并打印总耗时。

注意事项

代码中使用了webdriver.PhantomJS()，这是一个无界面浏览器，但需要注意的是，PhantomJS已经不再维护，且可能不支持最新的Web技术。可以考虑使用webdriver.Chrome()或其他浏览器驱动。
代码中的URL构造和图片下载部分依赖于花瓣网的页面结构，如果花瓣网的页面结构发生变化，代码可能需要相应的调整。
代码中的异常处理使用了简单的try-except块，实际应用中可能需要更详细的错误处理逻辑。

在这里插入图片描述