Python Selenium自动化爬虫指南：从入门到实战

PDF文件

下载需积分: 48 | 5.24MB | 更新于2024-07-17 | 55 浏览量 | 举报 3 收藏

立即下载

《Python的Selenium爬虫》中文版是一本专门针对Python编程语言和Selenium自动化测试工具的教程书籍。Selenium是一个广泛用于网页应用程序测试和自动化任务的开源库，它允许开发者控制浏览器的行为，实现网页爬虫功能。本书以2019年2月11日的版本为准，由作者刘傲凡编写，适合希望学习如何使用Selenium进行网页抓取和数据采集的读者。章节结构详细介绍了Selenium的安装和配置，包括Windows和Linux用户的具体步骤，确保跨平台操作。作者首先讲述了Selenium的优势，如其支持多种浏览器、模拟真实用户行为以及强大的网页元素定位能力。书中涵盖了关键的概念，如元素定位的不同方法，包括ID、Name、XPath、TagName、ClassName、CSS选择器、LinkText和PartialLinkText定位等，这些都是进行有效网页抓取的基础。 PhantomJS作为Selenium的无头浏览器选项，被重点介绍。它允许在后台运行，提供更快的爬取速度和更高的隐匿性。章节内容包括PhantomJS的定义、下载和安装方法，以及如何配置Webdriver。此外，还涉及到了一些常见问题，如中文编码问题、处理不同框架间转换以及解决PhantomJS进程不自动退出的问题。实战部分是本书的核心，分为两部分：首先，通过Python与Selenium结合访问Python官网，演示了如何浏览、操作网页元素并实现动态内容的抓取，如修改标题、搜索和获取特定区域的数据。接着，作者展示了如何使用Selenium爬取今日头条的信息，包括搜索热词、抓取搜索结果、定位元素内容，并对数据进行存储。总体来说，《Python的Selenium爬虫》中文版不仅适合初级到中级的Python开发者，也适用于有一定Web开发基础的学习者，通过实例和理论相结合的方式，让读者掌握如何使用Selenium进行高效、稳定的网页自动化操作。对于想要探索网络数据抓取的读者，这是一本非常实用的参考资料。

1.3.1 windows 用户的详细说明

本书基于 Python 编程语言来讲解 selenium，在这里，我们假定读者使用 Python 编程

语言，并了解 Python 的基本语法、配置方法。

当然，如果你想要下载 Python 上的 selenium 库可以从 PyPI 官方库网站上下载，PyPI

page for Selenium package 的网页链接为 https://pypi.org/project/selenium/，但更好的方

法是使用 pip 来下载，你可以像下面这样，来安装 selenium。

#通过 pip 来安装

pip install selenium

如果不巧的是，你使用的是较为老旧的 Python2.X 的版本，那么你可以通过通过手动

安装 pip 或者 easy_install 工具来方便你的安装，在这里，我们同样提供 easy_install 的安装

方法：

#通过 easy_install 工具安装

easy_install selenium

当你安装完成后，如果读者还不放心是否安装成功，那么，你可以通过以下方式来检

验是否安装成功：

C:\Users\xuyichenmo>python

Python 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:06:47) [MSC v.1914 32 bit (Intel)] on win32

Type "help", "copyright", "credits" or "license" for more information.

>>>

没有消息就是最好的消息，当你输入 import selenium 而没有任何提示，那么就证明你

已经成功安装了 selenium。

接着我们要下载 selenium 服务器（这一项是可选的，你不是一定需要安装它，主要用

于运行 Selenium IDE 录制的脚本）。

由于 selenium 基于 JavaScript 编写的，所以我们还要安装 Java Runtime Environment

(JRE) 1.6 或者更高版本的 JRE。

这里提供官方网页的链接：

http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html

同样的，笔者可以在 selenium 项目官方网站的一个子页面来下载 Selenium

Standalone Server，截止 2018 年 4 月份，Selenium Standalone Server 的最新版本为

3.13.0。

https://www.seleniumhq.org/download/

安装完 JRE 后可以通过 win+r 键打开运行窗口，然后输入 cmd，来打开命令行窗

command（CMD），接着键入以下这条命令：

java -jar F:\Python_ADDED\selenium-server-standalone-3.13.0.jar

来启动 selenium 服务器，你需要把-jar 参数后面的 selenium-server-standalone 的文

如果你刚刚安装完 JRE 后就直接运行这条命令，那么你可能会运行失败，因为端口占

用问题，如果是这样的话，那么你可以通过以下这几条命令来解决

netstat -aon | findstr "[端口号]"

tasklist | findstr "[PID 号]"

taskkill /pid [PID 号] /

我们可以看到，在第一次使用调用服务器命令后 java 后提示我们失败了，selenium 默

认调用 4444 端口，而这个端口已经被占用了，在我们解除了端口占用后，就可以成功调

用了。

❑ --debug，-debug

笔者之前在第一章第二节提起过 Selenium 项目可以使我们做到一些模拟人类操纵浏览

器的行为。这些基本的行为也是我们实现更加复杂的动作的基础。

接下来，我们来看一看如何实现这些行为。

2.1 启动浏览器

在启动浏览器之前，我们还需要一个下载一个 Webdriver（翻译为 Web 驱动），那么

什么是 webdriver 呢？假设我们需要找个陪我们一起猎人上山打猎，那么目前，我们就已

经雇佣到了我们需要的猎人，但是，我们还缺一把猎枪，Webdriver 的作用就和这把猎枪

很像，从笔者的角度来看，它就是驱动浏览器运行的一个工具。

读者可以在这个链接查看到所有被 selenium 官方承认（注意，但并不都是他们开发

的）的第三方驱动：

https://www.seleniumhq.org/download/

这是谷歌浏览器 webdriver 的官方下载地址：

# chrome_webdriver（截止 2018.7，目前最新版本为 2.40）

https://sites.google.com/a/chromium.org/chromedriver/

可能因为我们伟大的中国国家防火墙（GFW，Great Firewall），读者无法访问上面的网

址，读者可以选用国内淘宝网站镜像提供的地址：

http://npm.taobao.org/mirrors/chromedriver/

# firefox_webdriver

https://github.com/mozilla/geckodriver/releases

在本书中笔者主要采用谷歌浏览器做示范。当然，代码都是相通的，如果你掌握了技

巧，那么你可以轻松写出其他浏览器所对应的代码，如果他们的 webdriver 有什么区别，

笔者也会详细指出。

下载下来并解压之后，里面的内容仅为一个 chromedriver.exe 文件，为了方便使用，

我们需要将其解压在 chrome 的安装目录下：

C:\Program Files (x86)\Google\Chrome\Application\

然后再配置环境变量，右键单击我的电脑，然后打开属性，双击高级系统设置，打开

的界面的第三个选项卡——高级，然后环境变量，修改 path，在最后面添加:

请注意，这行内容的前后各有一个分号。

;C:\Program Files (x86)\Google\Chrome\Application;

剩余218页未读，继续阅读

phubing

粉丝: 621

Python Selenium自动化爬虫指南：从入门到实战

selenium-python.pdf

selenium中文API(20150417003250)最新版

Selenium使用教程.pdf

Python Selenium爬虫绕过Cloudflare验证码

Python selenium爬虫实现定时任务过程解析

Python Selenium爬虫：自动化批量下载IT英文书籍

Python Selenium爬虫教程：爬取有道翻译音标示例

python selenium爬虫用的浏览器和驱动96.0.4664.45

Windows 10上Python Selenium爬虫环境完整教程

使用Python Selenium爬虫技巧爬取中国大学排行榜

最新资源