python爬虫开发环境配置

本文详细介绍Python环境的搭建步骤,包括使用清华大学镜像加速下载,配置环境变量,以及安装常用库如requests、Selenium、aiohttp等。同时,介绍了网页解析库如lxml、beautifulsoup4和验证码识别软件tesseract的安装方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

安装python

(下载速度过慢可以用清华大学镜像)

配置环境变量

找到python安装路径
在这里插入图片描述
将该路径复制下来,在系统属性的高级系统设置中找到环境变量
在这里插入图片描述
选中path点“编辑”,新建两个条目,分别是刚才python的安装路径和Scripts路径,如图
在这里插入图片描述

安装请求库

pycharm:File / Setting / Project Interpreter 点加号搜索相应库即可

提醒: 如果下载速度太慢,修改Manage Repositories设置

cmd:pip install name
  • requests (向服务器发出请求)
  • Selenium (驱动浏览器执行特定操作,对于JavaScript渲染页面的抓取很有效)
  • aiohttp (异步web服务,大大提高数据抓取效率)
  • cchardet (字符编码自动检测)
  • aiodns (加速DNS解析)

安装解析库

如何从抓取到的网页提取信息?正则写起来比较繁琐,可以用解析库和解析方法。

  • lxlml (HTML和XML解析)
  • beautifulsoup4 (HTML和XML解析)
  • pyquery (网页解析,与jQuery类似的语法解析HTML文档)

安装验证码识别软件

很多网站现在都有验证码,可以用OCR(Optical Character Recognition, 光学字符识别, 通过扫描形状翻译成电子文本)。

  • tesseract安装语言包时如果遇到错误一般是因为网络问题(墙),可以另外下载语言包(Github或公众号)
  • 安装完tesseract再安装tesserocr(python的OCR的识别库)
安装tesserocr遇到的问题
  • whl文件安装失败
    • 解决:pip3 install name.whl 需要在whl文件所在目录下执行,否则报错找不到对应文件
  • 未解决:
    • wheel库安装失败 (直接尝试 pip3 install wheel 失败)
    • 查询pip适用的whl版本失败 (网上的方法全部报错)

数据库安装

关系型数据库,数据以表的形式存储 (MySQL)
非关系型数据库,数据以键值对的形式存储 (MongoDB、Redis)
数据库的安装包下载较慢,有需要的可以私我邮箱发你

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值