安装python
(下载速度过慢可以用清华大学镜像)
配置环境变量
找到python安装路径
将该路径复制下来,在系统属性的高级系统设置中找到环境变量
选中path点“编辑”,新建两个条目,分别是刚才python的安装路径和Scripts路径,如图
安装请求库
pycharm:File / Setting / Project Interpreter 点加号搜索相应库即可
提醒: 如果下载速度太慢,修改Manage Repositories设置
cmd:pip install name
- requests (向服务器发出请求)
- Selenium (驱动浏览器执行特定操作,对于JavaScript渲染页面的抓取很有效)
- aiohttp (异步web服务,大大提高数据抓取效率)
- cchardet (字符编码自动检测)
- aiodns (加速DNS解析)
安装解析库
如何从抓取到的网页提取信息?正则写起来比较繁琐,可以用解析库和解析方法。
- lxlml (HTML和XML解析)
- beautifulsoup4 (HTML和XML解析)
- pyquery (网页解析,与jQuery类似的语法解析HTML文档)
安装验证码识别软件
很多网站现在都有验证码,可以用OCR(Optical Character Recognition, 光学字符识别, 通过扫描形状翻译成电子文本)。
- tesseract安装语言包时如果遇到错误一般是因为网络问题(墙),可以另外下载语言包(Github或公众号)
- 安装完tesseract再安装tesserocr(python的OCR的识别库)
安装tesserocr遇到的问题
- whl文件安装失败
- 解决:pip3 install name.whl 需要在whl文件所在目录下执行,否则报错找不到对应文件
- 未解决:
- wheel库安装失败 (直接尝试 pip3 install wheel 失败)
- 查询pip适用的whl版本失败 (网上的方法全部报错)
数据库安装
关系型数据库,数据以表的形式存储 (MySQL)
非关系型数据库,数据以键值对的形式存储 (MongoDB、Redis)
数据库的安装包下载较慢,有需要的可以私我邮箱发你