
爬虫日记
记录学习爬虫的过程中所踩的坑和心得。
文武218
热爱技术的人工智能小白
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫--selenium的基本使用及定位标签
导入包并实例化 from selenium import webdriver browser = webdriver.Chrome() 打开网页 url = 'https://www.17k.com/' browser.get(url) 因为selenium会驱动浏览器打开网页,所以并不需要进行UA伪装。 selenium定位 定位标签 定位标签时只需要定位到最后一级标签名即可,不需要定位到具体内容。load_in = browser.find_element_by_class_name..原创 2021-08-16 17:36:21 · 931 阅读 · 0 评论 -
爬虫之字符验证码的识别(pytesseract)
利用pytesseract进行验证码的识别 1、安装tesseract 安装下载tesseract之后将其添加到系统路径。(略) 2、安装pytesseract。 pip install pytesseract 3、pytesseract的使用。 导入包 import pytesseract from PIL import Image 指定tesseract路径。 pytesseract.pytesseract.tesseract_cmd = r'E:\tesseract\install\tes原创 2021-08-12 18:39:14 · 143 阅读 · 0 评论 -
解析库之xpath的使用和 tips (2021/8/7)
…原创 2021-08-07 16:15:52 · 97 阅读 · 0 评论