
python爬虫学习
SoraShim
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
requests库的几个小例子
Requests库的几个例子 例子1. 爬取亚马逊某商品页信息 import requests url = "https://amazon.cn/gp/product/B01M8L5Z3Y" try: kv = {'user-agent':'Mozilla/5.0'} r = requests.get(url,headers = kv) r,raise_for_status() r....原创 2020-01-03 10:23:26 · 387 阅读 · 0 评论 -
BeautifulSoup学习笔记
BeautifulSoup学习笔记 安装 pip install beautifulsoup4 # 如果不加4 默认安装的版本是beautifulsoup3 使用 from bs4 import BeautifulSoup4 例子 htm = """ <div> <ul> <li class="item-0 item-12" class=...原创 2019-12-23 12:08:12 · 252 阅读 · 0 评论 -
lxml库和Xpath语法
lxml库 lxml库的安装 pip install lxml xpath 语法 父节点 子节点 平行节点 / 从根节点选取 // 从根节点开始匹配,而不考虑它们的位置。 /text() 选取文本 @ 选取属性 s from lxml import etree respons...原创 2019-12-20 23:30:02 · 352 阅读 · 0 评论 -
常见状态码
假设response是requests请求得到的对象,通过 response.status_code 可以查看此次相应的状态码,这里记录一下常见的状态码: 状态码 意义 200 **“OK” ** 请求成功 301 "Moved Permanently" 请求的资源被转移 400 "BAD Request"实体中的文档是一个错误消息 404 "Not Fo...原创 2019-12-12 16:21:29 · 305 阅读 · 0 评论 -
认识HTTP请求
认识HTTP请求 什么是HTTP请求 我们可以简单地把HTTP请求理解为从客户端到服务器端的请求消息。 也就是说,无论是真正的一个人还是一个爬虫,当希望从服务器请求服务或信息时,就需要首先向服务器端发出一个请求,然后服务器返回响应,最后连接关闭,这就是Web服务的流程。 Http请求信息 请求方法 请求头部 请求正文 请求方法 get 请求指定的页面信息,并返回实体主体。 post 向指...原创 2019-12-12 15:41:29 · 157 阅读 · 0 评论