
Python爬虫
weixin_44318102
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫第3周——Re(正则表达式)库入门
正则表达式regular expression的概念正则表达式:用来简洁表达一组字符串的表达式正则表达式是一种通用的字符串表达框架正则表达式是一种针对字符串表达“简洁”,“特征”思想的工具可以用来判断字符串的特征归属正则表达式的应用:在文本处理中十分常用表达文本类型的特征(病毒,入侵)同时查找或替换一组字符串匹配字符串的全部或部分(主要应用)正则表达式的使用将符合正则表达式...原创 2020-04-05 20:49:47 · 235 阅读 · 0 评论 -
爬虫第2周——中国大学排名定向爬虫
功能描述输入大学排名URL链接输出大学排名信息的屏幕输出技术路线requests,bs4定向爬虫仅对输入URL进行爬起,不扩展爬取程序的结构设计步骤所用函数1.从网络上获取大学排名网页内容getHTMLText()2.提取网页内容信息中合适的数据结构fillUnivList()3.利用数据结构展示并输出结果...原创 2020-04-02 16:57:26 · 183 阅读 · 0 评论 -
爬虫第2周——信息提取及基于bs4库的HTML内容查找find_all方法
信息提取:从标记后的信息中提取所关注的内容方法一:完整解析信息的标记形式,再提取关键信息XML、JSON、TAML需要标记解析器,例如:bs4库的标签树遍历优点:信息解析准确缺点:提取过程繁琐,速度慢方法二:无标记形式,直接搜索关键信息搜索对信息的文本查找函数即可优点:提取过程简洁,速度较快缺点:提取结果准确性与信息内容相关融合方法:结合形式解析与搜索方法,提取关键信息需要...原创 2020-03-30 20:14:30 · 407 阅读 · 0 评论 -
爬虫第2周——信息标记的3种形式及比较
信息的标记优点标记后的信息可形成信息组织结构,增加了信息维度标记的结构与信息一样具有重要价值标记后的信息用于通信、存储或展示标记后的信息更利于程序理解和运用HTML的信息标记(HTML超文本传输语言)超文本:文字,声音,图像,视频HTML通过预定义的<>…</>标签形式组织不同类型的信息信息标记的3种形式:XML,JSON,YAMLXML:扩展标记语言,标...原创 2020-03-29 21:08:55 · 147 阅读 · 0 评论 -
爬虫第2周——基于bs4库的HTML内容的遍历与格式化,编码
HTML内容的遍历原创 2020-03-29 16:57:17 · 169 阅读 · 0 评论 -
爬虫第2周——Beautiful Soup安装,基本元素
Beautiful Soup的安装:cmd- pip install beautifulsoup4安装小测:1.找到目标URL https://python123.io/ws/demo.html 按下F12或查看原代码即可得到页面的代码。或者采用requests库获得原代码:import requestsr=request.get("https://python123.io/ws/demo...原创 2020-03-26 16:08:21 · 151 阅读 · 0 评论 -
Requests爬虫通用代码框架
import resquests #引入requests库def getHTMLText(url): try: r=requests.get(url,timout = 30) r.raise_for_status() #判断拟爬取的url是否连接正常,200:正常,否则引发HTTPError异常 r.encoding = r.apparene_encoding return r.te...转载 2020-03-20 21:46:23 · 330 阅读 · 0 评论 -
爬虫第1周——实战
12原创 2020-03-20 21:31:36 · 88 阅读 · 0 评论 -
爬虫第1周——Robots协议
爬虫的规模爬取网页:小规模,数据量小,爬取速度不敏感Requests库爬取网站:中规模,数据规模较大,爬取速度敏感Scrapy库爬取全网:大规模,搜索引擎,爬取速度关键定制开发网络爬虫引发的问题: 性能骚扰、 法律风险、隐私泄露...原创 2020-03-20 21:23:49 · 118 阅读 · 0 评论 -
爬虫第1周——Requests库的规则(库的安装,Response,url,7种方法)
Requests库的安装:cmd命令-pip install requestsRequests库的7种方法:Response:返回一个包含服务器资源的Response对象属性:**HTTP协议:**超文本传输协议,一个基于请求与响应模式的,无状态的应用层协议url格式:http://host[:port][path]host:合法的Internet主机域名或IP地址port:端口号,缺...原创 2020-03-20 21:10:34 · 721 阅读 · 0 评论 -
爬虫第0周——了解爬虫(目标,学习框架,IDE)
学习目标:掌握定向网络数据爬取和网页解析的基本能力IDE:集成开发环境(IDE,Integrated Development Environment )是用于提供程序开发环境的应用程序,一般包括代码编辑器、编译器、调试器和图形用户界面等工具。集成了代码编写功能、分析功能、编译功能、调试功能等一体化的开发软件服务套...原创 2020-03-20 20:42:59 · 144 阅读 · 0 评论