自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Flask框架从入门到精通之参数配置(二)知识点: 1、参数配置

知识点:1、参数配置一、概况上一篇我们已经把Flask第一个程序运行起来了,那么这一篇主要讲一下Flask参数的配置。二、配置参数Flask参数配置方式有很多种,每一种都可以达到结果,在合适的场景选择合适的配置方式。配置文件在文件加中新建一个config.cfg配置文件,在配置文件上写上下面语句,表示开启调试模式。这样当我们程序出错的时候,就能知道错误在多少行,方便我们快速定位错误...

2019-12-21 15:49:59 269

原创 Flask框架从入门到精通之初识(一)

知识点:1、虚拟环境2、第一个Flask程序一、概况Python Web框架有很多个,比如Django、Flask、Tornado等框架。这个三个框架在Web端是比较有影响力的,尤其是Django框架,在快速开发上占有一定的优势。但是Django框架属于重量级框架,它能想到的功能都会事先帮你想好。你只要按照它的模块要求写,一个网站就能很快速搭建出来。Flask和Tornado框架就属于...

2019-12-17 09:26:31 235

原创 Scrapy爬虫部署、相关api调用、以及gerapy的作用和使用流程总结

scrapy部署介绍相关的中文文档地址https://scrapyd.readthedocs.io/en/latest/安装相关库scrapyd是运行scrapy爬虫的服务程序,它支持以http命令方式发布、删除、启动、停止爬虫程序。而且scrapyd可以同时管理多个爬虫,每个爬虫还可以有多个版本pip3 install scrapydscrapyd-client发布爬虫需要使用...

2019-09-22 20:14:08 861

原创 scrapy-redis实现分布式爬虫详解

scrapy-redis分布式爬虫框架详解随着互联网技术的发展与应用的普及,网络作为信息的载体,已经成为社会大众参与社会生活的一种重要信息渠道。由于互联网是开放的,每个人都可以在网络上发表信息,内容涉及各个方面。小到心情日志,大到国家大事。互联网已成为思想文化信息的集散地,并具有传统媒体无法相比的优势:便捷性,虚拟性,互动性,多元性。网络新闻热点通常形成迅速,多是人们对于日常生活中的各种问题发...

2019-09-22 19:44:12 1325

原创 爬虫进阶之线程及线程池的使用

线程介绍多任务的概念什么叫“多任务”呢?简单地说,就是操作系统可以同时运行多个任务。打个比方,你一边看电影,一边聊QQ,一边在用Word赶作业,这就是多任务,这时至少同时有3个任务正在运行。单核CPU如何执行多任务?多核CPU如何执行多任务?真正的并行执行多任务只能在多核CPU上实现,但是,由于任务数量远远多于CPU的核心数量,所以,操作系统也会自动把很多任务轮流调度到每个核心上执行。...

2019-09-10 20:26:56 613

原创 爬虫入门之结构化数据类型XML的提取(PyQuery)

PyQuerypyquery相当于jQuery的python实现,可以用于解析HTML网页等。它的语法与jQuery几乎完全相同,对于使用过jQuery的人来说很熟悉,也很好上手。官方文档是英文的,但也比较容易阅读和理解。有一个中文的教程网站,这里也提供出来。官方文档:https://pythonhosted.org/pyquery/index.html中文教程:http://www.ge...

2019-09-10 20:01:08 539

原创 爬虫入门之结构化数据类型XML的提取(BeautifulSoup4)

什么是beautiful soup?和上一篇博客谈的Xpath一样,是python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据CSS 选择器:BeautifulSoup4和 lxml 一样,Beautiful Soup 也是python的一个HTML/XML的解析器,用它可以方便的从网页中提取数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML ...

2019-09-10 19:48:30 662

原创 爬虫入门之结构化数据类型XML的提取(Xpath)

什么是XPath?XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。什么是XML?XML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似 HTMLXML 的设计宗旨是传输数据,而非显示数据XML 的标签需要我们自行定义XML 被设计为具...

2019-09-09 18:50:29 1323

原创 爬虫入门之Requests的使用

Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。...

2019-09-09 17:23:46 161

原创 urllib和re模块的使用

re模块的使用. 匹配任意一个字符,除了\n^ 匹配字符串的开头$ 匹配字符串的结尾匹配0个或多个的字符串匹配1个或多个的字符串? 匹配0个或1个,为非贪婪方式{n} 匹配n个的字符串[a, b , c] 匹配 ‘a’ 或 ‘b’ 或 ‘c’[^…] 不在[ ]内的字符, 如[^abc] 表示匹配除了’a’ ,‘b’, ‘c’ 这个三个字符以外的字符[…-…] 表示范围,...

2019-09-07 15:48:29 255

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除