- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 关于mongodb的简单了解
MongoDB MongoDB属于非关系型数据库,基本概念涉及文档,集合,数据库。 文档(document):MongoDB中数据的基本单元,文档中有唯一的标识:"_id",在整个集合中是唯一的,文件被插入时如果没有这一项,会自动添加。 文档的键值对时有顺序的。,顺序不同认定为不同的文档。 文档的值可以使用字符串,整数,数组,以及文档等类型。 文档的键是用双引号标识的字符串,不能含有空字符,点...
2019-04-10 14:31:41
162
原创 Python爬虫基础的简单了解(2)
使用requests 相比urllib组建opener和handler,可以更加便捷的处理cookies,验证,代理设置等。 import requests response = requests.get('https://baidu.com/') print(type(response)) print(response.cookies) print(response.status_code) p...
2019-03-12 23:56:05
158
原创 python爬虫robots协议简单了解
Robots协议 Robots协议也称为爬虫协议或者机器人协议,全名为网络爬虫排除标准,告诉爬虫哪些可以抓取,哪些不可以。通常会有一个名为robots.txt.的文件,放在网站的根目录下。 爬虫访问站点,会先检索是否有机器人协议,根据协议内容进行爬取。 robots.txt样例: User-agent: * Disallow: / Allow: /public/ 表示对所有爬虫(*)限制只允许...
2019-03-12 17:25:16
1241
原创 Python爬虫基础的简单了解(1)
基本库的使用 urllib python内置HTTP请求库,包含四个模块: request:最基本的请求模块 ,用来模拟发送请求。 error:异常处理,出现请求错误,可以捕获异常,保证程序不崩溃。 parse:工具模块,提供URL的处理方法,合并,拆分等。 robotparser:识别机器人协议,判断爬取的规定。 发送请求 使用urllib.request模块,可以模拟一个浏览器发送请求并取...
2019-03-12 16:26:34
212
原创 Python爬虫图形验证码的简单了解
图形验证码处理 识别测试 利用OCR技术识别图形验证码,使用库tesserocr 使用来自知网登录的验证图片测试 保存为code.jpg #导入tesserocr库 import tesserocr #PIL是图像处理库,Image可以对图像各种操作 from PIL import Image #图片存放在项目根目录下,打开 image = Image.open('code.jpg') #使用t...
2019-03-10 16:36:21
410
原创 MySql数据库简单了解
连接数据库 首先尝试连接数据库,这里使用PyMySQL连接MySQL,并创建一个新数据库。 #导入pymysql import pymysql #使用connect连接 db = pymysql.connect(host='localhost', user='root', password='123456', port=3306) #调用光标(操作游标) cursor = db.cursor() ...
2019-03-10 01:03:53
548
原创 基础Scrapy的简单了解(1)HTML和XPath
简单介绍 简化获得和抽取数据复杂性的网络框架。 Scrapy是用于提取结构化信息的,需要人工介入,设置合适的XPath或者CSS表达式。 关于HTML和XPath(简单略过) URL:第一部分通过域名系统在网络上定位合适的服务器,剩余部分请求服务端理解发送的请求。 HTML:放在网络上的文本文件。理解标签,元素,属性,以及包含的文本。 树表示法:树形数据结构,利用框模型映射到屏幕上。 XPath:...
2019-03-05 15:57:02
187
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人