lake_han-CSDN博客

原创关于mongodb的简单了解

MongoDBMongoDB属于非关系型数据库，基本概念涉及文档，集合，数据库。文档（document）：MongoDB中数据的基本单元，文档中有唯一的标识："_id"，在整个集合中是唯一的，文件被插入时如果没有这一项，会自动添加。文档的键值对时有顺序的。，顺序不同认定为不同的文档。文档的值可以使用字符串，整数，数组，以及文档等类型。文档的键是用双引号标识的字符串，不能含有空字符，点...

2019-04-10 14:31:41 169

使用requests相比urllib组建opener和handler，可以更加便捷的处理cookies，验证，代理设置等。import requestsresponse = requests.get('https://baidu.com/')print(type(response))print(response.cookies)print(response.status_code)p...

2019-03-12 23:56:05 162

原创 python爬虫robots协议简单了解

Robots协议Robots协议也称为爬虫协议或者机器人协议，全名为网络爬虫排除标准，告诉爬虫哪些可以抓取，哪些不可以。通常会有一个名为robots.txt.的文件，放在网站的根目录下。爬虫访问站点，会先检索是否有机器人协议，根据协议内容进行爬取。robots.txt样例：User-agent: *Disallow: /Allow: /public/表示对所有爬虫（*）限制只允许...

2019-03-12 17:25:16 1256

原创 Python爬虫基础的简单了解(1)

基本库的使用urllibpython内置HTTP请求库，包含四个模块：request：最基本的请求模块，用来模拟发送请求。error：异常处理，出现请求错误，可以捕获异常，保证程序不崩溃。parse：工具模块，提供URL的处理方法，合并，拆分等。robotparser：识别机器人协议，判断爬取的规定。发送请求使用urllib.request模块，可以模拟一个浏览器发送请求并取...

2019-03-12 16:26:34 218

原创 Python爬虫图形验证码的简单了解

图形验证码处理识别测试利用OCR技术识别图形验证码，使用库tesserocr使用来自知网登录的验证图片测试保存为code.jpg#导入tesserocr库import tesserocr#PIL是图像处理库，Image可以对图像各种操作from PIL import Image#图片存放在项目根目录下，打开image = Image.open('code.jpg')#使用t...

2019-03-10 16:36:21 418

原创 MySql数据库简单了解

连接数据库首先尝试连接数据库，这里使用PyMySQL连接MySQL，并创建一个新数据库。#导入pymysqlimport pymysql#使用connect连接db = pymysql.connect(host='localhost', user='root', password='123456', port=3306)#调用光标（操作游标）cursor = db.cursor()...

2019-03-10 01:03:53 556

原创基础Scrapy的简单了解（1）HTML和XPath

简单介绍简化获得和抽取数据复杂性的网络框架。Scrapy是用于提取结构化信息的，需要人工介入，设置合适的XPath或者CSS表达式。关于HTML和XPath（简单略过）URL：第一部分通过域名系统在网络上定位合适的服务器，剩余部分请求服务端理解发送的请求。HTML：放在网络上的文本文件。理解标签，元素，属性，以及包含的文本。树表示法：树形数据结构，利用框模型映射到屏幕上。XPath：...

2019-03-05 15:57:02 192

lake_han的博客