python面试题01

本文介绍了Python爬虫面试中常见的知识点,包括Scrapy框架的基本理解,如其异步特性、优势和不足;HTTP与HTTPS的区别、应用场景及其优缺点;HTTPS安全证书的来源与申请;GET和POST请求的不同;以及为何在分布式爬虫中选择Redis数据库,强调了Redis的高速读取效率和主从同步能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.python 爬虫有哪些常用技术?
Scrapy,Beautiful Soup, urllib,urllib2,requests
2.简单说一下你对 scrapy 的了解?
scrapy 是一个快速(fast)、高层次(high-level)的基于 python 的 web 爬虫构架。
用来下载、并解析 web 页面, 其 parse->yield item->pipeline 流程是所有爬虫的固有模式。
构造形式主要分spider.pypipeline.py item.py decorator.py middlewares.py setting.py
3.、Scrapy 的优缺点?
(1)优点:scrapy 是异步的
采取可读性更强的 xpath 代替正则强大的统计和 log 系统,同时在不同的 url 上爬行支持 shell 方式,方便独立调试写 middleware,方便写一些统一的过滤器,通过管道的方式存入数据库
(2)缺点:基于 python 的爬虫框架,扩展性比较差
基于 twisted 框架,运行中的 exception 是不会干掉 reactor,并且异步框架出错后是不会停掉其他任务的,数据出错后难以察觉
4常用的反爬虫措施?
1.添加代理
2.降低访问频率
User-Agent动态 HTML 数据加载验证码处理Cookie
5.关于 HTTP/HTTPS 的区别
HTTPS 和 HTTP 的区别:
(1)https 协议需要到 ca 申请证书,一般免费证书很少,需要交费。
(2)http 是超文本传输协议,信息是明文传输,https 则是具有安全性的 ssl 加密传输协议
(3)http 和 https 使用的是完全不同的连接方式用的端口也不一样,前者是 80,后者是 443。
(4)http 的连接很简单,是无状态的
(5)HTTPS 协议是由 SSL+HTTP 协议构建的可进行加密传输、身份认证的网络协议 要比http 协议安全
应用场合:
(1)http:适合于对传输速度,安全性要求不是很高,且需要快速开发的应用。如 web 应用,小的手机游戏等等.
(2)https:https 可以用于任何场景!
6、HTTPS 有什么优点和缺点
优点:
1、使用 HTTPS 协议可认证用户和服务器,确保数据发送到正确的客户机和服务器;
2、HTTPS 协议是由 SSL+HTTP 协议构建的可进行加密传输、身份认证的网络协议,要比 http 协议安全,可防止数据在传输过程中不被窃取、改变,确保数据的完整性。
3、HTTPS 是现行架构下最安全的解决方案,虽然不是绝对安全,但它大幅增加了中间人攻击的成本
缺点:
1.HTTPS 协议的加密范围也比较有限,在黑客攻击、拒绝服务攻击、服务器劫持等方面几乎起不到什么作用
2.HTTPS 协议还会影响缓存,增加数据开销和功耗,甚至已有安全措施也会受到影响也会因此而受到影响。
3.SSL 证书需要钱。功能越强大的证书费用越高。个人网站、小网站没有必要一般不会用。
4.HTTPS 连接服务器端资源占用高很多,握手阶段比较费时对网站的相应速度有负面影响。
5.HTTPS 连接缓存不如 HTTP 高效。
7.HTTPS 安全证书是怎么来的,如何申请,国内和国外有哪些第三方机构提供安全证书认证。
国内:
沃通(WoSign)
中国人民银行联合 12 家银行建立的金融 CFCA
中国电信认证中心(CTCA)
海关认证中心(SCCA)
国家外贸部 EDI 中心建立的国富安 CA 安全认证中心
SHECA(上海 CA)为首的 UCA 协卡认证体系
国外:
StartSSL
GlobalSign
GoDaddy
Symantec
8.get 和 post 请求有什么区别
区别:
get:
从指定的服务器中获取数据。
GET 请求能够被缓存
GET 请求会保存在浏览器的浏览记录中
以 GET 请求的 URL 能够保存为浏览器书签
GET 请求有长度限制
GET 请求主要用以获取数据
post:
POST 请求不能被缓存下来
POST 请求不会保存在浏览器浏览记录中
以 POST 请求的 URL 无法保存为浏览器书签
POST 请求没有长度限制
POST 请求会把请求的数据放置在 HTTP 请求包的包体中,POST 的安全性比 GET的高.可能修改变服务器上的资源的请求.
应用场合:
post:
请求的结果有持续性的副作用(数据库内添加新的数据行)
若使用 GET 方法,则表单上收集的数据可能让 URL 过长。
要传送的数据不是采用 7 位的 ASCII 编码。
get:
请求是为了查找资源,HTML 表单数据仅用来帮助搜索。
请求结果无持续性的副作用。
收集的数据及 HTML 表单内的输入字段名称的总长不超过 1024 个字符
HTTP 请求会有哪些信息发送到后台服务器。
请求行 (请求方式、资源路径和 HTTP 协议版本)POST /demo/login HTTP/1.1
请求消息头
消息正文(也叫实体内容) username=xxxx&password=1234
9.为什么选择redis 数据库?

  1. scrapy 是一个 Python 爬虫框架,爬取效率极高,具有高度定制性,但是不支持分布式。而 scrapy-redis 一套基于 redis 数据库、运行在 scrapy 框架之上的组件,可以让scrapy 支持分布式策略,Slaver 端共享 Master 端 redis 数据库里的 item 队列、请求队列和请求指纹集合。
  2. 为什么选择 redis 数据库,因为 redis 支持主从同步,而且数据都是缓存在内存中的,所以基于 redis 的分布式爬虫,对请求和数据的高频读取效率非常高
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值