1 爬虫初步 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。 2 请求头和响应头 2.1 常见请求头解析 下面尝试访问百度首页 Host :用于指定被请求资源的Internet主机和端口号 Connection (连接类型) 关闭TCP连接 长连接(Keep-alive),默认情况