爬虫——练习-爬取一定范围内的页面数据

本文介绍了一次爬虫基础练习,详细讲述了如何利用Python爬取指定网页的前三页数据。通过os模块的操作,实现了数据的抓取和处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
爬取前三页的数据
第一次写的代码:

# 综合项目实战:爬取搜狗,知乎某一词条对应的某一范围页码的数据
# 分析下爬取第一页的url和第二页的url,get请求参数中只有page在变,把url固定,变量封装

import requests

url='http://zhihu.sogou.com/zhihu?'
headers={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}

for page in range(1,3):

    params={
        'query':'人工智能',
        'page':page,
        'ie':'utf-8'    
    }

    response = requests.get(url=url,params=params,headers=headers)
    page_data = response.text
    with open(str(page)+ '.html','w',encoding='utf-8') as f:
        f.write(page_data)

+os模块的操作,最终版本:

import requests
import os

# 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值