爬虫2:起始url的表示方法

本文介绍了三种不同的起始URL表示方法,包括动态数组、页码拼接和查询参数的方式,用于爬取10136个页面。针对每种方法,详细阐述了如何构造和遍历全部URL,适用于网页抓取和数据提取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.起始地址http://j4b.xy4com/il_sii/symptom/1.htm,其余的url都是’http://j4.xy4y.com/il_sii/sy4ptom/+数组+(.htm),当有10136多个页面,想快速表达这个url方法如下:

for i in range(1, 10137):
    start_urls.append('http://344b.x44y.com/il_sii/s44tom/' + str(i) + '.htm')

2.起始地址http://j3net/bw/toubu_t1_p1,第二页:http://j3net/bw/toubu_t1_p2

起始地址http://j3.net/bw/jingbu_t1_p1,第二页:http://j3.net/bw/jingbu_t1_p2

如何遍历全部的url呢?

links = ['/bw/toubu', '/bw/jingbu', '/bw/xiongbu', '/bw/fubu', '/bw/yaobu', '/bw/tunbu', '/bw/shangzhi']
links_size = [175, 25, 113, 107, 36, 7, 18]
start_urls = []
for li in range(len(links)):
    for i in range(0, links_size[li]):
        start_urls.append('http://3.net' + links[li] + '_t1_p' + str(i))

3.起始地址组成方式:

第一页:https://www.3next?start=1

第二页:https://www.3next?start=11

# 起始url,通过开发者工具,network中分析得出。以下使用了列表生成式,注意学习其使用方法。
# 以下只去了1,11,21,31页面,从1开始,10为步长进行取值
start_urls = ['https://www.3next?start=' + str(x) for x in range(1, 36, 10)]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值