selenium爬取景点描述信息(开箱即用)

该博客介绍了如何利用Python的Selenium库爬取百度百科和去哪儿旅行网站上的北京景点描述信息。作者提供了详细的代码示例,包括主要的爬取函数getInformation,以及如何循环遍历关键词文件获取每个景点的描述,并将其保存到新的数据文件中。注意,代码依赖于Chrome浏览器的对应版本驱动。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

通‘百度百科’(百度百科_全球领先的中文百科全书)和‘去哪儿旅行’(北京旅游攻略-2022北京自助游-周边自驾-游玩攻略-自由行-吃喝玩乐指南-去哪儿攻略)两个网站对数据库中的景点爬取了对应的景点描述信息,并进行数据清洗保存。

下面是利用selenium框架爬取信息的代码部分和我想要爬的需求:

我想通过北京景点实体的名称找到对应的景点实体描述,用来扩充库中的信息。

其中景点实体就是这个景点叫啥名,大概有几千个吧

就需要去找到对应实体的景点信息描述,比如上面我提到的两个网站,分别如下图所示:红色框内部就是我想要爬取的文件,但是我又不想要太多,只想要相对简洁的一句话

 因为每个实体都要去查询爬取,下面就是循环实体词的脚本,相当简单。。。data就是含有实体关键词的txt文件,目的就是一个词一个词的去爬取对应信息

def main():
    data = codecs.open('d_data.txt','r',encoding='utf-8')
    for name in
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值