通‘百度百科’(百度百科_全球领先的中文百科全书)和‘去哪儿旅行’(北京旅游攻略-2022北京自助游-周边自驾-游玩攻略-自由行-吃喝玩乐指南-去哪儿攻略)两个网站对数据库中的景点爬取了对应的景点描述信息,并进行数据清洗保存。
下面是利用selenium框架爬取信息的代码部分和我想要爬的需求:
我想通过北京景点实体的名称找到对应的景点实体描述,用来扩充库中的信息。
其中景点实体就是这个景点叫啥名,大概有几千个吧
就需要去找到对应实体的景点信息描述,比如上面我提到的两个网站,分别如下图所示:红色框内部就是我想要爬取的文件,但是我又不想要太多,只想要相对简洁的一句话
因为每个实体都要去查询爬取,下面就是循环实体词的脚本,相当简单。。。data就是含有实体关键词的txt文件,目的就是一个词一个词的去爬取对应信息
def main():
data = codecs.open('d_data.txt','r',encoding='utf-8')
for name in