用Python爬取百度搜索结果并保存_python获取百度搜索结果-CSDN博客

本文链接：https://blog.csdn.net/suruoxun/article/details/139236972

项目目标

爬取百度上关键字为“粮食”的搜索结果，并保存，提交给客户，用于进一步分析我国粮食政策。

项目准备

软件：PyCharm

需要的库：json， requests，etree

项目分析

1）如何进行关键词搜索？

利用response库，直接Get网址获得搜索结果。网址如下：

https://www.baidu.com/s?wd=粮食

2）如何获取标题和链接？

利用etree对原代码进行规范梳理后，通过Xpath定位到文章标题和href，获取标题和文章链接。

3）如何保存搜索结果？

新建txt文件，对搜索结果循环写入，保存即可。

项目实现

1、第一步导入需要的库

import jsonimport requestsfrom lxml import etree

2、第二步用requests进行请求搜索

headers = {    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36"}response = requests.get('https://www.baidu.com/s?wd=粮食&lm=1', headers=headers)

3、第三步对获取的源代码进行整理分析，通过Xpath定位需要的资源

   r = response.text   html = etree.HTML(r, etree.HTMLParser())   r1 = html.xpath('//h3')   r2 = html.xpath('//*[@class="c-abstract"]')   r3 = html.xpath('//*[@class="t"]/a/@href')

4、第四步把有用资源循环读取保存

for i in range(10):    r11 = r1[i].xpath('string(.)')    r22 = r2[i].xpath('string(.)')    r33 = r3[i]    with open('ok.txt', 'a', encoding='utf-8') as c:         c.write(json.dumps(r11,ensure_ascii=False) + '\n')         c.write(json.dumps(r22, ensure_ascii=False) + '\n')         c.write(json.dumps(r33, ensure_ascii=False) + '\n')    print(r11, end='\n')    print('------------------------')    print(r22, end='\n')    print(r33)