python爬虫 爬取网页信息

本文介绍了一种使用Python进行网络爬虫的方法,详细阐述了如何爬取古诗词网站的数据,包括导入所需库、获取网页、格式转换、解析网页元素、保存数据、获取诗词主题和页数等步骤,最终实现数据的完整抓取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python爬虫 爬取古诗词网站

导入库

import requests  # 获取网页
from lxml import etree  # 解析网页库

函数1:获取网页

def get_html(k, type_v1):
    url = "https://so.gushiwen.cn/mingju/default.aspx?p={}&c={}&t=".format(k + 1, type_v1)  # 网址
    print(url)
    ua = {
   'User-Agent': "User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
    resp = requests.get(url, headers=ua)
    print(resp.status_code)  # 打印状态码
    # print(resp.text)   # 打印网页
    return resp

函数2:转换格式

def change_html(resp):
    # 2.解析元素
    html = etree.HTML(resp.text)  # 将网页转换为xpath能解析的格式
    result = etree.tostring(html)  # 格式修正
    return html

函数3:解析元素

def elem_def(html):
    # 2.1 解析标题
    title_v1 = html.xpath
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值