BeautifulSoup获取html文件下具体某个字段的内容

最新推荐文章于 2025-08-03 11:35:19 发布

m0_68791463

最新推荐文章于 2025-08-03 11:35:19 发布

阅读量460

点赞数 4

CC 4.0 BY-SA版权

文章标签： python

本文链接：https://blog.csdn.net/m0_68791463/article/details/143660644

from bs4 import BeautifulSoup

html='''
<DIV class="left">
<DIV class="nr"><DL class="xhlist" id="xh_209907"><DD><A href="/article/209907" target="_blank">小写字母之间的幽默饥讽笑话集....</A></DD><DD>
测试标签内标签1、c对e说：我早已对你敞开了心扉，可为什么你心里还一直装着别人。
2、j对z说：瞧你那熊样，一天到晚只会卑躬屈膝，要我嫁给你，除非太阳从西边出来。
3、m对n说：怎么样，光棍的日子不好过吧，赶紧找个人得了。
4、b对d说：长眼睛的人都看得出来，咱俩在一起就是门当户对、天生一对。
5、l对h说：虽然你家负担很重，但是我不在乎这些，谁让我爱上了呢！
6、g对y说：我胖是胖了点，可是我勤劳，不像你，只会张大嘴巴等着天上掉馅饼。
7、k对x说：就算你身上的刺再多十倍，也不能阻止我追求你的脚步。
8、a对o说：知道我为什么能当老大吗？那是因为我头上有保护伞。
9、v对w说：我也要像你一样，找一个最爱的、深爱的、相爱的、亲爱的人来告别单身。
10、i对u说：I love you!</DD><div class="c_a"><div class="active c_l"><a href="javascript:;" class="pinattn msg" data_attr="">
'''
# 创建一个bs4的对象，且'lxml'是需要安装的一个库
soup=BeautifulSoup(html,'lxml')
# 获取文本中具体标签，例如：div\p\dd···
# 只获取第一个
print('-----------获取文本标签-----------------')
print(soup.p)
print(soup.dd)
print('-----------获取标签内属性-----------------')
print(soup.a.attrs)
print(soup.a['href'])
print('-----------获取标签内容-----------------')
print(soup.p.string)
# text可以将标签内注释解析：
print(soup.p.text)
# 获取标签内全部源文本
print(soup.p.prettify())

print('-----------find_all----------------')
# 获取全部
print(soup.find_all('p'))
print(soup.find_all(id='p2'))

# for i in soup.find_all('p'):
# print(i)
print('-----------css选择器,select----------------')
print(soup.select('p'))
# 获取p标签下的span标签
print(soup.select('p>span'))

print('---------------------------')
import requests
from my_fake_useragent import UserAgent
url='https://www.biedoul.com/index/15233/'
resp=requests.get(url,headers={'User-Agent':UserAgent().random(),})
resp.encoding='utf-8'
# print(resp.text)
h=resp.text
s=BeautifulSoup(h,'lxml')
print(s.find_all('p'))