from bs4 import BeautifulSoup
html='''
<DIV class="left">
<DIV class="nr"><DL class="xhlist" id="xh_209907"><SPAN><DD><A href="/article/209907" target="_blank"><STRONG>小写字母之间的幽默饥讽笑话集....</STRONG></A></DD></SPAN><DD>
<p><span>测试标签内标签</span>1、c对e说:<!--注释-->我早已对你敞开了心扉,可为什么你心里还一直装着别人。</p>
<p id='p2'>2、j对z说:瞧你那熊样,一天到晚只会卑躬屈膝,要我嫁给你,除非太阳从西边出来。</p>
<p>3、m对n说:怎么样,光棍的日子不好过吧,赶紧找个人得了。</p>
<p>4、b对d说:长眼睛的人都看得出来,咱俩在一起就是门当户对、天生一对。</p>
<p>5、l对h说:虽然你家负担很重,但是我不在乎这些,谁让我爱上了呢!</p>
<p>6、g对y说:我胖是胖了点,可是我勤劳,不像你,只会张大嘴巴等着天上掉馅饼。</p>
<p>7、k对x说:就算你身上的刺再多十倍,也不能阻止我追求你的脚步。</p>
<p>8、a对o说:知道我为什么能当老大吗?那是因为我头上有保护伞。</p>
<p>9、v对w说:我也要像你一样,找一个最爱的、深爱的、相爱的、亲爱的人来告别单身。</p>
<p>10、i对u说:I love you!</p></DD><div class="c_a"><div class="active c_l"><a href="javascript:;" class="pinattn msg" data_attr="">
'''
# 创建一个bs4的对象,且'lxml'是需要安装的一个库
soup=BeautifulSoup(html,'lxml')
# 获取文本中具体标签,例如:div\p\dd···
# 只获取第一个
print('-----------获取文本标签-----------------')
print(soup.p)
print(soup.dd)
print('-----------获取标签内属性-----------------')
print(soup.a.attrs)
print(soup.a['href'])
print('-----------获取标签内容-----------------')
print(soup.p.string)
# text可以将标签内注释解析:<!--注释-->
print(soup.p.text)
# 获取标签内全部源文本
print(soup.p.prettify())
print('-----------find_all----------------')
# 获取全部
print(soup.find_all('p'))
print(soup.find_all(id='p2'))
# for i in soup.find_all('p'):
# print(i)
print('-----------css选择器,select----------------')
print(soup.select('p'))
# 获取p标签下的span标签
print(soup.select('p>span'))
print('---------------------------')
import requests
from my_fake_useragent import UserAgent
url='https://www.biedoul.com/index/15233/'
resp=requests.get(url,headers={'User-Agent':UserAgent().random(),})
resp.encoding='utf-8'
# print(resp.text)
h=resp.text
s=BeautifulSoup(h,'lxml')
print(s.find_all('p'))