python，使用requests，BeautifulSoup读取HTML中文发生乱码

最新推荐文章于 2025-05-16 23:50:22 发布

原创最新推荐文章于 2025-05-16 23:50:22 发布 · 1.9k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #网页处理 #爬虫

网页处理专栏收录该内容

4 篇文章

订阅专栏

本文介绍了一种处理HTML文件中中文乱码问题的方法，通过设置正确的解码方式，确保中文内容能够正常显示。使用了requests库获取网页内容，并利用BeautifulSoup解析HTML，展示了如何选择特定类型的元素。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

发生读取HTML页面中文乱码

# 简洁地处理HTML文件
import bs4
import requests
import logging,sys


print(sys.getfilesystemencoding())
#print('Html is encoding by : %',chardet.detect(GetHtml(url)))


logging.basicConfig(level=logging.DEBUG, format='%(message)s')

res = requests.get(url)
res.encoding = 'utf-8' #需要添加这一行，告知html文件解码方式
res.raise_for_status()
myBS4 = bs4.BeautifulSoup(res.text)

logging.debug(type(myBS4))

elems = myBS4.select('input[type="button"]')
#print(str(elems[0]['value']))
###关键属性：attrs，获得该元素的属性字典

print(elems[0].attrs)