python爬虫爬取网站发现中文字会转成类似这种编码: 此輯重要私人珍藏,涵十九件中國古代及近現代
这是unicode十进制编码。
解决方案:
from HTMLParser import HTMLParser
print HTMLParser().unescape('中国')