代码:
import json
from bs4 import BeautifulSoup
import jieba
import jieba.analyse
# 读取json文件第一行的内容
f = open("items.json")
# 读取第一行
dic = json.loads(next(f))
content = dic["content"]
print(content)
运行结果:
<div class="article" id="article">
<div><p>证券时报网(www.stcn.com)04月03日讯</p> <p>ST华泽复牌连续10日跌停,报7.5元,仍有逾70万手卖单封板。公司预计2017年亏损14-19亿元,公司股票将因连续三年亏损被暂停上市。</p><p>华商基金今年2月发布公告称,自2018年2月1日起,对旗下基金持有的*ST华泽股票进一步进行估值调整,调整后的估值价格为0.55元,相当于复牌后有连续61个跌停。</p> <p>(证券时报网快讯中心)</p> </div>
</div>
代码:
# Beautiful解析
soup = BeautifulSoup(content, "lxml")
print("===" * 20)
print(soup.findAll('p'))
print("===" * 20)
for x in soup.findAll('p'):
print(x.text)
print("===" * 20)
# 列表解析式
sentence = "\n".join([x.text for x in soup.findAll("p")])
print(sentence)
运行结果:
============================================================
[<p>证券时报网(www.stcn.com)04月03日讯</p>, <p>ST华泽复牌连续10日跌停,报7.5元,仍有逾70万手卖单封板。公司预计2017年亏损14-19亿元,公司股票将因连续三年亏损被暂停上市。</p>, <p>华商基金今年2月发布公告称,自2018年2月1日起,对旗下基金持有的*ST华泽股票进一步进行估值调整,调整后的估值价格为0.55元,相当于复牌后有连续61个跌停。</p>, <p>(证券时报网快讯中心)</p>]
============================================================
证券时报网(www.stcn.com)04月03日讯
ST华泽复牌连续10日跌停,报7.5元,仍有逾70万手卖单封板。公司预计2017年亏损14-19亿元,公司股票将因连续三年亏损被暂停上市。
华商基金今年2月发布公告称,自2018年2月1日起,对旗下基金持有的*ST华泽股票进一步进行估值调整,调整后的估值价格为0.55元,相当于复牌后有连续61个跌停。
(证券时报网快讯中心)
============================================================
证券时报网(www.stcn.com)04月03日讯
ST华泽复牌连续10日跌停,报7.5元,仍有逾70万手卖单封板。公司预计2017年亏损14-19亿元,公司股票将因连续三年亏损被暂停上市。
华商基金今年2月发布公告称,自2018年2月1日起,对旗下基金持有的*ST华泽股票进一步进行估值调整,调整后的估值价格为0.55元,相当于复牌后有连续61个跌停。
(证券时报网快讯中心)
代码:
# 关键词抽取
kwords = jieba.analyse.extract_tags(sentence, topK=5)
print("===" * 20)
print("/".join(kwords))
# 词性过滤
kwords = jieba.analyse.extract_tags(sentence, topK=5, allowPOS=('ns','n','vn','v','nr'))
print("===" * 20)
print("/".join(kwords))
运行结果:
============================================================
ST/连续/证券时报/跌停/亏损
============================================================
证券时报/跌停/亏损/华泽复/卖单