1.从股票相关的网站爬下来的格式不太适合处理,比如:
真正需要的是红框里面的内容
这时写了一个函数,把红框里面的内容逐步转换成方便提取对应数据的字典形式。可以在此基础上逐步完善。自己做个记录方便后面写时直接使用,不再重复造轮子
import re
import json
def wash(string):
# 清洗第一步:匹配中括号中的内容jQuery112400"data":{“total”:5430,“diff”:[{“f1”:2,“f2”:50.36,“f3:2}]}});
pattern = r”[([^]]+)]"
matches = re.findall(pattern, string)
# 清洗第二步,将多个json结构体存放到数组
str_clear = re.sub(r’},‘, “};”, matches[0]).split(’;')
# 清洗第三步,将数组里面每一个json结构体转换成字典样子
for i in str_clear:
str2dic = json.loads(i)
print(str2dic)
print(str2dic.get(‘f14’))