使用requests ThreadPoolExecutor wordcloud 获取电脑壁纸的图片与斗米兼职信息,图片信息获取完后会自动生成词云,兼职信息存放在数据库,python编译器版本为3.9,mysql为8.0。各位要是觉得好用,就请点赞加收藏吧。
import requests
import os
import re
from lxml import etree
import pymysql
from concurrent.futures import ThreadPoolExecutor
from wordcloud import WordCloud
import matplotlib.pyplot as plt
head={
"user-agent":""
}
name =['人文风土', '体育运动', '军事科技', '动物萌宠', '卡通动漫', '城市建筑', '太空科幻',
'家居陈设', '影视剧照', '情感文艺', '明星大咖', '汽车船舶', '游戏原画', '禅意古风',
'精选壁纸', '绘画创意', '网红萝莉', '美食甜品', '肌理纹理', '自然风景', '花卉植物',
'静物特写', '飞机航天', "汽车"]
wenjian=[]
mysqltable =[]
mysqltablezw =[]
def choose(imfort):
path = f"D:\\Python项目\\{imfort}"
folder = os.path.exists(path)# 这里返回应该布尔值
if not folder: # 判断是否存在文件夹如果不存在则创建为文件夹
os.makedirs(path) # makedirs创建文件时如果路径不存在会创建这个路径
print()
else:
print()
def hjsavchj(page1):
try:
for i in range(30):
page = i + 1
url = f"https://www.toopic.cn/dnbz/?q=--{page1}--.html&page={page}"
resp = requests.get(url, headers=head)
resp.encoding = "utf-8"
et = etree.HTML(resp.text)
result = et.xpath("//ul[@class='clearfix pic-list gallery']/li/div/a/img/@data-original")
result1 = et.xpath("//ul[@class='clearfix pic-list gallery']/li[1]/div/div/p[1]/a[1]/text()")
for itm in result1:
imfort = re.sub(r'[^\w\s\u4e00-\u9fa5]+', '', itm) #该