python自动爬取电脑壁纸与斗米兼职信息-CSDN博客

本文链接：https://blog.csdn.net/m0_73831440/article/details/139243280

使用requests ThreadPoolExecutor wordcloud 获取电脑壁纸的图片与斗米兼职信息，图片信息获取完后会自动生成词云，兼职信息存放在数据库，python编译器版本为3.9，mysql为8.0。各位要是觉得好用，就请点赞加收藏吧。

import requests
import os
import re
from lxml import etree
import pymysql
from concurrent.futures import ThreadPoolExecutor
from wordcloud import WordCloud
import matplotlib.pyplot as plt


head={
    "user-agent":""
}
name =['人文风土', '体育运动', '军事科技', '动物萌宠', '卡通动漫', '城市建筑', '太空科幻',
       '家居陈设', '影视剧照', '情感文艺', '明星大咖', '汽车船舶', '游戏原画', '禅意古风',
       '精选壁纸', '绘画创意', '网红萝莉', '美食甜品', '肌理纹理', '自然风景', '花卉植物',
       '静物特写', '飞机航天', "汽车"]
wenjian=[]
mysqltable =[]
mysqltablezw =[]
def choose(imfort):
    path = f"D:\\Python项目\\{imfort}"
    folder = os.path.exists(path)# 这里返回应该布尔值
    if not folder:  # 判断是否存在文件夹如果不存在则创建为文件夹
        os.makedirs(path)  # makedirs创建文件时如果路径不存在会创建这个路径
        print()
    else:
        print()
def hjsavchj(page1):
    try:
        for i in range(30):
            page = i + 1
            url = f"https://www.toopic.cn/dnbz/?q=--{page1}--.html&page={page}"
            resp = requests.get(url, headers=head)
            resp.encoding = "utf-8"
            et = etree.HTML(resp.text)
            result = et.xpath("//ul[@class='clearfix pic-list gallery']/li/div/a/img/@data-original")
            result1 = et.xpath("//ul[@class='clearfix pic-list gallery']/li[1]/div/div/p[1]/a[1]/text()")
            for itm in result1:
                imfort = re.sub(r'[^\w\s\u4e00-\u9fa5]+', '', itm)     #该