python--爬虫51job(2.1)_scrapy 爬取电影网站-CSDN博客

本文链接：https://blog.csdn.net/qq_40210633/article/details/83500770

本文介绍了一种使用Python和BeautifulSoup从网页中抓取特定数据的方法，通过实例演示了如何解析HTML并提取职位地点、薪资及发布日期等信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

②网页返回的内容是html格式的，下面是经过简化之后的部分页面内容：
北京-朝阳区
1.5-2万/月
10-16
深圳-龙华新区
1.5-2.5万/月
10-16
北京-海淀区
0.8-1.5万/月
10-16
广州
1.5-2万/月
10-16
可以尝试用字符串比对的方式取出里面的数据部分，结果如下：
北京-朝阳区
1.5-2万/月
10-16
深圳-龙华新区
1.5-2.5万/月
10-16
北京-海淀区
0.8-1.5万/月
10-16
广州
1.5-2万/月
10-16

ps:任务①是只访问的第一页的内容（1.html），我们老师说的是1-10页，做个for循环就可以啦，

现在任务二是提取数据，我们可以使用字符串比对，也可以使用正则表达式

当然字符串比对方式我真没咋理解确切的是什么意思，不过在网上搜到一个关于查询豆瓣电影信息的爬虫方法，感觉差不多，所以改了一下

import urllib.request 
import re 
from bs4 import BeautifulSoup
 
 
page=urllib.request.urlopen('https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python%2520java,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="')
contents = page.read()
#前面这些都是访问网页读取信息和任务一一样
soup = BeautifulSoup(contents,"html.parser") 
#这里用到的是BeautifulSoup方法，也就是如何提取所需信息，这里俩参数---需要提取信息的html文件；指#定解析器
for tag in soup.find_all('div', class_='el'):  
#任务一返回的网页信息的文本文件中find可以找到任务二所需要提取信息所在位置，因此进行循环--具体含义#还需要再想想    
    try:
        m_port = tag.find('span', class_='t3').get_text()
        m_salary=tag.find('span', class_='t4').get_text()
        m_date=tag.find('span', class_='t5').get_text()
        print( m_port+"\n"+m_salary+"\n"+m_date+ "\n")
#这里我用了一个异常处理，因为有些内容虽然是在find_all指定内容里，但未必含有我们需要的信息，所以
#进行异常处理，遇到直接跳过就好。这个异常处理怎么得到的呢，因为没用之前直接输出会显示该错误类型    
    except AttributeError:
        continue