【python实用小脚本-81】从HR到Python博主：用爬虫脚本开启副业转型之路（建议收藏）-CSDN博客

本文链接：https://blog.csdn.net/kylner/article/details/148233559

场景故事：HR转型的契机

在人力资源岗位摸爬滚打 5 年后，我遭遇了职业瓶颈。日常事务性工作占据大量时间，招聘、员工关系、薪酬核算等流程虽熟悉，但创新突破难。一次偶然机会，我接触 Python 爬虫，发现其能自动化采集数据，这不正是优化 HR 数据分析的利器吗？于是开启学习之旅，从爬虫基础语法到实战应用，逐渐掌握技能。当用爬虫采集招聘网站数据并分析人才市场趋势时，成就感油然而生，也坚定了转型自媒体的决心，如今已持续输出技术文章两年，粉丝超 5 万。

核心代码价值解析

以下为爬虫脚本核心部分，实现多页面书籍信息采集与存储：

import requests
from bs4 import BeautifulSoup
import csv

Book_name = []
Year = []
Publisher = []
Author = []

for j in range(1, 11):
    source = requests.get(
        f'https://1lib.in/s/data%20science?page={j}').text
    soup = BeautifulSoup(source, 'lxml')
    books = soup.find_all('table', attrs={'style': 'width:100%;height:100%;'})
    for i in books:
        # book name
        try:
            Book_name.append(i.find('h3').text.strip())
        except Exception:
            Book_name.append('nan')
        # year
        try:
            Year.append(
                i.find('div', class_='property_year').text.strip()[6:10])
        except Exception:
            Year.append('nan')
        # publisher
        try:
            Publisher.append(
                i.find('div', attrs={'title': 'Publisher'}).text.strip())
        except Exception:
            Publisher.append('nan')
        # Author
        try:
            Author.append(i.find('div', class_='authors').text.strip())
        except Exception:
            Author.append('nan')

file_name = '500Datasciencebooks.csv'

with open(file_name, 'w') as file:
    writer = csv.writer(file)
    writer.writerow(['Sr.No', 'Book name', 'Publisher', 'Author', 'Year'])

    for i in range(1, len(Book_name)):
        writer.writerow([i, Book_name[i], Publisher[i], Author[i], Year[i]])

其流程如下：

graph TD
    A[开始] --> B{循环访问1-10页}
    B -->|获取页面内容| C[解析HTML结构]
    C --> D[提取书籍信息]
    D --> E{信息存储至列表}
    E --> F[循环结束？]
    F -->|是| G[将列表数据写入CSV文件]

从 HR 视角看，此脚本价值显著。时间收益方面，人工采集 10 页书籍信息需数小时，脚本运行仅需几分钟，按每周使用一次计算，一年节省超 100 小时。它消除因人工疏忽导致的信息不准确问题，如出版社名称错误等。还可改造为招聘数据采集工具，助力 HR 快速获取人才市场动态。

关键技术解剖台

Requests 模块的跨界解读

HR 眼中的技术价值

对应人力资源管理中的招聘模块，解决人才信息获取难题。以往依赖招聘网站手动搜索，效率低下且信息有限，如同使用 requests 模拟浏览器发送请求，能精准获取目标人才数据，拓宽招聘渠道。

工程师的实现逻辑

source = requests.get(
    f'https://1lib.in/s/data%20science?page={j}').text

技术三棱镜：

原理类比：多线程发送请求 ≈ 跨部门协作同步获取不同板块数据
参数黑盒：超时参数（timeout）相当于招聘时间限制，防止请求过程过长影响效率
避坑指南：请求失败如同招聘渠道失效，需检查网址正确性、网络连通性，如同核查招聘网站账号状态、信息完整性

复杂度可视化

BeautifulSoup 模块的跨界解读

HR 眼中的技术价值

对应人力资源管理中的员工信息管理模块，解决数据提取与整理难题。员工信息分散在各类表格和文档中，利用 BeautifulSoup 解析 HTML 结构，精准提取数据，如同从繁杂的人事档案中快速定位关键信息。

工程师的实现逻辑

soup = BeautifulSoup(source, 'lxml')
books = soup.find_all('table', attrs={'style': 'width:100%;height:100%;'})

技术三棱镜：

原理类比：查找 HTML 标签 ≈ 在组织架构中查找特定部门或岗位信息
参数黑盒：解析器选择（如 lxml）相当于选择不同的人事信息处理工具，影响解析速度和准确性
避坑指南：标签找不到如同人事信息分类错误，需检查 HTML 文档结构、标签名称和属性准确性

复杂度可视化

扩展应用场景

场景迁移实验室

案例 1：办公自动化 → 财务自动化改造指南

# 关键参数替换公式
# 将书籍信息采集网址替换为财务数据相关网址，如：
# source = requests.get(
#     f'https://financial-data.com/expense-report?page={j}').text
# 同时修改提取的数据字段，从书籍名称、出版社等改为费用类别、金额等

▶ 改造收益：解决财务人员手动收集和整理费用报销数据的繁琐问题，提高财务审核效率，减少因数据错误导致的财务风险。

案例 2：办公自动化 + 供应链自动化跨界融合

# 组合技实现方案
# 首先采集供应商信息
source_supplier = requests.get(
    f'https://supplier-info.com/supply-chain?page={j}').text
soup_supplier = BeautifulSoup(source_supplier, 'lxml')
suppliers = soup_supplier.find_all('table', attrs={'class': 'supplier-table'})
# 提取供应商名称、联系方式、供应产品等信息
# 再与库存数据采集脚本结合
source_inventory = requests.get(
    f'https://inventory-system.com/stock?page={j}').text
soup_inventory = BeautifulSoup(source_inventory, 'lxml')
inventories = soup_inventory.find_all('table', attrs={'class': 'inventory-table'})
# 提取库存数量、产品名称等信息
# 最后进行数据分析，实现供应链优化

▶ 创新价值：创造供应链信息整合与优化新价值，帮助供应链管理人员实时掌握供应商和库存动态，提前预测库存短缺，优化采购计划。

总结

上述完整爬虫脚本可采集多页面数据科学书籍信息并存储为 CSV 文件，应用场景广泛。无论是办公自动化、数据分析还是自媒体工具等领域，通过简单改造都能发挥巨大价值。其本质是利用 Python 技术实现信息收集与整理的自动化，为各行业提供数据支持。

源码获取

完整代码已开源，包含详细的注释文档：
🔗 [GitCode 仓库]https://gitcode.com/laonong-1024/python-automation-scripts
📥 [备用下载]https://pan.quark.cn/s/654cf649e5a6 提取码：f5VG