自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

原创 Scrapy爬虫利器:CrawlSpider详解

CrawlSpider是Scrapy框架中用于结构化爬取的高级Spider类,通过规则系统自动跟踪链接。它使用LinkExtractor提取符合规则的链接,并通过Rule定义处理方式,支持自动跟踪分页和详情页。相比基础Spider,CrawlSpider简化了整站爬取流程,适合新闻站、电商等结构化网站,但需注意避免循环链接和重复请求问题。

2025-09-18 12:24:47 742

原创 Scrapy进阶:POST请求模拟登录实战与管道的使用

摘要:本文介绍了使用Scrapy框架发送POST请求实现模拟登录的方法。首先分析登录请求参数,包括获取页面token、构建请求体数据(用户名、加密密码等),然后通过FormRequest提交表单。登录成功后,通过回调函数验证登录状态并爬取个人中心页面数据。同时还讲解了Scrapy管道的使用,包括process_item处理数据、open/close_spider生命周期方法,以及如何在settings中配置多管道实现不同功能。文章提供了完整的代码示例,涵盖从登录验证到数据存储的完整爬虫开发流程。

2025-09-16 21:10:26 985

原创 掌握Scrapy数据建模与请求技巧

本文摘要:Scrapy框架中数据建模与请求处理的学习要点包括:1. 在items.py中定义字段模型,通过Field()方法预先规划抓取字段,系统会自动检查字段名错误;2. 使用scrapy.Request构造请求对象,通过callback指定解析函数,meta参数实现解析函数间数据传递;3. 模拟登录可通过重写start_requests方法携带cookies,或发送POST请求;4. 翻页处理需定位下一页URL并构造新请求。文中还演示了模型类的实例化使用、管道数据处理及开发流程总结。(148字)

2025-09-15 19:21:22 1146

原创 scrapy项目-爬取某教育网站老师信息

摘要:本文介绍了一个简单的Scrapy爬虫项目,用于爬取黑马程序员官网(https://www.itheima.com/teacher.html)的教师信息。通过分析网页数据包确认数据来源后,编写了爬虫代码提取教师姓名、级别和介绍,并将数据以JSON格式保存到本地文件。代码包含Spider类和Pipeline类,分别负责数据抓取和存储功能。该项目实现了教师信息的自动采集与存储,为后续数据分析提供基础数据支持。

2025-09-14 19:56:40 302

原创 scrapy框架-day02

摘要: Scrapy项目结构包含多个核心文件:scrapy.cfg(项目配置)、items.py(数据模型定义)、middlewares.py(中间件定制)、pipelines.py(数据处理)和settings.py(全局设置)。其中,settings.py可配置请求头、爬取规则等;middlewares.py包含爬虫和下载中间件用于请求处理;pipelines.py用于数据清洗存储;提取数据主要使用xpath语法,支持extract()和extract_first()方法。项目运行时需注意spider类

2025-09-14 19:50:39 702

原创 Scrapy框架入门:快速掌握爬虫精髓

Scrapy是Python中流行的网络爬虫框架,具有高效、灵活等特点。本文介绍了Scrapy的基本概念、优缺点、架构和工作流程。Scrapy框架包含多个组件,如引擎、调度器、下载器等,通过协调工作完成数据采集任务。文章详细讲解了Scrapy的安装步骤、项目创建方法以及爬虫制作流程,包括创建爬虫、抓取和解析网页数据等关键操作。此外,还指出了Scrapy的局限性,如不支持分布式爬取和JavaScript动态渲染,并介绍了相应的解决方案插件。

2025-09-13 15:47:19 1423

原创 day01微信小程序开发:从入门到精通

微信小程序是一种无需下载安装即可使用的应用,用户通过扫码或搜索即可打开。它自2017年全面开放以来,已吸引超150万开发者,覆盖200多个行业,日活用户达2亿。开发者需注册账号、下载工具,创建包含核心文件(如app.js、app.json)的项目。小程序采用四文件分离结构(js/json/wxml/wxss)和组件化开发,支持自动页面注册和资源路径管理。目前小程序已带动就业104万人,并拓展至公共交通等服务领域。

2025-09-02 09:23:52 1011

原创 订单后台管理系统-day07菜品模块

本文介绍了菜品管理模块的文件上传及菜品添加功能实现。系统配置了全局变量UPLOAD定义图片格式和存储路径,通过upload_pic和upload_file方法处理文件上传,包括格式验证、目录创建和数据库记录。菜品编辑功能支持富文本编辑和图片上传,包含必填项验证、库存变更记录等功能。此外还实现了菜品列表分页查询、详情查看及状态修改(删除/恢复)功能,其中详情页展示库存变更记录,列表页支持分类筛选和关键词搜索。所有操作均采用前后端配合的方式实现,并提供了相应的错误提示机制。

2025-09-01 15:34:25 622

原创 订餐后台管理系统-day06菜品分类模块

文章摘要:本文介绍了菜品分类管理功能的实现方法,包括分类列表展示、添加/编辑分类和分类状态修改三个主要功能模块。通过路由设计,实现了分类的分页查询和排序显示(权重降序,ID降序),支持按状态筛选分类。在编辑功能中,采用GET/POST方法统一处理添加和修改操作,通过判断ID参数区分操作类型。删除操作实际是修改分类状态(0为无效,1为有效),保证了数据完整性。后端使用Flask框架实现,通过ORM操作数据库,并返回JSON格式响应数据。

2025-08-31 21:05:26 451

原创 订单后台管理系统-day05用户模块查看与删除

该代码实现了一个账户管理系统,包含账户信息查看、编辑和状态管理功能。账户详情页展示用户基本信息(姓名、手机、邮箱)和最近5条访问记录。管理员可通过前端按钮切换用户状态(删除/恢复),实际通过修改status字段实现逻辑删除而非物理删除。系统采用Flask框架,前端使用Bootstrap布局,包含响应式设计。后端通过路由处理不同操作,包括账户信息查询、状态修改等,并返回JSON格式响应。模板引擎动态渲染数据,根据状态显示不同操作图标(删除/恢复)。

2025-08-31 20:37:56 451

原创 订餐后台管理系统 - day04退出登录与账号管理模块

本文介绍了用户管理系统的退出登录和账号管理模块实现。退出登录功能通过删除认证Cookie并重定向到登录页面确保会话安全。账号管理模块包含用户列表分页展示、搜索筛选、编辑添加等功能,采用数据验证和密码加密(MD5+随机盐值)保障安全性。系统实现了完整的CRUD操作,包括表单验证、防重复检查、分页组件复用等特性,构建了一个安全可靠的用户管理后台。

2025-08-29 23:50:35 972

原创 订餐后台管理系统 -day03 登录模块

本文介绍了基于Flask框架开发的订餐后台管理系统登录模块的设计与实现。系统采用MVC架构,前端使用Bootstrap,后端采用Flask处理业务逻辑。登录模块作为核心安全组件,实现了以下功能:1.采用MD5加盐加密存储密码;2.使用Cookie进行身份验证;3.全局请求拦截器进行访问控制;4.详细的错误处理机制。技术亮点包括:模块化设计、安全最佳实践、用户体验优化和良好的可维护性。该模块为系统提供了可靠的身份认证基础,确保只有授权管理员能访问系统功能。

2025-08-29 22:36:48 1008

原创 订餐后台项目-day02数据库模型定义笔记

本文介绍了一个基于Flask-SQLAlchemy的电商食品销售平台数据库模型,包含用户管理、食品管理、访问日志和统计功能等模块。系统采用继承结构设计,所有模型继承自BaseModel基类,统一包含ID和创建时间字段。核心模块包括用户表(User)、食品表(Food)及分类表(FoodCat)、访问日志(AccessLog)和错误日志(ErrorLog),以及三个维度的统计表(全站、会员、食品)。模型设计特点包括自动时间戳管理、状态映射机制、外键关联关系和多层次统计分析功能,适合食品电商平台的业务需求。

2025-08-29 20:31:53 1017

原创 订餐类型后台管理系统 - Day01 项目初始化指南

本文介绍了基于Flask框架的订餐后台管理系统初始化工作。主要内容包括:1)创建项目目录结构,划分配置文件、静态资源、模板等模块;2)配置Flask应用环境,区分开发和生产配置;3)实现应用初始化类,动态加载不同环境配置;4)测试运行环境,使用电影投票系统示例验证项目结构;5)规划数据库表结构。项目采用蓝图模块化设计,已完成基础框架搭建,支持后续功能开发。

2025-08-28 01:04:44 1039

原创 项目1:异步邮件发送系统实战

本文介绍了一个基于Flask和Celery的异步邮件发送系统实现方案。项目采用Redis作为消息代理,实现了前后端分离的邮件发送功能。前端通过HTML/CSS/JavaScript构建用户界面,后端使用Flask处理请求,Celery负责异步任务调度,Flask-Mail进行邮件发送。系统支持任务状态查询和自动重试机制,当邮件发送失败时会自动重试3次。文章详细展示了项目目录结构、核心配置文件、任务定义、路由处理以及前端交互逻辑,为开发者提供了完整的异步邮件处理解决方案。该系统可有效提升用户体验,避免因邮件发

2025-08-25 21:05:05 462

原创 flask Celery入门:轻松实现异步任务处理

本文介绍了使用Celery实现分布式任务队列的基本方法。Celery是一个基于Python的异步任务队列框架,适用于邮件发送、文件处理等耗时操作。文章详细讲解了Celery的安装配置(需安装Redis作为消息代理),项目结构设计,以及如何定义异步任务。示例代码展示了在Flask应用中集成Celery,包括任务触发和状态查询接口的实现。通过这种方案,可以将耗时任务异步化处理,提升系统性能和用户体验。文章还提供了启动服务的具体命令,帮助读者快速搭建完整的Celery应用环境。

2025-08-25 20:35:50 985 1

原创 Flask蓝图:模块化开发的利器

Flask蓝图模块化组织应用摘要 Flask蓝图是一种模块化组织方式,可将大型应用拆分为多个功能模块。主要优势包括:按功能划分模块(如用户认证、博客等);路由分组管理;支持动态注册和代码复用;可设置独立URL前缀、模板目录和静态文件;解决视图命名冲突。实际应用中,通过创建主应用文件(app.py)和多个蓝图模块(如main.py、user.py),实现功能解耦。每个蓝图可以定义自己的路由和视图,并通过url_for()函数实现跨蓝图链接。这种结构使项目更清晰,便于维护和扩展。

2025-08-24 19:26:31 651

原创 Python Flask快速实现163邮箱发送验证码

本文介绍了如何使用Flask-Mail实现163邮箱的邮件发送功能。主要内容包括:1)获取163邮箱授权码的步骤;2)安装Flask-Mail依赖;3)配置邮箱服务器参数(SMTP地址、端口、SSL加密等);4)初始化Flask-Mail;5)编写邮件发送方法;6)创建路由触发邮件发送;7)启动Flask应用。该方案通过示例代码展示了如何发送包含验证码的欢迎邮件,适用于需要邮件通知功能的Web应用开发。

2025-08-22 20:49:29 439

原创 Flask电影投票系统全解析

这是一个基于Flask框架开发的电影投票系统项目,包含完整的CRUD功能。项目结构清晰,主要文件包括app.py(主程序)、models.py(数据模型)、templates(前端模板)和static(静态资源)。系统实现了电影展示、投票、添加/删除电影、重置票数等功能,使用MySQL数据库存储数据,并采用SQLAlchemy进行ORM操作。前端界面响应式设计,包含表单验证和用户操作提示。项目还集成了数据库迁移工具Flask-Migrate,便于数据库结构变更管理。整个系统通过合理的路由设计和MVC架构

2025-08-22 20:18:25 542

原创 Flask数据库迁移实战指南

本文介绍了使用Flask-Migrate进行MySQL数据库迁移的完整流程。首先说明需要安装的依赖包,然后详细讲解了项目结构配置,包括数据库连接设置、主应用文件初始化、数据模型定义等核心步骤。重点介绍了迁移环境的初始化、迁移脚本的生成和应用,以及模型修改后的增量迁移操作。同时提供了回滚迁移、生产环境部署建议和常见问题解决方案,如外键约束、字符集和长字段索引等MySQL特有问题的处理方法。整个流程涵盖了从开发到生产环境的数据库迁移管理最佳实践。

2025-08-22 18:45:50 325

原创 Flask高效数据库操作指南

Flask-SQLAlchemy数据库操作指南 摘要:Flask作为轻量级框架不限定数据库选择,但推荐使用SQLAlchemy提升开发效率。Flask-SQLAlchemy扩展封装了SQLAlchemy功能,支持MySQL等多种数据库。配置需设置SQLALCHEMY_DATABASE_URI等参数,模型类通过db.Model定义字段和关系(一对多、一对一、多对多)。核心操作包括:创建表(db.create_all)、增删改查(db.session操作)、事务管理(commit/rollback)。

2025-08-20 20:21:03 1315

原创 掌握Jinja2宏与模板高级技巧

本文介绍了Jinja2模板引擎的高级功能,重点包括:1)宏的定义与使用,支持参数传递和导入;2)模板继承机制,通过base.html父模板和block块实现;3)include包含功能及其安全模式;4)对比分析了宏、继承和包含的特性差异;5)特殊模板变量如config、request的使用方法;6)get_flashed_messages处理flash消息的示例;7)高级技巧如多层继承、宏嵌套、动态包含等。文档结构清晰,示例完整,可直接应用于Flask项目开发。

2025-08-19 07:43:34 647

原创 Flask-WTF表单验证全攻略

Flask-WTF表单使用指南:介绍了常用字段类型(文本、密码、选择框等)和验证方法(必填、长度、格式验证等)。通过示例展示了完整的表单开发流程:定义表单类→视图处理→模板渲染→错误处理。特别强调CSRF保护、数据类型转换和错误显示等关键点。最后提供了安装依赖和配置安全密钥的注意事项,实现安全可靠的Web表单功能。

2025-08-19 07:12:37 529

原创 jinja2模板引擎全面解析

Jinja2模板引擎是基于Python的现代模板系统,借鉴了Django模板语法并进行了扩展。它支持沙箱执行、HTML自动转义、模板继承等特性,具有高效且安全的模板处理能力。在Flask框架中默认集成Jinja2,也可以通过pip单独安装。主要功能包括:变量渲染({{变量}})、控制语句(if/for)、过滤器(|filter)和自定义过滤器。支持多种数据类型操作,包括字符串处理、列表操作、数值计算等。开发者可以通过app.add_template_filter或装饰器方式创建自定义过滤器。

2025-08-17 12:29:30 680

原创 Flask错误处理与会话技术详解

Flask错误处理与响应机制总结:本文介绍了Flask框架中的错误处理方法和响应机制。主要内容包括:1)使用abort()函数抛出HTTP错误;2)通过errorhandler装饰器自定义错误页面(如404页面);3)响应数据的多种形式(字符串、元组、字典、JSON);4)使用make_response创建响应对象;5)设置、获取和删除Cookie;6)Session的配置和使用(包括加密、过期时间设置)。文章还提供了精美的404错误页面模板代码,展示了Flask如何处理用户友好的错误提示。

2025-08-15 20:02:14 1160

原创 Flask请求参数全解析:轻松玩转request对象

Flask请求参数处理与文件上传要点: 请求参数获取:通过request对象获取不同参数(form/POST数据、args/URL参数、values/全部参数),支持get()和getlist()方法安全获取值。 文件上传实现:使用request.files处理上传文件,需设置表单enctype为multipart/form-data,通过save()保存文件,建议使用uuid生成唯一文件名避免冲突。 消息闪现机制:配合flash()和模板中的get_flashed_messages()实现消息反馈

2025-08-14 05:43:34 708

原创 Flask入门:从零搭建Web服务器

Flask入门指南摘要: 环境配置:创建虚拟环境并安装Flask框架,通过pip install flask命令安装 基础应用:创建demo.py文件导入Flask类,使用@app.route装饰器定义路由和视图函数 配置管理:支持从配置文件或类读取配置,变量名需大写 路由配置: 支持装饰器和add_url_rule两种方式定义路由 可设置methods参数指定支持的HTTP方法 提供url_for反向解析和动态路由功能 模板渲染:使用render_template加载templates目录下的HTML模板

2025-08-13 10:45:57 786

原创 Flask vs Django:微框架与一站式对决

Flask是一个轻量级的Python Web框架,诞生于2010年,采用微内核设计,仅包含路由(Werkzeug)和模板引擎(Jinja2)两个核心组件,其他功能如数据库、表单验证等需通过扩展实现。相比Django的"一站式"解决方案,Flask更像"待装修房子",提供高度灵活性,开发者可自由组合扩展模块。常用扩展包括Flask-SQLAlchemy(数据库)、Flask-Login(认证)、Flask-RESTful(API开发)等。

2025-08-13 10:35:49 520

原创 破解滑动验证码详细讲解

本文详细讲解了如何破解某网站的滑动验证码。通过分析验证码请求流程,发现关键参数包括captchaKey、token和iv都采用MD5加密生成。通过逆向JavaScript代码,作者逐步还原了参数生成过程:1) 使用时间戳和随机字符串生成captchaKey;2) 结合多个参数生成token;3) 利用网站特定算法生成iv。最后结合Python编写爬虫程序,使用ddddocr库进行图像识别,成功模拟滑动操作并获取验证结果。文章提供了完整的Python实现代码,包括参数生成、请求发送和验证码识别等关键步骤。

2025-08-13 02:01:20 1610

原创 JS逆向实战:福建交易平台签名解析

本文详细解析了福建公共资源交易平台的数据逆向过程。通过抓包分析发现请求签名采用MD5加密算法,签名生成过程包括参数清理、排序拼接、添加固定密钥后MD5哈希。响应数据采用Base64编码和AES-128-CBC加密,需通过特定密钥和IV进行解密。文章提供了完整的Python实现代码,包括签名生成、请求发送、数据解密全过程,最终成功获取结构化交易数据。该案例展示了网站反爬机制的逆向思路和实现方法,为类似平台的逆向分析提供了参考。

2025-08-11 01:53:28 1528

原创 揭秘JS逆向:常见加密算法与破解技巧

JS逆向常见加密算法与解决方案 本文介绍了JS逆向技术及其应用场景,详细解析了4种常见加密算法(Base64、MD5、DES/AES、RSA)的原理与实现方法。JS逆向是通过分析JavaScript代码获取反爬规则的技术手段,适用于动态数据加载、加密参数生成等场景。文章具体阐述了各种加密算法的特征、用途和Python实现代码,包括Base64编码的变体处理、MD5加盐加密、DES/DES3/AES对称加密的实现差异,以及RSA非对称加密的密钥生成与加解密过程。针对每种算法都提供了详细的Python代码示例

2025-08-11 01:34:06 1929

原创 爬虫攻防战:反爬与反反爬全解析

本文总结了网络爬虫与反爬技术的常见手段及应对策略。服务器实施反爬主要因爬虫流量消耗资源、数据被批量抓取导致商业损失,尤其在3月学术论文高峰期更为明显。常见反爬手段包括:身份识别(Headers验证、Cookie检查)、行为特征(请求频率限制、陷阱URL)和数据加密(自定义字体、CSS偏移)。应对方案包括伪装请求头、使用代理IP池、模拟浏览器操作和解析加密字体。反爬技术需平衡拦截率与误伤率,核心目标是增加爬虫开发成本。文章还提供了Python代码示例,展示如何处理自定义字体等高级反爬措施。

2025-08-09 21:24:02 2596

原创 DrissionPage实战案例:小红书旅游数据爬取

本文介绍了使用DrissionPage爬取小红书旅游数据的实战案例。通过自动化浏览器操作和数据包监听,实现笔记标题、图片数量、点赞数、收藏数、评论数等关键数据的抓取,并下载笔记中的所有图片。技术栈包括DrissionPage、Requests、正则表达式和CSV模块。代码详细展示了从页面加载、数据监听、滚动加载到数据解析、存储图片的全流程,并处理了异常情况和反爬措施。该方案可为网络爬虫开发者提供小红书数据采集的参考实现。

2025-08-07 18:54:41 225

原创 DrissionPage自动化:高效Web操作新选择

DrissionPage是一款现代化Python Web自动化库,融合了浏览器自动化和网络请求功能,兼具Selenium和Requests的优点。核心优势包括:双模式协同(浏览器/请求模式)、8种高效元素定位方式、智能等待机制、网络监听功能和低资源占用(比Selenium节省40%以上内存)。支持无缝切换工作模式,内置反检测机制能绕过多数自动化检测系统。其简洁API可减少30-50%代码量,执行速度更快(测试显示7.2秒vs Selenium的12.8秒),特别适合需要处理JavaScript渲染、复杂验证

2025-08-07 18:50:07 1408

原创 Selenium自动化:轻松实现网页操控

Selenium自动化测试与数据爬取摘要 Selenium是一个强大的Web自动化工具,主要用于Web应用测试和动态数据抓取。它支持多种浏览器,通过WebDriver控制浏览器行为,提供多种元素定位方式(ID、XPath、CSS选择器等)。 核心功能: 测试自动化:减少人工测试工作量,支持跨浏览器测试 数据抓取:获取JavaScript动态加载的内容 用户交互模拟:实现点击、输入、滚动等复杂操作 使用场景: 动态内容加载页面 复杂用户交互需求 频繁回归测试 基本流程: 安装Selenium库和浏览器驱动

2025-08-02 22:43:03 1545

原创 JSONPATH实战案例:爬取异步加载的网站

本文介绍了一个使用JSONPATH爬取腾讯网异步加载数据的Python实战案例。通过requests库发送POST请求获取JSON数据,利用jsonpath提取新闻标题、链接和来源信息,并使用openpyxl将数据保存到Excel文件。代码实现了分页爬取(1-11页)、异常处理(缺失来源情况)、实时进度显示和即时数据保存等功能。关键步骤包括:创建Excel工作簿、设置请求头伪装浏览器、循环翻页获取数据、提取并处理可能缺失的数据字段、将每页数据实时写入Excel。该方案能有效爬取异步加载的网页内容

2025-07-30 01:21:45 256

原创 JSONPath进阶实战:高效查询技巧全解析

JSONPath是一种用于查询JSON数据的强大工具,类似XPath在XML中的作用。本文全面解析JSONPath的核心语法与应用技巧,涵盖基础操作(根节点选择、子节点访问、通配符)、数组处理(索引切片、递归查询)、高级过滤(条件组合、正则匹配)以及函数扩展(长度统计、极值计算)。通过电商商品筛选、企业员工数据查询等实战案例,演示如何精确提取数据,并对比不同实现库(如jsonpath-ng)的特性差异。文章特别强调查询优化建议和常见陷阱处理,如大小写敏感、特殊字符转义等问题,为开发者提供完整JSONPath

2025-07-29 01:08:51 1122

原创 JavaScript对象与Math对象完全指南

本文全面介绍了JavaScript对象和Math对象的核心用法。对象作为数据集合,包含属性(特征)和方法(功能),可通过字面量或动态方式创建。文章展示了对象的基本操作、遍历方法及实际应用场景。Math对象部分详细解析了随机数生成、取整方法、极值计算、幂运算和三角函数等核心功能,并提供了验证码生成、价格格式化和游戏开发等实用案例。关键知识点包括对象属性/方法、动态成员及各种Math计算方法,最后给出了优先使用点表示法、合理处理随机数和精确计算等最佳实践建议。

2025-07-28 18:17:16 337

原创 掌握JavaScript函数封装与作用域

本文介绍了JavaScript函数的基本概念和使用方法。主要内容包括:1)函数的封装意义,通过函数声明实现代码复用;2)函数的基本语法结构(关键字、函数名、参数等);3)函数调用方式;4)参数传递(形参和实参);5)返回值使用return关键字;6)作用域规则(全局/局部作用域,变量查找顺序);7)匿名函数和立即执行函数的用法。文中通过多个代码示例演示了如何声明、调用函数,处理参数和返回值,以及理解作用域规则。这些知识是JavaScript编程的基础核心内容。

2025-07-26 23:36:41 878

原创 Python爬虫实战:诗词名句网《三国演义》全集

本文介绍了使用BeautifulSoup爬取"诗词名句网"上《三国演义》全集的实战案例。通过requests获取网页内容,BeautifulSoup解析HTML结构,提取章节名称和URL,并对特殊符号进行处理确保文件名安全。程序动态创建目录,循环获取各章节内容,去除HTML标签后保存为独立文本文件。实现过程包括:伪装浏览器请求、URL拼接、内容提取、文件存储和进度反馈。该案例展示了网络爬虫的基本流程,重点演示了BeautifulSoup在网页解析中的实际应用。

2025-07-26 21:34:12 373

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除