自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(236)
  • 收藏
  • 关注

原创 从爬虫到网络---<基石9> 在VPS上没搞好Docker项目,把他卸载干净

如有Linux服务器权限不足或遇到“找不到命令”,请补上 sudo 或联系服务器管理员。这条命令会删掉所有未被使用的容器、镜像、网络和卷,如果提示没有找到容器,可以忽略这些提示。

2025-05-10 22:09:56 541

原创 从爬虫到网络---<基石8> 看懂BBR、CUBIC等TCP拥塞控制算法(全网最通俗案例版)

在网络世界中,“速度”永远是一项关键话题。当我们用手机刷视频、用电脑打游戏时,背后有一个默默工作的“大管家”在负责交通管控——TCP拥塞控制算法。它们决定你上传下载有多快、游戏延迟有多低。今天,我们就用生活化场景和“故事会”的方式,来聊聊TCP拥塞控制算法,重点讲清楚BBR、CUBIC等主流算法的原理、演化关系、优劣比较,带你彻底告别“只会换算法命令,不懂背后原理”的尴尬!如果你跑普通家用宽带,不用管,CUBIC默认也不错。**大带宽/数据中心传大文件:**优选CUBIC。

2025-05-04 20:49:38 1553

原创 从爬虫到网络---<基石5> 你的第一台vps如何保证基本安全之<锁上加告警之PAM>

PAM 模块中session类型用于“会话管理”,在登录、登出前后自动执行一些动作,非常适合我们做“登录报警”!比如有个模块叫 pam_exec.so :允许你在用户登录、登出时执行一个你自己写的 Shell 脚本!Ubuntu 的 PAM 登录机制为系统提供了极高的认证、管理与扩展性。通过 pam_exec.so,它允许你在任何认证、会话阶段,执行自定义脚本,实现如“登录实时通知”这类灵活、极实用的安全防御措施。

2025-05-04 06:30:00 762

原创 从爬虫到网络---<基石4> 你的第一台vps如何保证基本安全之<UFW与Fail2Ban>

UFW(Uncomplicated Firewall)是Ubuntu官方推荐的iptables前端,旨在简化复杂的iptables管理,帮助用户直观配置防火墙规则。UFW本质上是对iptables的一层封装,所有规则最终会落实在iptables内核防火墙。项目功能是否必要说明UFW防火墙,控制端口访问必要你已经启用了它,很棒。它是“静态规则”防护。Fail2Ban防爆破、动态封禁恶意 IP建议安装它是“动态防御”,专门针对暴力破解、异常访问行为。

2025-05-03 07:30:00 1536

原创 从爬虫到网络---<基石4> 你的第一台vps如何保证基本安全

随着云服务器(VPS)在业务部署、网站搭建及开发测试中的广泛应用,越来越多的开发者与运维人员选择使用 SSH 登录 VPS 以实现远程管理。然而,默认的 root 用户远程登录方式存在极大的安全隐患,攻击者一旦暴力破解密码,服务器将直接失控。因此,限制 root 用户 SSH 登录权限、启用普通用户登录、配置公钥认证机制,已成为强化服务器安全的必要手段。

2025-05-03 06:30:00 1616

原创 从爬虫到网络---<基石1> 搞通DNS,HTTP(S)

瞧见没?输入网址那一刻,表面是你和浏览器的温柔互动,台下是万台机器连轴转,以亿次请求调度保驾护航——无数服务器、交换机、协议、加密机制,为的就是让你能在全球彼此看似“秒通”。再想想,没有 DNS 的互联网等于没有门牌号的城市。没有加密的互联网,无异于花钱寄信,信封全透明,地址谁都能偷换。你可以继续“只会点网址”,但别忘了,每个互联网操作背后都是产业标准、工程师汗水和无数次暗战的结晶。DNS这样的骨干系统,别人一旦破坏,你的世界就会一秒黑屏。

2025-05-01 06:30:00 748

原创 要搞一个PHP的工程,顺到手科普下VS Code

VS Code(Visual Studio Code)是一款由微软开发的免费、轻量级代码编辑器,支持多种编程语言和插件扩展。它适合前端、后端开发,甚至写文档都很方便。:你可以在VS Code的"键盘快捷方式"里自定义和学习所有快捷键!

2025-04-30 13:00:00 454

原创 这时候,为什么要Laragon,什么是Laragon?

Laragon是一个在 Windows 系统上专门为 PHP、Laravel 等 Web 项目开发而设计的“本地开发环境集成工具”。你可以把它理解为Windows 下的 XAMPP/WAMP 的升级加强版。它主要用来一键帮你搭建好 Web 项目开发所需的各种环境,方便、快速、高度自动化。Laragon = Windows 下集成一切Web开发工具的“开发环境超市”,让你本地开发任何Web/PHP项目,简单又好用。Laragon 更适合 Windows 下快速、本地开发和调试,省心省力。

2025-04-30 06:30:00 1114

原创 从 Scrapy 到 Django 必须掌握(8):网站的自适应和响应式

一个页面自动适配所有设备,代码复用高,开发维护方便。为不同设备做不同页面,用户体验可以更好,但开发和维护复杂。现在主流的网站几乎都是用响应式设计,除非对不同设备有极高的优化需求,才会用自适应(比如某些大型门户,或需要极致性能体验的应用)。响应式网页设计已经成为现代网站开发的主流,由于有大量用户会用手机浏览,更需要高度重视响应式体验。下面我会从“规划-布局-细节-常见问题”四个部分,详细讲解一个响应式论坛网页从零开始应如何设计。需求梳理→ 明确终端和功能原型/线框图→ 画草图,尝试分辨率适配。

2025-04-22 06:15:00 1383

原创 从 Scrapy 到 Django 必须掌握(7):Forms 完全解析(二)

用户提交的数据往往是不完整的、格式不正确的,甚至是故意恶意的(如 SQL 注入)。表单通过 Django 的 Form 类与视图和模板连接,可以在前端页面上实时反馈用户输入的问题,而数据库直接验证数据无法实现。表单(forms)与后端数据库(如 MySQL)之间的区别主要在于它们的作用和功能在整个应用程序开发过程中的不同定位。它们的核心差异以及为什么通常需要使用表单而不是直接操作数据库来进行验证的原因就是本文需要讲解的地方;通过这样的分工,表单和数据库协作实现了数据的接收、验证和存储。

2025-04-21 06:45:00 778

原创 从 Scrapy 到 Django 必须掌握(7):Forms 完全解析(一)

Django 提供了许多内置的表单字段(如 CharField、EmailField、IntegerField),但有时我们需要定义自己的特殊字段类型或验证规则。例如,创建一个只允许接受特定格式字符串的字段。示例:创建自定义字段raise forms.ValidationError('只能包含字母和数字。')通过继承内置字段类并覆写其 validate 方法,我们可以创建新的字段类型。这个方法常用于特殊数据格式(如银行卡号、特定时间格式等)的验证。

2025-04-21 06:30:00 1067

原创 ‘从Scrapy到Django必须掌握(6):django表单详细解

迁移(Migration)是 Django 的 ORM 提供的数据库框架,用来将模型(Models)中的定义同步到数据库表中。如果模型发生变化(新增字段、修改字段等),迁移机制会自动检测变化,并生成操作数据库表的迁移文件。

2025-03-31 09:30:00 1448

原创 从 Scrapy 到 Django 必须掌握(5):用户模型详解2

到此为止,我们已经完成了自定义 Django 用户模型的完整流程,包括从模型定义到迁移数据库,再到确保项目中所有与用户交互的地方都适配新模型。修改 settings.py 配置自定义用户模型。继承 AbstractUser 或 AbstractBaseUser 创建新用户模型。注册到 admin.py 以便在管理后台中管理。使用 makemigrations 和 migrate 命令同步模型到数据库。更新其他依赖用户模型的部分,确保兼容性。测试模型功能,确认无误。

2025-03-31 06:15:00 651

原创 从 Scrapy 到 Django 必须掌握(5):用户模型详解1

Django 自带了一个完整的认证和授权系统,其中,用户模型是其核心组件之一。用户名、密码、电子邮件、全名等用户基本信息。用户是否活跃/验证状态。创建、更新和验证用户凭据。用户角色管理(包括权限和分组)。Django 默认提供了一个用户模型,位于 django.contrib.auth.models.User 中,可以直接使用。如果你的用户需求比较简单(如只需用户名、邮箱、密码),内置的 User 模型已经能够满足。但在实际项目中,默认的用户模型可能无法满足需求。

2025-03-30 23:35:50 1096

原创 从 Scrapy 到 Django必须掌握(4):Runte路由详解

如果你从 Scrapy 过渡到 Django,必须思考数据如何从爬取到展示整合,路由起到了桥梁的作用。在后续的开发中,理解 Django 的路由、动态配置和面向 API 的设计方法将帮助你晋级为高效的 Web 开发者。

2025-03-30 15:02:25 933

原创 从 Scrapy 到 Django必须掌握(3):数据迁移详解

Django 使用强大的 ORM(对象-关系映射)功能提供了一种简单的数据库结构管理工具。从 Scrapy 到 Django 的转变,不仅涉及框架本身的学习,也需要在数据库迁移方面下功夫。通过 Django 的强大迁移工具,我们可以快速搭建和优化数据库结构。在开发初期,可以使用 SQLite 快速迭代,生产部署时迁移到 MySQL 或其他数据库。本教程提供的分步操作,旨在帮助您快速完成 SQLite 到 MySQL 的迁移,让 Django 项目运行在更高效的数据库环境中。

2025-03-29 23:52:36 741

原创 从 Scrapy 到 Django,必须掌握(2):settings 详解

Django 的 settings 是框架的核心配置模块,用于管理一个项目的全局配置。Django 项目的运行、功能扩展、安全管理依赖于一系列参数配置,这些配置项就是 settings 中的内容。当你创建一个 Django 项目时,系统会自动生成一个默认的 settings.py 文件。该文件包含了一些通用的应用配置,比如数据库连接、安装的应用、静态文件管理、模板设置等。settings.py 是整个项目的“大脑”,决定着你的项目如何运行。

2025-03-29 23:35:03 939

原创 从scrapy到Django,必须掌握(1)

Django 提供了灵活的 URL 模式,可以通过正则表达式或路径参数来实现动态路由。例如:与 Django ORM 一样,你需要先定义模型来映射数据库表。示例中假设有一个 Product 模型,包含 price 和 created_at 两个字段。# 定义数据库# 定义模型price = DecimalField() # 假设价格是一个小数created_at = DateTimeField() # 创建时间字段# 创建表(如果表不存在)

2025-03-28 19:04:01 1360

原创 攻破tensorflow,勇创最佳agent(3)---搞懂算法之半监督学习算法1

与标准SVM的目标一致,优化分类边界以最优化划分有标签数据。

2025-03-28 03:54:37 695

原创 攻破tensorflow,勇创最佳agent(3)---搞懂算法之监督学习算法1

一种机器学习方法,利用。

2025-03-28 03:38:37 423

原创 阿里云轻量级服务器Ubuntu22.04.4,装mysql链接到本机navicat

⚠️ 将 你的用户名 和 你的密码 替换为你需要的用户名和密码。% 表示允许该用户从任何 IP 地址连接。如果看到 active (running),说明 MySQL 已启动。按 Ctrl+O 保存文件,然后按 Ctrl+X 退出。0.0.0.0 表示接受来自任何 IP 地址的连接。⚠️ 请将 '你的密码' 替换为你希望设置的密码。,如果配置无误,应该会提示连接成功。阿里云轻量服务器需在。

2025-03-27 06:15:00 1288

原创 js逆向,常见的navigator数据

在 JavaScript 逆向中,navigator 对象内的属性是非常重要的,因为前端页面通常通过这些属性来采集用户的环境信息。这些数据在反爬虫、检测自动化脚本(如爬虫、模拟器)或决定页面行为时经常会用到。以下是 navigator 对象中各属性的重要性以及它们的作用详细解读。

2025-03-26 06:30:00 1384

原创 深入解析urllib.parse在爬虫开发中的应用

Python标准库中的urllib.parse模块的功能及在爬虫开发中的应用。该模块包含了诸多函数,如urlparse、urlunparse、urlsplit、urljoin、urlencode等,能够方便地解析、重构和操作URL,使爬虫程序更智能高效。在实践中,我们可利用这些函数处理动态网页分页、搜索结果采集、相对路径整合等情景,从而简化开发流程。此外,文章还提及了在更复杂场景中如处理重定向、短链接、动态构建查询参数等方面的高级应用,展示了如何通过urllib.parse解决这些问题。

2025-03-26 06:15:00 859

原创 攻破tensorflow,勇创最佳agent(2)---损失(loss) 准确率(accuracy)问题

L1正则化(Lasso回归):通过在损失函数中增加权重绝对值的和作为惩罚项,从而驱使某些权重减小到零,生成稀疏解,适合特征选择.L2正则化(Ridge回归):通过增加权重平方和作为惩罚项,促使所有权重趋向较小的均匀值,而不是完全为零。它通过减少权重避免过拟合,增强模型的稳定性.这两种正则化方法可以在模型中结合使用,以提高模型的泛化能力和抗干扰能力。数据表示:模型在训练过程中的表现,loss和val_loss越小,accuracy和val_accuracy越高,说明模型越来越好。

2025-03-25 18:21:06 1331

原创 攻破tensorflow,勇创最佳agent(1)---学习率learning_rate问题

学习率是决定在每次更新模型参数时的步长大小的变量。简而言之,学习率定义了优化算法在每次迭代中根据梯度(损失函数对参数的偏导数)更新权重的速度和幅度。其数学表达式通常为:(反正我看不懂,所以我就知道,这个学习率就是: 每次加一点,加到效果最佳;什么叫每次加一点?你失败了,就要总结,总结就要学习,找到经验再走一点;找到个谷底,再走到山峰;

2025-03-25 17:42:24 1158

原创 爬虫工程师---如何用charles把scrapy的爬虫监控起来调试

想法是,通过charles挂上'魔法工具',然后跑代码的时候,实时监控每一个访问的请求状态和返回是个啥?原理其实和挂手机等一样的;但是,我想说的,让scrapy挂上charles...

2024-05-17 18:09:52 1116

原创 爬虫工作量由小到大的思维转变---<第七十六章 > Scrapy爬虫引入Item Drop机制的概念及其价值

在Scrapy框架中,DropItem机制提供了一种有效的数据过滤和控制方式。具体来说,它是一种基于条件的数据丢弃机制,用于在数据处理流程中筛选出不需要的Item。当爬虫抓取到数据后,数据会被封装成Item的形式,在数据流经Scrapy的处理流程时,我们可以根据不同的需求对这些Item进行检查,并决定哪些Item应当继续被处理,哪些应当被丢弃。在技术实现上,DropItem是通过在Item Pipeline中抛出DropItem异常来完成的。

2024-05-16 19:44:14 1688

原创 向爬虫而生---Redis 实战篇1 动态Redis连接管理在Python中的实践

随着互联网技术的飞速发展,数据处理和存储在Web开发和大数据处理领域中的重要性日益凸显。特别是对于如Redis这样的内存数据结构存储系统而言,其在处理大量数据时显得尤为关键。正因如此,对于管理与Redis实例连接的需求也随之增长,尤其是在应用规模不断拓展、数据量日益增加的今天,单一的Redis实例已经难以满足复杂的数据处理需求。在这种情况下,"动态Redis连接管理"成为了解决这一问题的重要手段。通过动态连接管理,我们可以根据实时的应用需求和资源状态,灵活地创建、复用或关闭与Redis实例的连接。

2024-05-16 06:30:00 1390

原创 爬虫工作量由小到大的思维转变---<第七十五章 > Scrapy爬虫回调函数在请求重试中的应用研究

在Scrapy框架中,中间件重试机制是指系统自带的一个功能,它能在请求因为某些原因失败时自动进行重试。比如说,如果因为网络问题或者服务器暂时不可用导致请求失败,Scrapy会根据设定的重试次数和重试间隔自动重新发起请求。使用这个机制,你只需要在项目的设置里做些简单的配置,比如设置最大重试次数,而无需在代码中明确编写重试逻辑。想象我们现在面对的是一个在线图书商城,该商城的书评信息是通过动态加载的方式展现的,而且每次只能通过修改POST请求的参数来获取不同页码的书评数据。

2024-05-14 15:25:34 1479 5

原创 爬虫工作量由小到大的思维转变---<第七十四章 > Scrapy爬虫关闭方法(close)的机制及其在爬虫优化中的重要性

Scrapy,这个名字在数据提取界就如同波音747在航空业的地位一样,是数据提取领域的巨头之一。想象一下,Scrapy就像一架精密的飞机,在广阔的互联网空间中进行着数据的搜集之旅。而在这架飞机中,爬虫(Spider)便是执行任务的飞行员,负责确切的导航,把握方向,搜寻和采集数据。飞机从起飞到降落,要经过起飞、飞行、降落三个阶段,而Scrapy爬虫的生命周期也大体相似。

2024-05-14 07:00:00 1102

原创 爬虫工作量由小到大的思维转变---<第七十三章 > Scrapy爬虫详解一下HTTPERROE的问题

当status在【200,300】内的时候,直接返回(无异常);当status开始出现问题的时候,看你是否设置允许状态码;--- 在spider里面,发送请求的时候会在mata里面带着或者-->如果是all,表示所有的状态码都不会引发httpError的问题;而handle_httpstatus_list则是需要在集合里面设置对应允许的一些状态码;--- 也可以直接在setting里面直接进行的设置;(如图)

2024-05-13 07:30:00 1013

原创 github-push遇到的Failed to connect to 127.0.0.1 port 1081 after 2069 ms: Couldn‘t connect to server

新开了个项目,在进行推送的时候,忽然出现这个问题:查阅很多人写的,都不得法;觉得需要从本质上解决一下,所以记录下来;

2024-05-13 07:30:00 663 1

原创 抓包证书安装到安卓7.0+手机

首先理解一下,这个不只是证书到浏览器,而是抓包证书到安卓7.0+手机上的文章;还有一点区分,在浏览器上装的证书,只是让抓包工具可以抓取手机浏览器的包,而不是抓取手机app上的包;如果你的证书只是简单的在浏览器下进行安装,那么你的手机app是走不了代理网络的;因此,本章也就是继续,进行深一步的前期步骤!

2024-05-05 19:47:02 1932

原创 Fiddler工具的操作和功能时-----定位到步骤图(助力抓包)

我们深入探究了Fiddler工具中关键功能的操作方法和作用。首先,我们探讨了过滤器和断点调试功能,这些功能使用户能够根据特定条件过滤请求和响应数据,并在请求过程中暂停以检查数据,从而有针对性地进行网络调试和分析。接着,我们详细介绍了Fiddler中的自动响应和Composer工具,这些功能允许用户模拟服务器响应、手动创建和发送自定义的HTTP请求,以进行测试和验证应用程序的网络交互。通过合理使用这些功能,开发人员可以更高效地进行网络调试,优化应用程序性能,提升用户体验。

2024-04-14 20:57:07 1195

原创 爬虫工作量由小到大的思维转变---<第七十二章 > Scrapy爬虫中间件和下载中间件的不同之处:响应处理方式的比较(2)

位于请求和响应之间的关键位置,用于干预爬虫的逻辑层面,可根据特定爬虫或请求选择性处理响应,提高数据处理的准确性和灵活性。处理全局性的请求和响应,主要用于在请求发出和响应返回之间进行统一处理,可统一处理所有请求的响应内容,提高整体系统的效率。爬虫中间件和下载中间件在处理方式上有明显差异,根据实际需求来选择合适的中间件类型将更有利于优化数据采集和处理流程。合理利用这两种中间件,开发者可以更好地管理和处理爬虫系统的数据,提高爬取效率、灵活性和稳定性,从而实现更有效的数据采集和处理目标。

2024-04-14 19:06:29 1504

原创 爬虫工作量由小到大的思维转变---<第七十一章 > Scrapy爬虫中间件和下载中间件的不同之处:响应处理方式的比较

在本文中,我们深入探讨了爬虫中间件与下载中间件在接收响应方面的不同之处。爬虫中间件针对特定爬虫或请求进行响应处理,具有灵活性和个性化特点;而下载中间件则全局性地处理所有请求和响应内容,实现统一的处理策略。爬虫中间件更注重个性化处理响应内容与逻辑,而下载中间件更关注对所有请求的全局性响应处理。通过代码示例,我们展示了两种中间件的不同运作方式和应用场景。深入了解这些差异有助于优化爬虫的数据处理效率和质量,提升开发者对Scrapy框架的应用技能。

2024-04-14 18:53:04 1324

原创 爬虫之数据神器10---Peewee实现ORM的核心原理

在Peewee中,模型的定义是通过模型元类(ModelMetaclass)实现的。Peewee利用Python的元类机制,在模型类定义中使用特殊的元类来创建模型类。下面我们将详细介绍模型元类的实现原理。有了模型元类和字段描述符的支持,我们可以定义模型类了。在这个示例中,我们定义了一个名为User的模型类。通过在模型类中定义字段,我们可以指定每个字段的数据类型和验证规则。例如,id字段使用username字段使用CharFieldemail字段使用EmailFieldcreated_at字段使用。

2024-04-09 22:28:55 1048

原创 Fiddle配置代理,保手机模拟器访问外部网络

fiddle连接mumu模拟器到adb连接成功,保姆级_fiddler抓包模拟器-CSDN博客在现代的移动应用程序开发中,模拟器成为了一个必不可少的工具。而Mumu模拟器是一个非常受欢迎的选择,它提供了稳定的性能和丰富的功能。然而,要在模拟器上进行调试和测试,你需要将它与ADB连接起来。首先,我将解释如何设置Fiddle,并确保你的Mumu模拟器和ADB都正确地安装并运行。然后,我将带领你一步步完成连接的过程,包括配置ADB连接选项和启用设备调试模式。

2024-04-09 06:30:00 1004

原创 爬虫之数据神器9---Peewee集成Django/Flask框架详解

对于简单项目或原型开发,Django ORM提供了全面的功能和便利的操作。高性能和定制需求的场景中,Peewee是一个更轻量级和灵活的选择。在需要连接多个数据库的情况下,可以根据具体需求选择合适的ORM框架进行连接。通过合理分配ORM的使用场景,我们可以根据项目的规模、复杂性和性能需求选择合适的工具,并编写高效、优雅的代码。

2024-04-08 07:00:00 1206

原创 爬虫之数据神器8---Peewee性能优化技巧指南(2)

这些是一些Peewee性能优化的技巧,通过使用缓存、索引、批量插入、预先加载关联数据和原生查询,可以显著提高Peewee应用程序的性能和响应能力。根据具体的场景和需求,选择适合的优化方法,能有效地提升应用程序的性能。通过使用批量插入和更新操作,以及正确管理事务,可以提高数据库操作的性能、稳定性和一致性。对于频繁的数据库操作和需要保证一致性的操作,建议使用这些技巧来优化Peewee应用程序。Peewee中的缓存优化和批量操作与事务管理技巧。

2024-04-08 06:30:00 1402

fiddle连接mumu模拟器到adb连接成功,保姆级

fiddle连接mumu模拟器到adb连接成功,保姆级

2024-03-15

爬虫工作量由小到大的思维转变-<第十七章 Scrapy给项目代理ip(二)>,升级版rar

提取ip到中间件的代码实现

2023-12-20

JS逆向分析工具,v1.8.3版本

JS逆向分析工具,v1.8.3版本

2023-10-22

解决mumu模拟器上网证书===`安全警告`问题!

解决mumu模拟器上网证书===`安全警告`问题!

2023-10-20

app图片转文字-高端版(免费)

app图片转文字-高端版(免费)

2023-10-15

python做项目时候的一些的操作规范!!-戒小错无大错!!!

对python的一些问题的操作规范

2023-10-15

文章提取关键词,分词器(针对中文)-textrank4ch(需要改动),2023年10月12日

文章提取关键词,分词器(针对中文)-textrank4ch(需要改动),2023年10月12日

2023-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除