自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 收藏
  • 关注

原创 身份证信息OCR识别提取

身份证信息OCR识别提取

2025-05-30 16:03:48 734

原创 Python 库 petrel_client.client 浅入浅出

`petrel_client.client` 是用于访问和操作 Petrel 对象存储服务的 Python 客户端库。Petrel 是由阿里云推出的高性能分布式对象存储系统,支持海量数据存储和高并发访问。该库提供了简洁的 API,用于文件的上传、下载、删除、元数据查询等操作,适用于数据处理、机器学习、分布式计算等场景。

2025-05-04 18:22:26 359

原创 MinIO 浅入浅出

MinIO 是一个高性能的分布式对象存储系统,主要用于在公有云和私有云环境中存储非结构化数据。它兼容 Amazon S3 API,因此许多开发者和企业选择使用 MinIO 来开发和部署云原生应用。高性能:MinIO 经过优化,可处理每秒数百万个请求,适合需要高吞吐量和低延迟的应用场景。兼容 S3 API:MinIO 提供对 S3 API 的完整支持,使得使用 S3 的应用可以无缝迁移到 MinIO,无需对代码进行重大修改。易于部署。

2025-03-31 14:23:35 425

原创 浅入浅出Selenium DevTools

在自动化测试领域,Selenium一直是主流工具之一。随着前端技术的不断发展,浏览器的功能也在不断丰富。打开Charles,设置Session自动导出频次及导出路径Selenium模拟操作Chrome网页页面,待网页页面渲染出需采集的数据解析Charles拦截的Session,提取目标数据Selenium 4版本引入了,为开发者提供了更底层、更强大的浏览器交互能力。对以上采集流程而言,DevTools优化了步骤2,减少了模块间的异步交互,增加了采集的稳定性。DevTools。

2025-02-28 11:06:43 1618

原创 数据挖掘的十大经典算法及其应用场景和优缺点

数据挖掘是从大型数据集中提取有用信息的过程,它结合了统计学、机器学习和数据库技术,以便从数据中发现模式和趋势。在数据爆炸的时代,数据挖掘技术的应用越来越广泛,从商业决策到科学研究,都离不开数据挖掘。本文将介绍十大经典数据挖掘算法及其应用场景、优缺点。

2024-12-31 14:43:11 773

原创 OpenAI浅聊爬虫

OpenAI越来越火,大有要干掉一片程序员的架势。在此,我们看看Sider(本文使用的OpenAI工具)对爬虫的看法。

2024-11-29 14:46:32 1872

原创 OpenCV自动滑块验证(Java版)

爬与防爬就是一场“道高一尺,魔高一丈”的拉力赛,双方都在见招拆招。时至今日,较为常见的防爬手段有手机短信验证、滑块验证、按顺序点击图片验证等。本文主要介绍滑块验证的应对之法。

2024-10-31 11:54:51 512 2

原创 数据资产管理,到底管什么?

数据资产是数据中台的重要根基,没有资产的数据中台是无源之水,就只能叫作数据工具。在数据中台架构中,数据资产建设、管理、治理是重头戏。

2024-09-30 13:54:53 1252

原创 网页正文提取算法:行块分布算法 & Readability

爬取百度、搜狗、必应等搜索引擎时,详情页的正文因来源多样而无法简单通过通用的规则来匹配,这就需要相关的提取算法。本文在此介绍两种网页正文提取算法:行块分布算法 & Readability。

2024-08-30 11:50:12 835 1

原创 图像相似度算法

图像相似度算法

2024-07-31 16:14:03 1154

原创 MySQL事务:ACID特性的实现原理

事务是MySQL等关系型数据库区别于NoSQL的重要方面,是保证数据一致性的重要手段。

2024-06-28 11:43:52 920

原创 MySQL中的触发器Trigger用法解析

这篇文章主要介绍了MySQL中的触发器trigger用法解析,触发器是由事件来触发某个操作,这些事件包括 INSERT、UPDATE、DELETE事件,事件就是指用户的动作或者触发某项行为。

2024-05-31 18:13:17 1184

原创 常用加密算法介绍与比较

加密算法分对称加密和非对称算法,其中对称加密算法的加密与解密密钥相同,非对称加密算法的加密密钥与解密密钥不同,此外,还有一类不需要密钥的散列算法。

2024-04-30 16:13:03 954

原创 时间序列预测方法汇总

本文汇总了几种常见的时间序列预测方法。

2024-03-29 16:03:29 1831

原创 LSTM预测股票走势的原理

LSTM算法是一种重要的目前使用最多的时间序列算法,是一种特殊的RNN(Recurrent Neural Network,循环神经网络),能够学习长期的依赖关系。主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。

2024-03-01 17:18:47 1711

原创 一种手机短信验证码登录平台的解决方案

爬取数据时,请求需要带上Cookie,这是很常见的一种防爬手段。更新Cookie,常用的方法就是Selenium模拟输入用户名和密码;偶尔会遇到图片验证码,现在打码平台很多且技术也很成熟,这个已经不成问题。所谓“道高一尺,魔高一丈”,频繁访问且不断切换IP的账号,平台考虑减少误杀的情况,不可能直接封号,那就只能在登录上设置障碍;正常账号输入手机短信验证码就应运而出了。

2024-01-31 15:05:15 612

原创 Git 浅入浅出

最近和同事分模块联合开发代码,自然而然就要用到 Git 管理代码;借此机会,对 Git 进行简单介绍。

2023-12-29 15:25:11 1233 1

转载 Kettle 浅入浅出

Kettle(水壶)是一款国外开源的 ETL 工具,现在已经更名为 PDI,Pentaho Data Integration-Pentaho 的缩写,由纯 java 编写,可以在 Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定。它可以处理各种异构数据库中的数据,并且提供了可视化图形界面的方式进行操作,让你思路主要关注在如果处理数据上,而不是如何实现处理的过程。

2023-12-01 14:37:24 1336 1

原创 Inspeckage,动态分析安卓 APP 的 Xposed 模块

Inspeckage,动态分析安卓 APP 的 Xposed 模块

2023-10-31 11:56:59 1193 1

原创 基于APP数据爬取的运行环境

数据爬取本就是“道高一尺,魔高一丈”;越往后,爬取越接近于真实,真实包含了真实的运行环境(不再是简单地伪造请求、User-Agent和Cookie等)和真实的操作流程。本文对APP的运行环境做了简单梳理以供参考。

2023-09-28 17:24:04 243

原创 Charles信任证书后依然无法抓包的解决方案

Charles信任证书后依然无法抓包的解决方案

2023-08-31 15:14:59 8676 2

原创 浅入浅出MySQL事务

事务是由数据库中一系列的访问和更新组成的逻辑执行单元。事务的逻辑单元中可以是一条SQL语句,也可以是一段SQL逻辑,这段逻辑要么全部执行成功,要么全部执行失败。

2023-07-31 15:33:43 605

原创 浅入浅出Java锁

做分布式爬虫时,结合已有的架构,直接对某网站的详情页进行了爬取;尴尬的是,某网站需先采集列表页,之后才能采集详情页;这种防爬手段使用了用户行为监控,行为异常的访问直接就给屏蔽了。对于这种情况,既要满足分布式的性能要求,又要模拟合理的用户行为,程序中就要对列表页的访问加锁。

2023-06-30 16:25:47 254

原创 MySQL 视图 浅入浅出

视图(view)是一个虚拟表,非真实存在,其本质是根据SQL语句获取动态的数据集,并为其命名,用户使用时只需使用视图名称即可获取结果集,并可以将其当作表来使用。数据库中只存放了视图的定义,而并没有存放视图中的数据。这些数据存放在原来的表中。使用视图查询数据时,数据库系统会从原来的表中取出对应的数据。因此,视图中的数据是依赖于原来的表中的数据的。一旦表中的数据发生改变,显示在视图中的数据也会发生改变。

2023-05-31 20:53:38 534

原创 数据对接安全性之AES与RAS结合加解密方案

为了保障数据对接的安全性,我们采用AES与RAS结合加解密的方案。

2023-04-28 18:10:50 398

原创 有关微信公众号文章的那些事儿(Spider版)

政府类舆情监控系统少不了对政府类微信公众号文章的爬取。常用的方式有两种:一种是个人微信账号爬取,一种是个人公众号爬取。

2023-03-31 12:07:29 531

原创 PDF提取图片和表格

公司其它部门同事有一批PDF文件,希望能从这批PDF文件中提取出图片和表格。图片的提取,可以使用spire.pdf(官网:https://www.e-iceblue.cn);测试下来,效果OK。表格的提取,没有现成的工具,依据PDF的特点,表格的字段和布局规范,可通过坐标(x,y)来识别并提取。提取时,需对捕捉到的错列、错行等异常进行人工处理。

2023-02-28 14:37:27 646

原创 基于多元线性回归去除图片水印(Java版)

Java自带的工具可以对图片指定位置(x,y)的颜色(r,g,b)进行替换。如果图片上下左右颜色一致,则可进行颜色区间的简单替换。如果图片颜色不一致,这就需要算法来识别图片中的水印部分。

2023-01-30 15:56:16 1715 2

原创 Scrapy 浅入浅出

提到爬虫框架,除了各个公司自己开发的爬虫系统外,公共框架部分自然就会提到 Scrapy,它是一款非常强大的分布式异步爬虫框架。本文就讲讲 Scrapy 的简单使用。

2022-12-30 16:04:22 459

原创 SpringMVC的使用

AWS MVC框架是一个基于请求驱动的Web框架,使用了前端控制器模式来进行设计,再根据请求映射规则分发给相应的后端逻辑控制器(动作/处理器)进行处理。AWS MVC框架的使用方法类似于SpringMVC框架,本文因此介绍一些SpringMVC的使用方法。

2022-12-01 17:13:26 157

原创 FastDfs分布式文件系统集群搭建及Java客户端使用

FastDfs是一个开源高性能分布式文件系统。它的主要功能包括:文件存储、文件同步和文件访问(文件上传和文件下载),它可以解决高容量和负载平衡问题。FastDfs应满足基于照片共享网站和视频共享网站等文件的网站的要求。

2022-10-31 15:52:55 1640

原创 基于OpenCV的多图片去重叠拼接(Java版)

数据采集中,尤其是时效性敏感的数据,比如:微博热搜,这类“过了这个村就没有这个店”的数据,为了证明当时数据采集的准确性与完整性,最直接有效的办法就是保留当时采集的网页页面。本文主要交流点,Appium模拟操作截屏需要滑动时,如何得到一张无缝的完整长图。基本思路:图片截取->计算截取后图片的差异值->取最小差异值的截取位置进行截取->对截取图片进行拼接。因为微博热搜有所谓的“页眉”,所以会有一个去“页眉”的截取步骤。

2022-09-30 16:58:14 2436 4

原创 Java 日期处理易踩的坑

Java 开发中,经常需要对日期进行处理;本文整理了 Java 日期处理易踩的坑,希望对大家有所帮助。

2022-08-31 17:10:57 299

原创 浅谈网络爬虫中广度优先算法和深度优先算法

网络爬虫中广度优先算法和深度优先算法,理论比较简单,实现也比较容易,适用于常规的新闻类网站。对于数据以接口形式加载的网站,通用性不高;除非使用Selenium等模拟浏览器的方式将样式和数据渲染进网页后,在使用相关的算法进行操作。这种方法可行,但如果有效率限制的话,成本会非常高。...

2022-07-29 16:06:50 1939

原创 Jsoup数据解析浅析一二

带有标签的.html解析,Jsoup负责架构的宏观定位,正则负责内容的微观调整。

2022-06-30 16:19:11 772

原创 Spring Boot 内置工具类

Spring Boot 内置工具类

2022-06-02 16:25:51 132

原创 Spring Boot 注解梳理

使用注解的优势:采用纯java代码,不再需要配置繁杂的xml文件;在配置中也可享受面向对象带来的好处;类型安全对重构可以提供良好的支持;减少复杂配置文件的同时亦能享受到spring IoC容器提供的功能。

2022-05-03 14:25:13 178

原创 SpringBoot整合SpringSecurity实现JWT认证

微服务架构,前后端分离目前已成为互联网项目开发的业界标准,其核心思想就是前端(APP、小程序、H5页面等)通过调用后端的API接口,提交及返回JSON数据进行交互。在前后端分离项目中,首先要解决的就是登录及授权的问题。微服务架构下,传统的session认证限制了应用的扩展能力,无状态的JWT认证方法应运而生,该认证机制特别适用于分布式站点的单点登录(SSO)场景。

2022-05-03 12:21:49 983

转载 那些有用但不为大家所熟知的 Java 特性

你喜欢 Java,想了解它最新的特性吗?如果是的话,你可以阅读我关于 Java 8 之后新特性的文章。接下来,在本文中你将会了解到八个不为大家熟知但是非常有用的特性。那我们开始吧!

2022-02-28 11:51:42 113

转载 小心陷入 MySQL 索引的坑

索引可以说是数据库中的一个大心脏了,如果说一个数据库少了索引,那么数据库本身存在的意义就不大了,和普通的文件没什么两样。所以说一个好的索引对数据库系统尤其重要,今天来说说 MySQL 索引,从细节和实际业务的角度看看在 MySQL 中 B+ 树索引好处,以及我们在使用索引时需要注意的知识点。

2022-01-27 15:55:00 287

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除