- 博客(62)
- 收藏
- 关注
原创 Python 库 petrel_client.client 浅入浅出
`petrel_client.client` 是用于访问和操作 Petrel 对象存储服务的 Python 客户端库。Petrel 是由阿里云推出的高性能分布式对象存储系统,支持海量数据存储和高并发访问。该库提供了简洁的 API,用于文件的上传、下载、删除、元数据查询等操作,适用于数据处理、机器学习、分布式计算等场景。
2025-05-04 18:22:26
359
原创 MinIO 浅入浅出
MinIO 是一个高性能的分布式对象存储系统,主要用于在公有云和私有云环境中存储非结构化数据。它兼容 Amazon S3 API,因此许多开发者和企业选择使用 MinIO 来开发和部署云原生应用。高性能:MinIO 经过优化,可处理每秒数百万个请求,适合需要高吞吐量和低延迟的应用场景。兼容 S3 API:MinIO 提供对 S3 API 的完整支持,使得使用 S3 的应用可以无缝迁移到 MinIO,无需对代码进行重大修改。易于部署。
2025-03-31 14:23:35
425
原创 浅入浅出Selenium DevTools
在自动化测试领域,Selenium一直是主流工具之一。随着前端技术的不断发展,浏览器的功能也在不断丰富。打开Charles,设置Session自动导出频次及导出路径Selenium模拟操作Chrome网页页面,待网页页面渲染出需采集的数据解析Charles拦截的Session,提取目标数据Selenium 4版本引入了,为开发者提供了更底层、更强大的浏览器交互能力。对以上采集流程而言,DevTools优化了步骤2,减少了模块间的异步交互,增加了采集的稳定性。DevTools。
2025-02-28 11:06:43
1618
原创 数据挖掘的十大经典算法及其应用场景和优缺点
数据挖掘是从大型数据集中提取有用信息的过程,它结合了统计学、机器学习和数据库技术,以便从数据中发现模式和趋势。在数据爆炸的时代,数据挖掘技术的应用越来越广泛,从商业决策到科学研究,都离不开数据挖掘。本文将介绍十大经典数据挖掘算法及其应用场景、优缺点。
2024-12-31 14:43:11
773
原创 OpenCV自动滑块验证(Java版)
爬与防爬就是一场“道高一尺,魔高一丈”的拉力赛,双方都在见招拆招。时至今日,较为常见的防爬手段有手机短信验证、滑块验证、按顺序点击图片验证等。本文主要介绍滑块验证的应对之法。
2024-10-31 11:54:51
512
2
原创 数据资产管理,到底管什么?
数据资产是数据中台的重要根基,没有资产的数据中台是无源之水,就只能叫作数据工具。在数据中台架构中,数据资产建设、管理、治理是重头戏。
2024-09-30 13:54:53
1252
原创 网页正文提取算法:行块分布算法 & Readability
爬取百度、搜狗、必应等搜索引擎时,详情页的正文因来源多样而无法简单通过通用的规则来匹配,这就需要相关的提取算法。本文在此介绍两种网页正文提取算法:行块分布算法 & Readability。
2024-08-30 11:50:12
835
1
原创 MySQL中的触发器Trigger用法解析
这篇文章主要介绍了MySQL中的触发器trigger用法解析,触发器是由事件来触发某个操作,这些事件包括 INSERT、UPDATE、DELETE事件,事件就是指用户的动作或者触发某项行为。
2024-05-31 18:13:17
1184
原创 常用加密算法介绍与比较
加密算法分对称加密和非对称算法,其中对称加密算法的加密与解密密钥相同,非对称加密算法的加密密钥与解密密钥不同,此外,还有一类不需要密钥的散列算法。
2024-04-30 16:13:03
954
原创 LSTM预测股票走势的原理
LSTM算法是一种重要的目前使用最多的时间序列算法,是一种特殊的RNN(Recurrent Neural Network,循环神经网络),能够学习长期的依赖关系。主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。
2024-03-01 17:18:47
1711
原创 一种手机短信验证码登录平台的解决方案
爬取数据时,请求需要带上Cookie,这是很常见的一种防爬手段。更新Cookie,常用的方法就是Selenium模拟输入用户名和密码;偶尔会遇到图片验证码,现在打码平台很多且技术也很成熟,这个已经不成问题。所谓“道高一尺,魔高一丈”,频繁访问且不断切换IP的账号,平台考虑减少误杀的情况,不可能直接封号,那就只能在登录上设置障碍;正常账号输入手机短信验证码就应运而出了。
2024-01-31 15:05:15
612
转载 Kettle 浅入浅出
Kettle(水壶)是一款国外开源的 ETL 工具,现在已经更名为 PDI,Pentaho Data Integration-Pentaho 的缩写,由纯 java 编写,可以在 Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定。它可以处理各种异构数据库中的数据,并且提供了可视化图形界面的方式进行操作,让你思路主要关注在如果处理数据上,而不是如何实现处理的过程。
2023-12-01 14:37:24
1336
1
原创 基于APP数据爬取的运行环境
数据爬取本就是“道高一尺,魔高一丈”;越往后,爬取越接近于真实,真实包含了真实的运行环境(不再是简单地伪造请求、User-Agent和Cookie等)和真实的操作流程。本文对APP的运行环境做了简单梳理以供参考。
2023-09-28 17:24:04
243
原创 浅入浅出MySQL事务
事务是由数据库中一系列的访问和更新组成的逻辑执行单元。事务的逻辑单元中可以是一条SQL语句,也可以是一段SQL逻辑,这段逻辑要么全部执行成功,要么全部执行失败。
2023-07-31 15:33:43
605
原创 浅入浅出Java锁
做分布式爬虫时,结合已有的架构,直接对某网站的详情页进行了爬取;尴尬的是,某网站需先采集列表页,之后才能采集详情页;这种防爬手段使用了用户行为监控,行为异常的访问直接就给屏蔽了。对于这种情况,既要满足分布式的性能要求,又要模拟合理的用户行为,程序中就要对列表页的访问加锁。
2023-06-30 16:25:47
254
原创 MySQL 视图 浅入浅出
视图(view)是一个虚拟表,非真实存在,其本质是根据SQL语句获取动态的数据集,并为其命名,用户使用时只需使用视图名称即可获取结果集,并可以将其当作表来使用。数据库中只存放了视图的定义,而并没有存放视图中的数据。这些数据存放在原来的表中。使用视图查询数据时,数据库系统会从原来的表中取出对应的数据。因此,视图中的数据是依赖于原来的表中的数据的。一旦表中的数据发生改变,显示在视图中的数据也会发生改变。
2023-05-31 20:53:38
534
原创 有关微信公众号文章的那些事儿(Spider版)
政府类舆情监控系统少不了对政府类微信公众号文章的爬取。常用的方式有两种:一种是个人微信账号爬取,一种是个人公众号爬取。
2023-03-31 12:07:29
531
原创 PDF提取图片和表格
公司其它部门同事有一批PDF文件,希望能从这批PDF文件中提取出图片和表格。图片的提取,可以使用spire.pdf(官网:https://www.e-iceblue.cn);测试下来,效果OK。表格的提取,没有现成的工具,依据PDF的特点,表格的字段和布局规范,可通过坐标(x,y)来识别并提取。提取时,需对捕捉到的错列、错行等异常进行人工处理。
2023-02-28 14:37:27
646
原创 基于多元线性回归去除图片水印(Java版)
Java自带的工具可以对图片指定位置(x,y)的颜色(r,g,b)进行替换。如果图片上下左右颜色一致,则可进行颜色区间的简单替换。如果图片颜色不一致,这就需要算法来识别图片中的水印部分。
2023-01-30 15:56:16
1715
2
原创 Scrapy 浅入浅出
提到爬虫框架,除了各个公司自己开发的爬虫系统外,公共框架部分自然就会提到 Scrapy,它是一款非常强大的分布式异步爬虫框架。本文就讲讲 Scrapy 的简单使用。
2022-12-30 16:04:22
459
原创 SpringMVC的使用
AWS MVC框架是一个基于请求驱动的Web框架,使用了前端控制器模式来进行设计,再根据请求映射规则分发给相应的后端逻辑控制器(动作/处理器)进行处理。AWS MVC框架的使用方法类似于SpringMVC框架,本文因此介绍一些SpringMVC的使用方法。
2022-12-01 17:13:26
157
原创 FastDfs分布式文件系统集群搭建及Java客户端使用
FastDfs是一个开源高性能分布式文件系统。它的主要功能包括:文件存储、文件同步和文件访问(文件上传和文件下载),它可以解决高容量和负载平衡问题。FastDfs应满足基于照片共享网站和视频共享网站等文件的网站的要求。
2022-10-31 15:52:55
1640
原创 基于OpenCV的多图片去重叠拼接(Java版)
数据采集中,尤其是时效性敏感的数据,比如:微博热搜,这类“过了这个村就没有这个店”的数据,为了证明当时数据采集的准确性与完整性,最直接有效的办法就是保留当时采集的网页页面。本文主要交流点,Appium模拟操作截屏需要滑动时,如何得到一张无缝的完整长图。基本思路:图片截取->计算截取后图片的差异值->取最小差异值的截取位置进行截取->对截取图片进行拼接。因为微博热搜有所谓的“页眉”,所以会有一个去“页眉”的截取步骤。
2022-09-30 16:58:14
2436
4
原创 浅谈网络爬虫中广度优先算法和深度优先算法
网络爬虫中广度优先算法和深度优先算法,理论比较简单,实现也比较容易,适用于常规的新闻类网站。对于数据以接口形式加载的网站,通用性不高;除非使用Selenium等模拟浏览器的方式将样式和数据渲染进网页后,在使用相关的算法进行操作。这种方法可行,但如果有效率限制的话,成本会非常高。...
2022-07-29 16:06:50
1939
原创 Spring Boot 注解梳理
使用注解的优势:采用纯java代码,不再需要配置繁杂的xml文件;在配置中也可享受面向对象带来的好处;类型安全对重构可以提供良好的支持;减少复杂配置文件的同时亦能享受到spring IoC容器提供的功能。
2022-05-03 14:25:13
178
原创 SpringBoot整合SpringSecurity实现JWT认证
微服务架构,前后端分离目前已成为互联网项目开发的业界标准,其核心思想就是前端(APP、小程序、H5页面等)通过调用后端的API接口,提交及返回JSON数据进行交互。在前后端分离项目中,首先要解决的就是登录及授权的问题。微服务架构下,传统的session认证限制了应用的扩展能力,无状态的JWT认证方法应运而生,该认证机制特别适用于分布式站点的单点登录(SSO)场景。
2022-05-03 12:21:49
983
转载 那些有用但不为大家所熟知的 Java 特性
你喜欢 Java,想了解它最新的特性吗?如果是的话,你可以阅读我关于 Java 8 之后新特性的文章。接下来,在本文中你将会了解到八个不为大家熟知但是非常有用的特性。那我们开始吧!
2022-02-28 11:51:42
113
转载 小心陷入 MySQL 索引的坑
索引可以说是数据库中的一个大心脏了,如果说一个数据库少了索引,那么数据库本身存在的意义就不大了,和普通的文件没什么两样。所以说一个好的索引对数据库系统尤其重要,今天来说说 MySQL 索引,从细节和实际业务的角度看看在 MySQL 中 B+ 树索引好处,以及我们在使用索引时需要注意的知识点。
2022-01-27 15:55:00
287
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人