自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Spring Boot Web 应用开发实战指南

在 Java 开发领域,Spring Boot 以其快速构建、简化配置的特性,成为众多开发者构建 Web 应用的首选框架。它极大地降低了 Spring 应用开发的门槛,让开发者能够更专注于业务逻辑的实现。本文将带你从零开始,一步步完成一个 Spring Boot Web 应用的开发,助你快速入门 Spring Boot 开发。

2025-06-27 10:29:46 583

原创 基于 Spark 的新能源汽车大数据离线分析实践:模拟数据生成与 HDFS 存储

RDD(Resilient Distributed Dataset)是 Spark 的核心数据结构,它代表一个不可变的、分区的分布式数据集,支持并行计算。容错性:通过记录数据变换历史(血统关系)实现故障恢复分区特性:数据分散存储在集群节点上,支持并行处理懒执行:转换操作不会立即执行,仅在行动操作时触发计算本文通过新能源汽车数据模拟生成案例,深入探讨了 Spark 生态技术在大数据离线分析中的应用。

2025-06-19 15:08:01 880

原创 基于 XPath 的当当网图书信息爬虫实践

python运行# 请求头:模拟浏览器身份,绕过基础反爬Win64;products = [] # 存储图书数据的“容器”,每个元素是一本图书的信息字典max_retries = 5 # 请求重试次数上限,应对网络波动、短暂封禁参数设计考量keyword需提前做 URL 编码(如 “大数据” 转),贴合当当网搜索接口规则;pages设置默认值 2,既满足简单采集需求,又支持灵活扩展爬取深度。headers的隐藏作用:除模拟浏览器,部分网站会校验User-AgentReferer。

2025-06-17 09:22:04 1508

原创 深入解析Hadoop生态系统中的HBase:架构、操作与实践

命名空间(NameSpace):类似于关系型数据库中的database概念,用于对表进行业务划分,方便组织和管理表。例如,可以根据不同的业务模块或项目创建不同的命名空间,将相关的表放在同一个命名空间下。表(Table):类似关系型数据库中的table表概念,但在HBase中定义表时只需声明列族,无需预先定义具体的列。这使得HBase在处理半结构化和非结构化数据时具有更大的灵活性,能够适应不断变化的数据结构。列(Column)

2024-11-18 15:30:46 710

原创 回归分析应用

在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和。

2024-11-02 17:40:42 242

原创 数据可视化 Echarts绘图

不同的数据可视化类型和软件具有各自的特点和优势,在选择时,需要考虑数据的特点、使用场景、用户的技术水平以及软件的功能、易用性、成本等因素,以满足具体的需求。ECharts 是一款由百度开发的开源的JavaScript可视化库,旨在提供直观、生动、可交互、可高度个性化定制的数据可视化图表。它支持折线图、柱状图、散点图、饼图、K线图、地图、词云图等多种图表,并且能够处理大数据量的实时数据流。ECharts 的设计考虑到了移动设备的适配,支持多种设备和平台,同时提供了丰富的图表动画和交互能力。

2024-11-02 00:06:35 124

原创 MongoDB的副本集及分片综合应用

在Mongodb里面存在另一种集群,就是分片技术,可以满足MongoDB数据量大量增长的需求。当MongoDB存储海量的数据时,一台机器可能不足以存储数据,也可能不足以提供可接受的读写吞吐量。这时,我们就可以通过在多台机器上分割数据,使得数据库系统能存储和处理更多的数据。副本集就是为了解决mongodb的可靠性, MongoDB复制是将数据同步在多个服务器的过程。复制提供了数据的冗余备份,并在多个服务器上存储数据副本,提高了数据的可用性,并可以保证数据的安全性。复制还允许您从硬件故障和服务中断中恢复数据。

2024-04-23 16:56:58 979

原创 mongodb的介绍与基本操作

mongoDB是一个基于分布式文件存储的数据库,由C++语言编写,旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。它介于关系数据库和非关系数据库之间,被认为是非关系数据库当中功能最丰富,最像关系数据库的产品。

2024-04-20 16:49:15 1206

原创 MongoDB副本集部署(windows)

bin>mongod -port 端口号 -dbpath 数据路径 -logpath 日志路径 -replSet 副本集名称。说明:第一个“_id”为副本集名称,“priority”为优先级,数字越大,优先级越高。每一个节点(实例)都创建对应的数据文件(data)和日志文件(log)。(明明是主节点,但却显示从节点)

2024-04-17 16:40:36 1149

原创 Python Numpy的切片和索引及使用

索引是指对一个容器类型(例如序列、字符串)中元素的编号,可以通过这些编号来访问或修改容器类型中的元素。在Python中,容器类型的索引起始值为0,即第一个元素的索引为0,第二个元素的索引为1,以此类推。NumPy是一个强大的Python库,用于科学计算和数据分析,它提供了用于处理多维数组的功能。数组切片是一种在NumPy中常用的技术,用于获取数组的子集。让我们逐步介绍NumPy数组切片的格式、用法和示例代码。

2024-04-17 15:39:17 1344

原创 NoSQL分工 MongoDB数据库分片

重新打开mongodb服务,即可像原来一样使用,但是数据存储方式和原来已经不一样了,变成了分布 式的分片存储。

2024-04-16 18:15:58 953

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除