自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(179)
  • 收藏
  • 关注

原创 【数据工程】 11.空间数据工程(Spatial Data Engineering)

空间数据工程摘要(146字) 空间数据工程处理具有地理位置属性的信息,广泛应用于地图服务、GIS系统和位置感知应用。核心在于高效存储、查询和分析空间数据,通过SDBMS和GIS系统实现。空间数据类型包括点、线和面,采用OGC标准化模型表示。PostgreSQL/PostGIS提供完整空间支持,包括几何运算和R-Tree索引。轻量级方案如DuckDB适合分析场景。关键技术涉及坐标系统、拓扑关系(九交模型)和空间索引优化,支撑从定位服务到地理大数据分析的各种应用场景。

2025-09-17 10:01:49 765

原创 【数据工程】 10. 半结构化数据与 NoSQL 数据库

本文介绍了半结构化数据和NoSQL数据库的核心概念。主要内容包括:(1)半结构化数据的特点,如XML、JSON等非刚性结构数据;(2)XML与JSON的语法差异及典型应用场景;(3)半结构化数据的存储方式,包括文件存储和数据库存储;(4)NoSQL数据库的分类及其与关系型数据库的区别,重点分析了MongoDB的文档存储模型。文章通过对比结构化与半结构化数据的特点,阐明了NoSQL数据库在灵活性、扩展性方面的优势,为数据存储方案选择提供了参考。

2025-09-16 23:06:00 527

原创 【数据工程】9. Web Scraping 与 Web API

本文介绍了Web数据获取的两种主要方法:Web API调用和网页抓取(Web Scraping)。Web API提供结构化数据(JSON/XML),包括公共、注册、合作和第三方接口。网页抓取则通过解析HTML获取数据,常用Python库包括requests、BeautifulSoup、Scrapy和Selenium。文章详细讲解了HTTP请求(GET/POST)、URL结构、HTML/DOM解析方法,并提供了使用BeautifulSoup提取表格数据、CSS选择器定位元素、多页爬取等实用代码示例。最后强调了

2025-09-16 13:39:29 787

原创 【数据工程】8. SQL 入门教程

本文介绍了SQL基础操作,包括SELECT基本查询、WHERE条件过滤、ORDER BY排序、GROUP BY分组及聚合函数(MAX/MIN/AVG/SUM/COUNT)的使用。重点对比了WHERE和HAVING的区别:WHERE在分组前行过滤,HAVING在分组后组过滤。详细讲解了三种外连接(LEFT/RIGHT/FULL OUTER JOIN)的特点:保留单边/双边数据并用NULL补足缺失值。通过具体示例演示了分组统计、多表连接等常见SQL操作技巧。

2025-09-16 12:39:32 230

原创 【数据工程】7. OLTP 与 OLAP:操作型系统与分析型系统(Operational Systems vs Analytical Systems)

摘要 OLTP和OLAP是现代企业数据系统的两大核心类型。OLTP(在线事务处理)系统专注于实时交易处理,如银行转账、订单系统,特点是快速、精确的点查询和严格的数据一致性。OLAP(在线分析处理)系统则面向商业智能分析,处理历史数据聚合和多维查询,支持上卷、下钻等操作。数据仓库作为OLAP的基础,采用星型/雪花模式组织数据。ETL(抽取-转换-加载)和ELT(抽取-加载-转换)是两种主要数据处理流程,ELT凭借其灵活性和可扩展性日益成为主流。两类系统协同工作,分别满足企业的实时运营需求和战略分析需求。

2025-09-16 08:52:13 653

原创 【数据工程】6. 数据库、数据仓库与数据湖 (Databases, Data Warehouses and Data Lakes)

现代数据工程中,数据库系统是核心基础设施。数据来源多样,包括文件、数据库API和日志流等。关系型数据库通过表格结构存储数据,采用主外键关联表,确保数据一致性和完整性。数据库方法具有集中管理、质量可控、共享高效等优势。NoSQL数据库则适用于非结构化数据场景。数据仓库(如Snowflake)用于分析,数据湖(如Hadoop)存储原始数据。规范化的关系型设计(如水文站示例)能有效减少冗余。不同数据库系统各具特点,企业需根据业务需求选择合适方案。

2025-09-16 07:47:59 775

原创 【数据工程】5. 数据清洗与可视化示例

本文展示了一个完整的数据分析流程,从音乐播放数据集wrkData.csv的读取处理到可视化分析。首先通过Pandas读取数据并统一缺失值标记,然后进行类型转换和衍生列创建。接着演示了数据筛选、排序和聚合统计方法,最后使用Matplotlib和Seaborn绘制了多种图表(柱状图、直方图、散点图等)来探索数据特征。整个过程覆盖了数据清洗、转换、聚合到可视化的关键步骤,为中小型数据集的分析提供了可复用的工作流模板。

2025-09-16 06:31:45 334

原创 【数据工程】4. 数据清洗 (Data Cleaning)

数据清洗是确保数据分析可靠性的关键环节,直接影响"垃圾进,垃圾出"的结论质量。数据质量五大核心属性包括可信度、增值性、相关性、准确性和可解释性。常见数据问题分为四类:缺失值(需删除或填补)、默认值(应替换为缺失值)、错误值(需删除或修正)和不一致值(需统一格式)。通过系统化的清洗流程,可确保数据在分析和建模中的一致性、可靠性,为决策提供坚实基础。数据清洗工作需结合领域知识,使用统计方法和专业工具进行检测处理。

2025-09-16 06:03:43 467

原创 【数据工程】 3. 数据采集

下游需求与源能力推/拉/轮询,批处理 vs 流处理性能(吞吐量、延迟、可扩展性)安全、隐私、数据运维和编排工程实践与版本控制数据采集不仅是技术任务,更是系统工程,需要兼顾性能、治理与长期可持续性。

2025-09-16 05:56:26 544

原创 【数据工程】 2. Unix 基础与文件操作

本文介绍了Unix命令行工具在数据处理中的高效应用。从Unix发展简史讲起,重点讲解了文件系统导航、内容查看、输出重定向等基础操作,以及管道、正则表达式、sed和awk等高级文本处理技术。这些工具组合使用可实现数据浏览、过滤、排序和复杂文本处理,为数据分析和自动化管道提供强大支持。文章强调Unix命令行区分大小写、操作精准的特点,并提供了常用命令参考表,帮助读者快速掌握这一高效数据处理方法。

2025-09-15 21:30:05 731

原创 【数据工程】1. 从零开始理解 Data Engineering:角色、管道与存储选择

数据工程是企业数字化转型的核心力量,数据工程师分为抽象型(快速落地)和构建型(深度定制),以及面向内部(支持决策)和外部(改善体验)两种角色。他们连接上下游系统,协调管理层,构建数据管道(采集、清洗、存储、服务)。存储选型需平衡性能、扩展性和合规性,而数据服务阶段是价值实现的关键。随着数据复杂度提升,数据工程师成为企业数据战略的核心推动者,需在不同环节精心设计以支持多种应用场景。

2025-09-15 21:20:23 936

原创 矩阵运算与python基础

这篇博客整理了矩阵运算中常见的几个核心概念,包括和。适合刚开始学习矩阵的小伙伴。

2025-09-14 21:39:25 610

原创 【高级机器学习】 4. 假设复杂度与泛化理论详解

本文系统介绍了机器学习中的假设复杂度与泛化理论。首先分析了最优分类器定义和替代损失函数(如合页损失、逻辑损失等)的数学特性。接着详细讲解了梯度下降优化方法及其收敛速度分析。然后重点讨论了假设类与泛化理论的关系,提出误差分解为近似误差和估计误差,并介绍了PAC学习框架。最后阐述了集中不等式(如Hoeffding不等式)和VC维理论,解释了如何通过增长函数和打散概念来量化假设类的表达能力。全文揭示了假设复杂度与泛化性能之间的理论联系,为理解机器学习模型的泛化能力提供了理论基础。

2025-08-30 23:20:12 1014

原创 【高级机器学习】3. Convex Optimisation

本文介绍了凸优化的基本概念与方法。主要内容包括:1)凸集与凸组合的定义,通过几何示例说明凸集特性;2)凸函数的定义及其可微、二阶可微时的判别条件;3)凸函数的运算闭合性,如非负加权和、最大值等保持凸性;4)无约束优化的梯度下降法及其收敛性分析;5)约束优化问题的基本形式。文章系统阐述了凸优化在机器学习中的基础理论,为后续学习优化算法和拉格朗日对偶性奠定了基础。

2025-08-27 20:52:12 745

原创 【高级机器学习】 2. Loss Functions(损失函数)

本文介绍了机器学习中替代损失函数(surrogate loss)的概念与应用。主要内容包括:1) 解释为何需要替代损失函数,即0-1损失的优化困难;2) 介绍常见替代损失如Hinge、Logistic、Exponential和Square损失及其特性;3) 讨论分类校准性,即替代损失是否能保证与0-1损失一致的最优分类器;4) 分析不同损失函数在凸性、梯度特性、鲁棒性和概率解释等方面的差异;5) 总结如何选择适合的损失函数进行模型训练。文章为机器学习实践提供了损失函数选择的系统性指导。

2025-08-27 14:26:07 940

原创 【高级机器学习】1. Hypothesis 与 Objective Function

本文探讨了机器学习中的假设(Hypothesis)与目标函数(Objective Function)概念。假设分为宏观模型结构和微观参数组合两个层次,训练过程即在假设空间中寻找最佳假设。目标函数用于衡量假设好坏,理想情况下应最小化真实分布下的期望损失,但由于真实分布未知,实践中采用经验风险最小化(ERM)方法,通过有限样本近似真实分布。文章还指出0-1 Loss不可导等实际挑战,并强调大数定律和大数据对深度学习的重要性。

2025-08-27 13:56:33 566

原创 【NLP】 38. Agent

一个 Agent 就是能够理解、思考,并且进行世界交互的模型系统,并不是纯粹的 prompt 返回器。读取外部数据(文件/API)使用记忆进行上下文维持用类Chain-of-Thought (CoT)方式进行多段思考使用工具(调用接口)进行行动Agent= LLM + memory + tools + 世界交互ReAct是一种 prompt-based agent 实现方案Acting= 超越 token generation,进行世界操作。

2025-06-08 01:17:32 994

原创 【统计方法】蒙特卡洛

蒙特卡洛

2025-06-04 18:30:21 1807

原创 【统计方法】树模型,ensemble,bagging, boosting

树模型

2025-06-04 15:42:55 1223

原创 【统计方法】基础分类器: logistic, knn, svm, lda

基础分类器

2025-06-04 01:06:24 731

原创 【深度学习】 19. 生成模型:Diffusion Models

Diffusion Models

2025-06-01 21:25:05 1175

原创 【深度学习】18. 生成模型:Variational Auto-Encoder(VAE)详解

Variational Auto-Encoder(VAE)详解

2025-06-01 02:08:04 1147

原创 【深度学习】17. 深度生成模型:DCGAN与Wasserstein GAN公式深度推导

深度生成模型:DCGAN与Wasserstein GAN公式深度推导

2025-06-01 00:58:23 1149

原创 【深度学习】16. Deep Generative Models:生成对抗网络(GAN)

Deep Generative Models:生成对抗网络(GAN)

2025-05-31 23:36:24 1230

原创 【深度学习】15. Segment Anything Model (SAM) :基于提示的分割新时代

Segment Anything Model (SAM) :基于提示的分割新时代

2025-05-31 19:48:08 1213

原创 【深度学习】14. DL在CV中的应用章:目标检测: R-CNN, Fast R-CNN, Faster R-CNN, MASK R-CNN

DL在CV中的应用章:目标检测: R-CNN, Fast R-CNN, Faster R-CNN, MASK R-CNN

2025-05-31 19:01:45 1114

原创 【深度学习】13. 图神经网络GCN,Spatial Approach, Spectral Approach

图神经网络GCN,Spatial Approach, Spectral Approach

2025-05-30 00:18:09 1624

原创 【深度学习】12. VIT与GPT 模型与语言生成:从 GPT-1 到 GPT4

VIT与GPT 模型与语言生成:从 GPT-1 到 GPT4

2025-05-29 16:39:33 1511

原创 【深度学习】11. Transformer解析: Self-Attention、ELMo、Bert、GPT

Transformer: Self-Attention、ELMo、Bert、GPT

2025-05-29 16:15:35 1135

原创 【深度学习】10. 深度推理(含链式法则详解)RNN, LSTM, GRU,VQA

深度推理(含链式法则详解)RNN, LSTM, GRU,VQA

2025-05-28 22:55:36 1093

原创 【深度学习-pytorch篇】5. 卷积神经网络与LLaMA分类模型

卷积神经网络与LLaMA分类模型

2025-05-28 16:07:29 538

原创 【深度学习-pytorch篇】4. 正则化方法(Regularization Techniques)

正则化方法(Regularization Techniques)

2025-05-28 15:42:51 1016

原创 【深度学习-pytorch篇】3. 优化器实现:momentum,NAG,AdaGrad,RMSProp,Adam

优化器实现:momentum,NAG,AdaGrad,RMSProp,Adam

2025-05-28 15:22:08 1339

原创 【深度学习-pytorch篇】2. Activation, 多层感知机与LLaMA中的MLP实现解析

Activation, 多层感知机与LLaMA中的MLP实现解析

2025-05-28 14:56:39 1222

原创 【深度学习-pytorch篇】1. Pytorch矩阵操作与DataSet创建

Pytorch矩阵操作与DataSet创建

2025-05-28 14:38:15 1256

原创 【深度学习】9. CNN性能提升-轻量化模型专辑:SqueezeNet / MobileNet / ShuffleNet / EfficientNet

SqueezeNet / MobileNet / ShuffleNet / EfficientNet

2025-05-27 23:25:44 1549

原创 【深度学习】8. GoogleNet, ResNet, Inception系列,Xception, Wide ResNet,ResNeXt, DenseNet详解

GoogleNet, ResNet, Inception系列,Xception, Wide ResNet,ResNeXt, DenseNet详解

2025-05-27 23:06:03 1583

原创 【深度学习】7. 深度卷积神经网络架构:从 ILSVRC、LeNet 到 AlexNet、ZFNet、VGGNet,含pytorch代码结构

深度卷积神经网络架构:从 ILSVRC、LeNet 到 AlexNet、ZFNet、VGGNet,含pytorch代码结构

2025-05-27 21:06:58 1146

原创 【深度学习】6. 卷积神经网络,CNN反向传播,感受野,池化变种,局部连接机制,可视化实例

卷积神经网络,CNN反向传播,感受野,池化变种,局部连接机制,可视化实例

2025-05-26 19:53:44 1260

原创 【深度学习】5. 正则化方法:从 Weight Decay 到 BatchNorm、GroupNorm, Dropout、DropConnect, Early Stopping 与归一化技术

本文系统梳理了深度学习中各类正则化方法,包括:- 显式正则化:L1/L2 正则、Weight Decay、Bayesian 视角下的先验项- 训练过程正则化:Early Stopping、输入加噪、Dropout、DropConnect- 网络结构正则化:数据增强、标签平滑、模型稀疏性控制- 归一化机制:BatchNorm、LayerNorm、GroupNorm 等在不同任务下的效果对比

2025-05-26 15:56:12 958

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除