- 博客(179)
- 收藏
- 关注
原创 【数据工程】 11.空间数据工程(Spatial Data Engineering)
空间数据工程摘要(146字) 空间数据工程处理具有地理位置属性的信息,广泛应用于地图服务、GIS系统和位置感知应用。核心在于高效存储、查询和分析空间数据,通过SDBMS和GIS系统实现。空间数据类型包括点、线和面,采用OGC标准化模型表示。PostgreSQL/PostGIS提供完整空间支持,包括几何运算和R-Tree索引。轻量级方案如DuckDB适合分析场景。关键技术涉及坐标系统、拓扑关系(九交模型)和空间索引优化,支撑从定位服务到地理大数据分析的各种应用场景。
2025-09-17 10:01:49
765
原创 【数据工程】 10. 半结构化数据与 NoSQL 数据库
本文介绍了半结构化数据和NoSQL数据库的核心概念。主要内容包括:(1)半结构化数据的特点,如XML、JSON等非刚性结构数据;(2)XML与JSON的语法差异及典型应用场景;(3)半结构化数据的存储方式,包括文件存储和数据库存储;(4)NoSQL数据库的分类及其与关系型数据库的区别,重点分析了MongoDB的文档存储模型。文章通过对比结构化与半结构化数据的特点,阐明了NoSQL数据库在灵活性、扩展性方面的优势,为数据存储方案选择提供了参考。
2025-09-16 23:06:00
527
原创 【数据工程】9. Web Scraping 与 Web API
本文介绍了Web数据获取的两种主要方法:Web API调用和网页抓取(Web Scraping)。Web API提供结构化数据(JSON/XML),包括公共、注册、合作和第三方接口。网页抓取则通过解析HTML获取数据,常用Python库包括requests、BeautifulSoup、Scrapy和Selenium。文章详细讲解了HTTP请求(GET/POST)、URL结构、HTML/DOM解析方法,并提供了使用BeautifulSoup提取表格数据、CSS选择器定位元素、多页爬取等实用代码示例。最后强调了
2025-09-16 13:39:29
787
原创 【数据工程】8. SQL 入门教程
本文介绍了SQL基础操作,包括SELECT基本查询、WHERE条件过滤、ORDER BY排序、GROUP BY分组及聚合函数(MAX/MIN/AVG/SUM/COUNT)的使用。重点对比了WHERE和HAVING的区别:WHERE在分组前行过滤,HAVING在分组后组过滤。详细讲解了三种外连接(LEFT/RIGHT/FULL OUTER JOIN)的特点:保留单边/双边数据并用NULL补足缺失值。通过具体示例演示了分组统计、多表连接等常见SQL操作技巧。
2025-09-16 12:39:32
230
原创 【数据工程】7. OLTP 与 OLAP:操作型系统与分析型系统(Operational Systems vs Analytical Systems)
摘要 OLTP和OLAP是现代企业数据系统的两大核心类型。OLTP(在线事务处理)系统专注于实时交易处理,如银行转账、订单系统,特点是快速、精确的点查询和严格的数据一致性。OLAP(在线分析处理)系统则面向商业智能分析,处理历史数据聚合和多维查询,支持上卷、下钻等操作。数据仓库作为OLAP的基础,采用星型/雪花模式组织数据。ETL(抽取-转换-加载)和ELT(抽取-加载-转换)是两种主要数据处理流程,ELT凭借其灵活性和可扩展性日益成为主流。两类系统协同工作,分别满足企业的实时运营需求和战略分析需求。
2025-09-16 08:52:13
653
原创 【数据工程】6. 数据库、数据仓库与数据湖 (Databases, Data Warehouses and Data Lakes)
现代数据工程中,数据库系统是核心基础设施。数据来源多样,包括文件、数据库API和日志流等。关系型数据库通过表格结构存储数据,采用主外键关联表,确保数据一致性和完整性。数据库方法具有集中管理、质量可控、共享高效等优势。NoSQL数据库则适用于非结构化数据场景。数据仓库(如Snowflake)用于分析,数据湖(如Hadoop)存储原始数据。规范化的关系型设计(如水文站示例)能有效减少冗余。不同数据库系统各具特点,企业需根据业务需求选择合适方案。
2025-09-16 07:47:59
775
原创 【数据工程】5. 数据清洗与可视化示例
本文展示了一个完整的数据分析流程,从音乐播放数据集wrkData.csv的读取处理到可视化分析。首先通过Pandas读取数据并统一缺失值标记,然后进行类型转换和衍生列创建。接着演示了数据筛选、排序和聚合统计方法,最后使用Matplotlib和Seaborn绘制了多种图表(柱状图、直方图、散点图等)来探索数据特征。整个过程覆盖了数据清洗、转换、聚合到可视化的关键步骤,为中小型数据集的分析提供了可复用的工作流模板。
2025-09-16 06:31:45
334
原创 【数据工程】4. 数据清洗 (Data Cleaning)
数据清洗是确保数据分析可靠性的关键环节,直接影响"垃圾进,垃圾出"的结论质量。数据质量五大核心属性包括可信度、增值性、相关性、准确性和可解释性。常见数据问题分为四类:缺失值(需删除或填补)、默认值(应替换为缺失值)、错误值(需删除或修正)和不一致值(需统一格式)。通过系统化的清洗流程,可确保数据在分析和建模中的一致性、可靠性,为决策提供坚实基础。数据清洗工作需结合领域知识,使用统计方法和专业工具进行检测处理。
2025-09-16 06:03:43
467
原创 【数据工程】 3. 数据采集
下游需求与源能力推/拉/轮询,批处理 vs 流处理性能(吞吐量、延迟、可扩展性)安全、隐私、数据运维和编排工程实践与版本控制数据采集不仅是技术任务,更是系统工程,需要兼顾性能、治理与长期可持续性。
2025-09-16 05:56:26
544
原创 【数据工程】 2. Unix 基础与文件操作
本文介绍了Unix命令行工具在数据处理中的高效应用。从Unix发展简史讲起,重点讲解了文件系统导航、内容查看、输出重定向等基础操作,以及管道、正则表达式、sed和awk等高级文本处理技术。这些工具组合使用可实现数据浏览、过滤、排序和复杂文本处理,为数据分析和自动化管道提供强大支持。文章强调Unix命令行区分大小写、操作精准的特点,并提供了常用命令参考表,帮助读者快速掌握这一高效数据处理方法。
2025-09-15 21:30:05
731
原创 【数据工程】1. 从零开始理解 Data Engineering:角色、管道与存储选择
数据工程是企业数字化转型的核心力量,数据工程师分为抽象型(快速落地)和构建型(深度定制),以及面向内部(支持决策)和外部(改善体验)两种角色。他们连接上下游系统,协调管理层,构建数据管道(采集、清洗、存储、服务)。存储选型需平衡性能、扩展性和合规性,而数据服务阶段是价值实现的关键。随着数据复杂度提升,数据工程师成为企业数据战略的核心推动者,需在不同环节精心设计以支持多种应用场景。
2025-09-15 21:20:23
936
原创 【高级机器学习】 4. 假设复杂度与泛化理论详解
本文系统介绍了机器学习中的假设复杂度与泛化理论。首先分析了最优分类器定义和替代损失函数(如合页损失、逻辑损失等)的数学特性。接着详细讲解了梯度下降优化方法及其收敛速度分析。然后重点讨论了假设类与泛化理论的关系,提出误差分解为近似误差和估计误差,并介绍了PAC学习框架。最后阐述了集中不等式(如Hoeffding不等式)和VC维理论,解释了如何通过增长函数和打散概念来量化假设类的表达能力。全文揭示了假设复杂度与泛化性能之间的理论联系,为理解机器学习模型的泛化能力提供了理论基础。
2025-08-30 23:20:12
1014
原创 【高级机器学习】3. Convex Optimisation
本文介绍了凸优化的基本概念与方法。主要内容包括:1)凸集与凸组合的定义,通过几何示例说明凸集特性;2)凸函数的定义及其可微、二阶可微时的判别条件;3)凸函数的运算闭合性,如非负加权和、最大值等保持凸性;4)无约束优化的梯度下降法及其收敛性分析;5)约束优化问题的基本形式。文章系统阐述了凸优化在机器学习中的基础理论,为后续学习优化算法和拉格朗日对偶性奠定了基础。
2025-08-27 20:52:12
745
原创 【高级机器学习】 2. Loss Functions(损失函数)
本文介绍了机器学习中替代损失函数(surrogate loss)的概念与应用。主要内容包括:1) 解释为何需要替代损失函数,即0-1损失的优化困难;2) 介绍常见替代损失如Hinge、Logistic、Exponential和Square损失及其特性;3) 讨论分类校准性,即替代损失是否能保证与0-1损失一致的最优分类器;4) 分析不同损失函数在凸性、梯度特性、鲁棒性和概率解释等方面的差异;5) 总结如何选择适合的损失函数进行模型训练。文章为机器学习实践提供了损失函数选择的系统性指导。
2025-08-27 14:26:07
940
原创 【高级机器学习】1. Hypothesis 与 Objective Function
本文探讨了机器学习中的假设(Hypothesis)与目标函数(Objective Function)概念。假设分为宏观模型结构和微观参数组合两个层次,训练过程即在假设空间中寻找最佳假设。目标函数用于衡量假设好坏,理想情况下应最小化真实分布下的期望损失,但由于真实分布未知,实践中采用经验风险最小化(ERM)方法,通过有限样本近似真实分布。文章还指出0-1 Loss不可导等实际挑战,并强调大数定律和大数据对深度学习的重要性。
2025-08-27 13:56:33
566
原创 【NLP】 38. Agent
一个 Agent 就是能够理解、思考,并且进行世界交互的模型系统,并不是纯粹的 prompt 返回器。读取外部数据(文件/API)使用记忆进行上下文维持用类Chain-of-Thought (CoT)方式进行多段思考使用工具(调用接口)进行行动Agent= LLM + memory + tools + 世界交互ReAct是一种 prompt-based agent 实现方案Acting= 超越 token generation,进行世界操作。
2025-06-08 01:17:32
994
原创 【深度学习】18. 生成模型:Variational Auto-Encoder(VAE)详解
Variational Auto-Encoder(VAE)详解
2025-06-01 02:08:04
1147
原创 【深度学习】17. 深度生成模型:DCGAN与Wasserstein GAN公式深度推导
深度生成模型:DCGAN与Wasserstein GAN公式深度推导
2025-06-01 00:58:23
1149
原创 【深度学习】16. Deep Generative Models:生成对抗网络(GAN)
Deep Generative Models:生成对抗网络(GAN)
2025-05-31 23:36:24
1230
原创 【深度学习】15. Segment Anything Model (SAM) :基于提示的分割新时代
Segment Anything Model (SAM) :基于提示的分割新时代
2025-05-31 19:48:08
1213
原创 【深度学习】14. DL在CV中的应用章:目标检测: R-CNN, Fast R-CNN, Faster R-CNN, MASK R-CNN
DL在CV中的应用章:目标检测: R-CNN, Fast R-CNN, Faster R-CNN, MASK R-CNN
2025-05-31 19:01:45
1114
原创 【深度学习】13. 图神经网络GCN,Spatial Approach, Spectral Approach
图神经网络GCN,Spatial Approach, Spectral Approach
2025-05-30 00:18:09
1624
原创 【深度学习】11. Transformer解析: Self-Attention、ELMo、Bert、GPT
Transformer: Self-Attention、ELMo、Bert、GPT
2025-05-29 16:15:35
1135
原创 【深度学习】10. 深度推理(含链式法则详解)RNN, LSTM, GRU,VQA
深度推理(含链式法则详解)RNN, LSTM, GRU,VQA
2025-05-28 22:55:36
1093
原创 【深度学习-pytorch篇】4. 正则化方法(Regularization Techniques)
正则化方法(Regularization Techniques)
2025-05-28 15:42:51
1016
原创 【深度学习-pytorch篇】3. 优化器实现:momentum,NAG,AdaGrad,RMSProp,Adam
优化器实现:momentum,NAG,AdaGrad,RMSProp,Adam
2025-05-28 15:22:08
1339
原创 【深度学习-pytorch篇】2. Activation, 多层感知机与LLaMA中的MLP实现解析
Activation, 多层感知机与LLaMA中的MLP实现解析
2025-05-28 14:56:39
1222
原创 【深度学习】9. CNN性能提升-轻量化模型专辑:SqueezeNet / MobileNet / ShuffleNet / EfficientNet
SqueezeNet / MobileNet / ShuffleNet / EfficientNet
2025-05-27 23:25:44
1549
原创 【深度学习】8. GoogleNet, ResNet, Inception系列,Xception, Wide ResNet,ResNeXt, DenseNet详解
GoogleNet, ResNet, Inception系列,Xception, Wide ResNet,ResNeXt, DenseNet详解
2025-05-27 23:06:03
1583
原创 【深度学习】7. 深度卷积神经网络架构:从 ILSVRC、LeNet 到 AlexNet、ZFNet、VGGNet,含pytorch代码结构
深度卷积神经网络架构:从 ILSVRC、LeNet 到 AlexNet、ZFNet、VGGNet,含pytorch代码结构
2025-05-27 21:06:58
1146
原创 【深度学习】6. 卷积神经网络,CNN反向传播,感受野,池化变种,局部连接机制,可视化实例
卷积神经网络,CNN反向传播,感受野,池化变种,局部连接机制,可视化实例
2025-05-26 19:53:44
1260
原创 【深度学习】5. 正则化方法:从 Weight Decay 到 BatchNorm、GroupNorm, Dropout、DropConnect, Early Stopping 与归一化技术
本文系统梳理了深度学习中各类正则化方法,包括:- 显式正则化:L1/L2 正则、Weight Decay、Bayesian 视角下的先验项- 训练过程正则化:Early Stopping、输入加噪、Dropout、DropConnect- 网络结构正则化:数据增强、标签平滑、模型稀疏性控制- 归一化机制:BatchNorm、LayerNorm、GroupNorm 等在不同任务下的效果对比
2025-05-26 15:56:12
958
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人