自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一个不怎么正经的算法工程师的博客~不定期更新一些我所覆盖领域的干货~~~包你满意噢~~

这是聚焦算法技术的博客,分享机器学习、深度学习、优化算法等领域的经典解析与前沿实战,理论结合实战解析算法逻辑。面向不同阶段开发者,涵盖模型调参、算法优化等方向,致力于成为技术交流平台,助力各位算法技术成长与探索数据智能边界。

  • 博客(110)
  • 收藏
  • 关注

原创 数据标准化与归一化的区别与应用场景

数据标准化(Z-score 标准化)通过线性变换使数据均值为 0、标准差 1,保留原始分布形态,适用于依赖距离度量(如 KNN、SVM)或有异常值的数据。数据归一化(Min-Max 缩放)将数据压缩到固定区间(如 [0,1]),保持相对比例,适合神经网络和数值范围敏感的算法。主要区别在于标准化基于均值和标准差,归一化基于极值。标准化对异常值更稳健,而归一化保留物理意义。选择时需结合算法特性:标准化适合回归、PCA 等模型,归一化更适合神经网络和图像处理。

2025-08-09 22:55:21 551

原创 最强总结!十大非参数统计方法 (下)

本文介绍了5种机器学习核心算法原理与应用:1.支持向量机(SVM):基于最大间隔原则,通过核函数处理非线性数据,适用于高维分类/回归任务;2.最近邻图(NNG):构建数据相似性图结构,用于无监督学习中的聚类和降维;3.核主成分分析(KPCA):非线性PCA扩展,通过核技巧实现高维特征提取;4.自适应平滑法:动态调整局部平滑参数,适用于非均匀数据去噪;5.分位数回归:估计条件分位数而非均值,能分析变量在不同分布区间的异质性影响。这些方法各具特色,适用于不同数据特征的分析需求。

2025-08-09 20:49:10 627

原创 最强总结!十大非参数统计方法 (上)

非参数统计方法摘要 非参数统计方法不依赖数据分布假设,适用于未知分布、非正态数据或存在异常值的情况。本文介绍了K-近邻、核密度估计、非参数回归、决策树和随机森林等核心方法。K-近邻通过邻近样本投票预测,核密度估计用叠加核函数估计概率密度,非参数回归可拟合任意形状关系。决策树模拟人类决策过程,而随机森林通过多树集成提高准确性。这些方法灵活性高,能捕捉复杂模式,但计算成本较高。案例展示了各方法在分类、回归和特征分析中的应用,包括鸢尾花分类、数据密度估计和乳腺癌特征重要性分析。非参数方法在数据驱动的应用中日益重要

2025-08-08 23:24:50 824

原创 从学讲透一个强大算法模型,LightGBM !!

本文详细介绍了LightGBM的原理、优化技术和应用案例。LightGBM是一种高效的梯度提升决策树框架,具有速度快、内存占用低、准确度高等特点。其核心原理包括加法模型、梯度下降和叶子节点优化,通过Leaf-wise生长策略、直方图优化、GOSS采样和EFB特征捆绑四大关键技术实现性能提升。文章以UCI Adult数据集为例,演示了从数据预处理、EDA分析到模型训练、评估和超参数调优的全流程。实验结果显示,优化后的模型在测试集上准确率达到0.87,AUC为0.92,并通过特征重要性分析识别出关键预测变量。

2025-08-08 22:46:11 790

原创 什么是键值缓存?让 LLM 闪电般快速

KV缓存是大语言模型(LLMs)实现高效推理的关键技术。在自回归生成过程中,KV缓存通过存储历史token的键(K)和值(V)矩阵,避免了注意力机制中的重复计算,将时间复杂度从O(n²)优化到接近O(n),显著提升长文本生成效率。其核心原理是"计算新token+复用历史缓存",在保证输出一致性的同时大幅减少计算量。虽然会带来内存消耗增加的问题,但可通过滑动窗口、量化等技术进行优化。KV缓存已成为支撑聊天机器人、代码补全等实时交互应用的核心技术,是LLMs推理过程中不可或缺的。

2025-08-07 23:23:06 834

原创 vLLM:彻底改变大型语言模型推理延迟和吞吐量

vLLM是一个突破性的开源库,专门用于优化大型语言模型(LLM)的推理和服务效率。它通过两项核心技术——分页注意力机制和连续批处理,解决了传统LLM部署中的关键瓶颈问题。分页注意力机制借鉴操作系统内存管理思想,将KV缓存划分为固定大小的块,显著减少90%的内存浪费;连续批处理则实现动态请求调度,最大化GPU利用率,使吞吐量提升高达24倍。该工具还提供OpenAI兼容API、广泛模型支持、多GPU部署等丰富功能,成为生产环境中部署LLM的理想选择,特别适合高吞吐量

2025-08-07 22:38:08 1019

原创 模型蒸馏(Distillation):原理、算法、应用

知识蒸馏是一种将复杂大模型(教师模型)的知识迁移到轻量小模型(学生模型)的技术,旨在解决大模型在边缘设备部署时面临的计算资源限制问题。该方法通过提取教师模型中的响应、特征和关系知识,采用离线、在线或自蒸馏等训练方案,结合对抗学习、多教师等算法,实现模型压缩而不显著损失性能。知识蒸馏已成功应用于图像识别、自然语言处理(如DistilBERT)和语音识别(如Amazon Alexa)等领域,显著提升了模型在资源受限设备上的部署效率。这一技术为深度学习模型的实际应用提供了高效解决方案。

2025-08-04 23:01:21 1655

原创 构建属于自己的第一个 MCP 服务器:初学者教程

MCP服务器作为AI与外部世界的桥梁,解决了大模型无法获取实时数据的问题。本文详细介绍了如何用TypeScript构建一个天气MCP服务器,包括项目初始化、工具定义、API集成等步骤。通过Open-Meteo API获取实时天气数据,并实现与VSCode和GitHub Copilot的集成,使AI能够回答实时天气查询。该方案不仅适用于天气查询,还可扩展至其他实时数据领域,为AI应用提供了更强大的功能支持。

2025-08-04 16:20:34 715

原创 如何最简单、通俗地理解线性回归算法? 线性回归模型在非线性数据上拟合效果不佳,如何在保持模型简单性的同时改进拟合能力?

线性回归是统计学和机器学习领域的基础算法,通过构建变量间的线性关系模型实现预测分析。其核心是最小二乘法估计参数,并依赖误差项的正态性、同方差性等统计假设。模型评估采用决定系数、均方误差等指标,同时需警惕多重共线性和异常值问题。实际应用中包含数据清洗、特征工程、正则化处理等关键步骤。线性回归在统计推断与机器学习预测中均具重要价值,是理解复杂模型的基础,其偏差-方差权衡原理对构建稳健预测模型具有指导意义。

2025-08-01 21:37:07 576

原创 anaconda、conda、pip、pytorch、torch、tensorflow到底是什么?它们之间有何联系与区别?

本文系统梳理了科学计算和机器学习领域的关键工具链,重点分析了软件包管理器(conda与pip)、集成环境(Anaconda)及深度学习框架(PyTorch/TensorFlow)的技术特性与应用场景。文章指出conda在跨语言依赖管理和环境隔离方面的优势,对比pip的轻量级特点;解析Anaconda作为一站式科学计算平台的生态价值;深入比较PyTorch动态图与TensorFlow静态图的设计哲学及适用场景。通过阐述工具间的协同使用方法,为不同应用需求下的技术选型提供了实践指导.

2025-08-01 13:34:50 866

原创 一文讲透一个强大算法模型-多项式回归 !!

多项式回归是一种非线性拟合方法,通过多项式函数描述变量间的非线性关系。本文以一个房价预测案例展开,对比了不同阶数多项式对非线性数据的拟合效果。核心步骤包括:1)确定多项式阶数;2)构造设计矩阵;3)最小二乘法求解参数;4)模型评估。结果表明,适当阶数的多项式能有效捕捉非线性趋势,但高阶易导致过拟合。通过交叉验证选择最佳阶数,并引入L1/L2正则化优化模型。该方法在数据呈现非线性特征时比线性回归更具优势,能实现更准确的预测建模。

2025-07-05 16:06:20 782

原创 讲透一个强大算法模型,贝叶斯回归 !!

贝叶斯回归是一种基于贝叶斯思想的回归分析方法,它将模型参数视为随机变量而非固定值。与传统回归提供确定参数不同,贝叶斯回归输出参数的概率分布,既能估计变量间关系,又能量化预测的不确定性。其核心流程包括:设定参数的先验分布,通过观测数据计算似然函数,再结合两者得到后验分布。预测时综合考虑参数不确定性和观测噪声,给出预测值的概率分布。该方法特别适用于数据量小、噪声大的场景,可通过sklearn的BayesianRidge实现,并支持超参数自动优化。贝叶斯回归的优势在于提供预测置信区间,帮助评估模型可靠性。

2025-07-05 14:58:21 732

原创 超全总结!Pythorch 构建Attention-lstm时序模型 !!

本文介绍了使用PyTorch构建Attention-LSTM时序模型的实践案例。文章首先阐述了LSTM网络的原理,包括输入门、遗忘门、输出门等核心机制,并讲解了Attention机制如何帮助模型聚焦关键信息。作者提供了完整的PyTorch实现代码,通过正弦波数据集进行时序预测,包含数据准备、模型构建、训练过程及结果可视化。实验结果显示,模型损失值虽然趋于收敛,但预测结果未能有效捕捉数据周期性特征。文章最后分析了可能的原因并建议优化方向,包括调整模型复杂度、超参数等,为读者提供了时序建模的实用参考。

2025-06-27 14:04:38 658

原创 FastAPI框架的10个重要知识点总结

1. 数据验证采用Pydantic实现自动化类型转换和复杂校验,支持嵌套模型和自定义验证器;2. 文档系统自动生成交互式API文档(Swagger/ReDoc);3. 依赖注入机制简化共享逻辑复用;4. 异步支持提升并发性能;5. 完善的中间件、异常处理和认证授权体系。该框架通过Starlette底层优化和Uvicorn部署支持,展现出媲美Go/Node.js的高性能特性,成为现代Python Web开发的优选方案。

2025-06-21 21:49:01 531

原创 时间序列预测、分类 | 图神经网络开源代码分享(上)

本文系统梳理了图神经网络(GNN)在时间序列预测、分类等任务中的最新研究进展。GNN通过构建节点和边的关系网络,能够有效捕捉时间序列中复杂的时空依赖关系:在多变量序列中建模变量间的相互影响,在时间维度上分析动态演化规律。文章从三个维度详细介绍了现有方法:1)空间依赖建模(谱GNN、空间GNN及混合方法);2)时间依赖建模(循环模型、卷积模型、注意力机制等);3)预测架构融合(离散与连续模型)。同时提供了多个典型模型的论文链接和开源代码资源。

2025-06-21 14:53:54 723

原创 如何使用 neptune.ai 优化模型训练期间的 GPU 使用率

GPU性能优化是深度学习训练的关键环节。GPU利用率、内存占用和功耗是评估性能的核心指标。通过混合精度训练、批次大小调整和数据流水线优化可以显著提升GPU效能。研究显示,不同深度学习框架的GPU利用率存在明显差异。使用Neptune等工具监控资源使用情况能够有效识别瓶颈,Brainly案例证明优化数据预处理流程可将GPU利用率从25%提升至更高水平。建议开发者关注内存使用、采用混合精度、分析CPU/GPU负载平衡,并系统评估各优化措施的实际效果。

2025-06-20 19:13:00 790

原创 Hugging Face 预训练模型:找到最适合你任务的模型

介绍了 Hugging Face 预训练模型在解决机器学习问题时的优势,其 2017 年上线后推出的 Transformers 库及 NLP 资源让高质量 NLP 模型更易使用。它专注于 NLP 任务,模型能理解语义和语境。博客还介绍了模型选择前要明确用例,可通过其平台筛选模型,以及设置环境的方法,还列举了支持的基本 NLP 任务,阐述了 Transformer 架构和 Hugging Face 的应用,最后以创建英德翻译器为例展示了模型使用、微调及评估过程。

2025-06-20 16:14:42 1110

原创 隐语杯--医疗大模型隐私微调竞赛全攻略:思路、代码与案例解析

本次医疗大模型隐私微调竞赛聚焦医疗AI领域的核心矛盾——模型精度与数据隐私的平衡。竞赛提供4万条医疗对话训练数据及两种验证集,要求参赛者在微调过程中兼顾下游任务精度和隐私保护。通过LoRA等高效微调方法减少计算资源消耗,结合数据匿名化、差分隐私和对抗训练等技术防止模型记忆敏感信息。示例代码展示了从数据处理到模型训练的全流程实现,包括隐私保护评估机制。参考案例(如约翰霍普金斯大学的差分隐私应用)验证了技术可行性。解决方案需在医疗语义理解、隐私风险量化等方面持续优化,推动医疗AI在隐私合规前提下落地应用。

2025-06-19 14:31:43 598

原创 注意力机制、自注意力机制、多头注意力机制、通道注意力机制、空间注意力机制超详细讲解

本文系统梳理了注意力机制在深度学习中的演进与应用。从2017年Transformer的突破性成果切入,详细解析了自注意力机制的计算流程及其在自然语言处理中的优势;继而阐述了多头注意力通过并行视角增强特征捕获能力的原理。在计算机视觉领域,重点剖析了通道注意力(SENet、ECA)和空间注意力(CBAM、STN)的技术特点,展示了如何通过权重分配聚焦关键信息。文章还对比了不同注意力机制的适用场景,如通道注意力筛选语义特征,空间注意力定位关键区域。

2025-06-18 21:55:27 1617

原创 一文搞清楚如何使用 LoRA 微调(LLM)

LoRA(低秩自适应)是一种高效的大型语言模型微调技术,通过仅调整少量关键参数而非全模型实现任务适配。本文演示了使用LoRA微调Gemma-2-9b-it模型生成名言标签的完整流程:1) 安装PEFT等库并加载8位量化模型;2) 冻结模型参数并注入LoRA适配器;3) 配置低秩矩阵参数(r=16)和注意力目标层;4) 预处理数据集并启动高效训练;5) 测试推理效果并分享轻量适配器。实验表明,LoRA只需训练原模型0.1%的参数即可获得优秀性能,大幅降低了计算资源需求。该方法通用性强,适用于各类大语言模型

2025-06-18 15:28:01 1071

原创 讲透 RNN 到 Transformer !!!

本文探讨了深度学习在序列数据处理中的演进历程,从RNN到Transformer的技术突破。RNN通过循环连接解决了序列时序依赖问题,但存在顺序处理效率低、长距离依赖难以捕捉等局限。Attention机制的引入打破了RNN的局限性,实现了全局信息交互。Transformer在此基础上完全摒弃循环结构,通过自注意力机制实现了并行计算和高效的长序列处理,其核心创新包括多头注意力、位置编码等模块。文章通过一个两位数加法任务案例,对比展示了RNN和Transformer的具体实现差异,突出了Transformer在结

2025-06-17 18:49:42 944

原创 Pandas中merge、concat、join 区别 !!

详细解释了Pandas提供了三种数据合并方法:merge基于键连接数据(类似SQL JOIN),concat沿轴堆叠对象(无视连接键),join基于索引或列合并。merge最灵活但性能较差,concat适用于相同结构数据的高效堆叠,join擅长索引对齐的快速合并。实际应用中应根据数据结构、连接需求和性能考虑选择合适方法:复杂键连接用merge,简单堆叠用concat,索引对齐用join。优化技巧包括设置索引、过滤数据、一次合并等,合并时可通过suffixes处理重复列名。掌握三者差异可提升数据处理效率。

2025-06-17 16:11:31 1192

原创 PDF转Markdown基准测试

本文对比评测了5种PDF转Markdown工具的性能表现。测试采用结构化基准文件,重点评估格式保留、语义转换质量及处理效率。结果显示:PyMuPDF4LLM速度最快但表格处理不佳;ChatGPT-4o转换质量最佳但响应较慢;marker表格解析精准但依赖GPU加速;Docling表现不稳定;MarkItDown仅输出纯文本。实验证明,PDF的非结构化特性导致传统提取方法存在格式丢失问题,而Markdown的结构化优势能显著提升LLM处理效果,在RAG系统中使检索准确率提升27%,人工校对效率提高40%。

2025-06-14 21:59:02 980 1

原创 AReaL-boba²:首个全异步强化学习训练系统它来了!!

清华大学与蚂蚁技术研究院联合开发的AReaL-boba²强化学习系统,实现了从同步到全异步训练范式的革新。该系统通过三层技术重构:1)异步训练引擎解耦数据生成与参数更新,GPU利用率提升至78%-89%;2)通信优化使跨节点延迟降低62%;3)显存管理策略减少32B模型显存碎片至11%。在代码任务中,14B模型在LiveCodeBench达到69.1分SOTA性能,训练效率提升2.77倍。系统支持多轮交互训练,通过对话历史缓冲区和动态策略更新机制

2025-06-14 14:23:37 1151

原创 讲透Transformer的5大核心优势 !!

Transformer凭借五大核心优势成为近十年最具影响力的模型架构。首先,其自注意力机制实现了高度并行计算,显著提升处理效率。其次,模型能直接捕捉序列中的长程依赖关系,优于传统RNN和CNN。第三,模块化设计带来强大可扩展性,支持参数和数据规模持续扩张。第四,通用序列处理能力使其成功应用于文本、图像、音频等多模态场景。最后,端到端学习机制简化了训练流程,实现信息的最优传播路径。这些优势源于Transformer对信息流动方式的革命性重构,使其成为推动AI技

2025-06-13 15:44:33 718

原创 Python数据分析库 Pandas 四十个高频操作!!!

本文总结了40个Pandas数据处理的实用技巧,涵盖数据读取、预览、清洗、转换、聚合等全流程操作。核心功能包括:多格式数据读取(CSV/Excel/JSON等)、基础数据查看(head/info/describe)、行列选择与条件筛选、缺失值处理、排序与分组聚合、数据合并与导出。高级技巧涉及异常值检测(IQR法)、时间序列处理、内存优化、矢量化运算、大数据分块处理以及可视化辅助分析(热力图/缺失值矩阵)。特别强调了性能优化方法如延迟计算、类型转换,并提供了调试与内存报告工具。

2025-06-13 13:54:35 355

原创 Transformer 与 XGBoost 协同优化的时间序列建模

本文提出一种结合Transformer与XGBoost的时间序列协同建模方法。Transformer通过自注意力机制捕捉序列的长期依赖关系,XGBoost则专注于拟合Transformer的预测残差,捕捉非线性细节。模型采用分阶段训练:先预训练Transformer提取时序特征,再用其输出训练XGBoost,最后可选联合微调。实验表明,该方法能有效提升预测精度,误差分析显示预测值与实际值趋势吻合良好。文章还提供了参数优化建议和调参流程,案例为复杂时间序列预测任务提供了有效的解决方案。

2025-06-12 16:22:07 1007

原创 只用几十行PyTorch代码让GPU利用率猛涨!

摘要:北京大学校友张天远团队提出LaCT模型架构,通过大块更新策略(2000-100万tokens)显著提升GPU利用率至70%。该架构结合窗口注意力与大块测试时训练(LaCT),以无序集处理块内tokens并捕获局部依赖,增强并行性。实验表明,LaCT在百万级tokens的跨模态任务(如新视图合成、视频生成)中优于3D高斯泼溅等技术,且显存占用减少60%。开源代码显示其硬件效率突破(算力利用率65%-82%),为长上下文建模提供新范式。未来可拓展至动态块调整与多模态联合建模。

2025-06-11 13:43:15 887

原创 统计学核心概念与现实应用精解(偏机器学习)

深入浅出地讲解了统计学的核心概念及其应用。统计学主要围绕概率分布和期望展开,概率分布描述随机变量的可能取值及其可能性,期望则是加权平均值,反映长期平均结果。文章详细介绍了离散和连续随机变量的概率质量函数(PMF)和概率密度函数(PDF),累积分布函数(CDF),以及联合分布与边缘分布的关系。在统计学的两大学派中,频率派通过假设检验和p值进行决策,适用于可重复事件;贝叶斯派则结合先验概率和似然函数更新信念,适用于唯一事件。似然函数作为数据与参数之间的桥梁,通过最大似然估计(MLE)推断参数。统计学方法如假设检

2025-06-10 16:39:13 1337

原创 L1和L2核心区别 !!--part 2

本文深入探讨了 L1 和 L2 正则化的核心区别,及其在机器学习模型优化中的应用。L1 正则化通过产生稀疏解实现特征选择,适用于高维稀疏数据;L2 正则化则通过收缩系数提升模型稳定性,适合处理多重共线性问题。Elastic Net 结合两者优势,兼顾特征选择和模型稳定性。正则化通过限制模型复杂度,有效缓解过拟合,提升泛化能力。从优化角度看,L1 导致的非光滑问题需要特殊算法解决。通过实验和图像对比,直观展示了不同正则化方法在特征系数、预测误差等方面的表现差异。

2025-06-09 15:27:13 1170

原创 彻底讲透,L1和L2核心区别 !!

本文通过代码和实验深入剖析了L1正则化(Lasso)和L2正则化(Ridge)的区别。L1正则化约束区域为菱形,易与损失等高线尖角相切,使部分参数为零,实现特征选择;L2正则化约束区域为圆形,使参数均匀收缩。实验中,对于只有3个真正有用特征的数据,Lasso将不重要特征系数压缩为零,而Ridge只是将系数收缩。L1适合特征选择,L2适合系数稳定化,Elastic Net结合两者优势。

2025-06-08 19:20:22 629

原创 XGBoost时间序列预测之-未来销量的预测

本文介绍了基于XGBoost的时间序列销售预测模型构建过程。从问题定义与数据特征分析出发,阐述了业务目标、数据结构及技术挑战。接着解析XGBoost的核心原理,包括目标函数优化与加法训练策略。在特征工程部分,重点讲解滞后特征、滚动窗口特征等构建方法。模型架构部分涵盖特征矩阵构建、训练与预测流程。最后探讨模型优化、超参数调优及结合深度学习的拓展方案,为读者提供销售预测模型的实用指南。

2025-06-07 15:42:14 1116

原创 50个pytorch的超强操作!!

本文全面深入地介绍了 PyTorch 的各项功能与操作,从基础张量操作如创建、形状变换、拼接到高级训练策略如 GPU 加速、分布式训练,再到模型构建、训练及评估,提供了详尽的讲解。涵盖了数据加载、处理、模型保存、加载以及多种优化技术,包括混合精度训练、模型剪枝和自动微分等,为读者呈现了一个全面的 PyTorch 学习与应用指南,帮助读者系统掌握 PyTorch 在深度学习中的广泛应用。

2025-06-06 23:33:32 1602

原创 深入浅出:Transformer 输入输出嵌入层的词向量映射与线性变换

本文围绕 Transformer 模型架构展开,重点解析其核心组件原理与复制任务实践。输入嵌入层通过嵌入矩阵将文本转换为向量,结合位置编码赋予序列顺序信息;自注意力机制经线性变换生成查询、键、值向量,计算注意力权重实现上下文感知;输出嵌入层则将向量映射回词汇表。通过复制任务实验,借助损失曲线、嵌入可视化、预测对比及注意力热力图验证模型有效性,结果表明模型能有效捕捉位置与语义信息,注意力机制聚焦自身位置,验证了 Transformer 基础架构在序列任务中的可行性,为复杂 NLP 任务提供理论与实践支撑。

2025-06-06 13:59:01 1125

原创 ReLU 激活函数:重大缺陷一去不复返!

上述替代函数均具有平滑特性(如连续可导),通过 FGI 机制注入梯度后,可无缝替代传统 ReLU,使得网络在负激活区域仍能进行有效梯度传播,从而提升深层网络的训练效率与表达能力(如图 8 所示,不同替代函数在负区域的梯度曲线差异显著,但均能通过 SUGAR 框架实现梯度注入)。这些函数通过为负预激活值引入非零激活,提供了不同的权衡。具体而言,通过 ** 前向梯度注入(FGI)** 机制,将替代函数的梯度信息直接注入网络的前向传播过程,从而在保持 ReLU 非线性特性的同时,避免因负输入导致的梯度消失问题。

2025-06-05 23:30:04 1177 1

原创 SVM超详细原理总结

支持向量机(SVM)是一种基于最大间隔分类的机器学习算法,适用于线性和非线性数据。本文系统阐述了SVM的核心原理:线性可分时的硬间隔优化、非线性数据的核方法映射(如RBF核),以及现实场景中的软间隔正则化(C参数控制)。通过鸢尾花数据集案例,展示了SVM的标准化预处理、网格搜索调参(C和gamma)及决策边界可视化方法,并分析了参数对模型性能的影响。SVM的关键优势在于最大化间隔带来的强泛化能力,但其性能依赖于核函数选择和参数调优,适用于中等规模的高维数据分类任务。

2025-06-04 19:01:39 777

原创 Adam、SGD、RMSprop优化器全面对比 !!

本文从对比分析的方向对深度学习中三种经典优化器(SGD、RMSprop、Adam)的性能特点进行了详细解释。比如SGD简单但收敛慢,适合简单模型;RMSprop通过自适应学习率有效处理梯度波动,在RNN中表现优异;Adam结合动量与自适应机制,收敛速度快且稳定,成为复杂网络的首选。实验显示,Adam和RMSprop在验证集损失和梯度控制方面均优于SGD,其中Adam表现出更集中的参数分布。建议根据任务复杂度选择优化器:简单任务用SGD,序列数据用RMSprop,复杂网络优先Adam。

2025-06-03 14:17:31 1659

原创 一文让你搞懂深度学习中神经网络的各层结构与功能

本文深入剖析了卷积神经网络(CNN)中卷积层、池化层、归一化层、激活函数、Flatten层和全连接层的原理与作用。卷积层通过局部连接和权重共享高效提取图像特征;池化层降维并保留关键特征;归一化层消除量纲差异,加速收敛;激活函数引入非线性,提升表达能力;Flatten层将多维特征映射为一维向量,连接卷积层与全连接层;全连接层整合特征,实现分类或回归。这些组件协同工作,赋予CNN强大的图像处理能力,广泛应用于分类、检测等任务。

2025-06-02 16:02:19 1332

原创 首个基于统计学的线性注意力机制ToST来了!

加州大学伯克利分校吴梓阳博士团队提出Token Statistics Transformer(ToST)模型,通过创新性的Token统计量自注意力机制(TSSA),将传统Transformer的二次方计算复杂度降至线性。该研究基于最大编码率缩减理论(MCR²)的变分形式,通过白盒架构设计实现高效特征提取,在NLP和CV任务中保持性能同时显著降低资源消耗。实验表明ToST在ImageNet等基准测试中媲美传统Transformer,且在长序列任务中表现出色。这项跨机构合作成果入选ICLR2025,为边缘计算、

2025-05-31 12:54:34 1044

原创 详细到用手撕transformer下半部分

完整实现了Transformer的编码器-解码器架构,基于Vaswani等人2017年提出的经典设计。通过模块化构建编码器块、位置编码和训练组件,并利用PyTorch Lightning框架整合训练流程。在数字序列反转任务测试中,模型表现优异,验证了Transformer处理长距离依赖的能力。文章详细解析了多头注意力机制、残差连接等核心设计,并讨论了不同架构变体(如BERT、GPT)的应用场景。实现过程涵盖从底层注意力计算到完整模型训练的完整技术链,为理解Transformer工作机制提供了实践参考。

2025-05-30 13:43:20 1046

高效精准,LightGBM 重塑时间序列预测格局!!!

LightGBM数据集

2025-04-02

【0 基础也能懂!】系列超市小票 + 奶茶订单:自创5 个生活场景数据集(含脏数据)

奶茶店订单数据集生成代码 首先定义了基础元素,包括日期范围,商品列表 然后确定业务逻辑-周末效应,天气促销等 对于每条订单,生成含脏数据的字段 最后将生成的数据保存为带业务场景的奶茶店订单.csv 字段为:日期、星期、商品、销量、客单价、优惠券(是否使用)、天气 超市小票数据集生成代码 首先定义了可能的商品信息,包括商品名称、分类和价格。 然后确定了日期范围,在这个日期范围内随机生成每天的购买记录。 对于每次购买,随机选择商品、数量、会员等级和是否促销。 最后将生成的数据保存为超市小票.csv文件。 电商复购数据集生成代码 定义了用户数量和日期范围,以及可能的商品列表。 对于每个用户,随机生成首次购买时间和首次购买的商品。 随机生成复购次数,根据复购次数计算最近复购时间和总消费金额。 最后将生成的数据保存为电商复购数据.csv文件。

2025-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除