一个不怎么正经的算法工程师的博客~不定期更新一些我所覆盖领域的干货~包你满意噢

这是聚焦算法技术的博客，分享机器学习、深度学习、优化算法等领域的经典解析与前沿实战，理论结合实战解析算法逻辑。面向不同阶段开发者，涵盖模型调参、算法优化等方向，致力于成为技术交流平台，助力各位算法技术成长与探索数据智能边界。

原创数据标准化与归一化的区别与应用场景

数据标准化（Z-score 标准化）通过线性变换使数据均值为 0、标准差 1，保留原始分布形态，适用于依赖距离度量（如 KNN、SVM）或有异常值的数据。数据归一化（Min-Max 缩放）将数据压缩到固定区间（如 [0,1]），保持相对比例，适合神经网络和数值范围敏感的算法。主要区别在于标准化基于均值和标准差，归一化基于极值。标准化对异常值更稳健，而归一化保留物理意义。选择时需结合算法特性：标准化适合回归、PCA 等模型，归一化更适合神经网络和图像处理。

2025-08-09 22:55:21 551

原创最强总结！十大非参数统计方法 (下)

本文介绍了5种机器学习核心算法原理与应用：1.支持向量机(SVM)：基于最大间隔原则，通过核函数处理非线性数据，适用于高维分类/回归任务；2.最近邻图(NNG)：构建数据相似性图结构，用于无监督学习中的聚类和降维；3.核主成分分析(KPCA)：非线性PCA扩展，通过核技巧实现高维特征提取；4.自适应平滑法：动态调整局部平滑参数，适用于非均匀数据去噪；5.分位数回归：估计条件分位数而非均值，能分析变量在不同分布区间的异质性影响。这些方法各具特色，适用于不同数据特征的分析需求。

2025-08-09 20:49:10 627

原创最强总结！十大非参数统计方法 (上)

非参数统计方法摘要非参数统计方法不依赖数据分布假设，适用于未知分布、非正态数据或存在异常值的情况。本文介绍了K-近邻、核密度估计、非参数回归、决策树和随机森林等核心方法。K-近邻通过邻近样本投票预测，核密度估计用叠加核函数估计概率密度，非参数回归可拟合任意形状关系。决策树模拟人类决策过程，而随机森林通过多树集成提高准确性。这些方法灵活性高，能捕捉复杂模式，但计算成本较高。案例展示了各方法在分类、回归和特征分析中的应用，包括鸢尾花分类、数据密度估计和乳腺癌特征重要性分析。非参数方法在数据驱动的应用中日益重要

2025-08-08 23:24:50 824

原创从学讲透一个强大算法模型，LightGBM ！！

本文详细介绍了LightGBM的原理、优化技术和应用案例。LightGBM是一种高效的梯度提升决策树框架，具有速度快、内存占用低、准确度高等特点。其核心原理包括加法模型、梯度下降和叶子节点优化，通过Leaf-wise生长策略、直方图优化、GOSS采样和EFB特征捆绑四大关键技术实现性能提升。文章以UCI Adult数据集为例，演示了从数据预处理、EDA分析到模型训练、评估和超参数调优的全流程。实验结果显示，优化后的模型在测试集上准确率达到0.87，AUC为0.92，并通过特征重要性分析识别出关键预测变量。

2025-08-08 22:46:11 790

原创什么是键值缓存？让 LLM 闪电般快速

KV缓存是大语言模型(LLMs)实现高效推理的关键技术。在自回归生成过程中，KV缓存通过存储历史token的键(K)和值(V)矩阵，避免了注意力机制中的重复计算，将时间复杂度从O(n²)优化到接近O(n)，显著提升长文本生成效率。其核心原理是"计算新token+复用历史缓存"，在保证输出一致性的同时大幅减少计算量。虽然会带来内存消耗增加的问题，但可通过滑动窗口、量化等技术进行优化。KV缓存已成为支撑聊天机器人、代码补全等实时交互应用的核心技术，是LLMs推理过程中不可或缺的。

2025-08-07 23:23:06 834

原创 vLLM：彻底改变大型语言模型推理延迟和吞吐量

vLLM是一个突破性的开源库，专门用于优化大型语言模型(LLM)的推理和服务效率。它通过两项核心技术——分页注意力机制和连续批处理，解决了传统LLM部署中的关键瓶颈问题。分页注意力机制借鉴操作系统内存管理思想，将KV缓存划分为固定大小的块，显著减少90%的内存浪费；连续批处理则实现动态请求调度，最大化GPU利用率，使吞吐量提升高达24倍。该工具还提供OpenAI兼容API、广泛模型支持、多GPU部署等丰富功能，成为生产环境中部署LLM的理想选择，特别适合高吞吐量

2025-08-07 22:38:08 1019

原创模型蒸馏(Distillation)：原理、算法、应用

知识蒸馏是一种将复杂大模型（教师模型）的知识迁移到轻量小模型（学生模型）的技术，旨在解决大模型在边缘设备部署时面临的计算资源限制问题。该方法通过提取教师模型中的响应、特征和关系知识，采用离线、在线或自蒸馏等训练方案，结合对抗学习、多教师等算法，实现模型压缩而不显著损失性能。知识蒸馏已成功应用于图像识别、自然语言处理（如DistilBERT）和语音识别（如Amazon Alexa）等领域，显著提升了模型在资源受限设备上的部署效率。这一技术为深度学习模型的实际应用提供了高效解决方案。

2025-08-04 23:01:21 1655

原创构建属于自己的第一个 MCP 服务器：初学者教程

MCP服务器作为AI与外部世界的桥梁，解决了大模型无法获取实时数据的问题。本文详细介绍了如何用TypeScript构建一个天气MCP服务器，包括项目初始化、工具定义、API集成等步骤。通过Open-Meteo API获取实时天气数据，并实现与VSCode和GitHub Copilot的集成，使AI能够回答实时天气查询。该方案不仅适用于天气查询，还可扩展至其他实时数据领域，为AI应用提供了更强大的功能支持。

2025-08-04 16:20:34 715

原创如何最简单、通俗地理解线性回归算法？线性回归模型在非线性数据上拟合效果不佳，如何在保持模型简单性的同时改进拟合能力？

线性回归是统计学和机器学习领域的基础算法，通过构建变量间的线性关系模型实现预测分析。其核心是最小二乘法估计参数，并依赖误差项的正态性、同方差性等统计假设。模型评估采用决定系数、均方误差等指标，同时需警惕多重共线性和异常值问题。实际应用中包含数据清洗、特征工程、正则化处理等关键步骤。线性回归在统计推断与机器学习预测中均具重要价值，是理解复杂模型的基础，其偏差-方差权衡原理对构建稳健预测模型具有指导意义。

2025-08-01 21:37:07 576

原创 anaconda、conda、pip、pytorch、torch、tensorflow到底是什么？它们之间有何联系与区别？

本文系统梳理了科学计算和机器学习领域的关键工具链，重点分析了软件包管理器（conda与pip）、集成环境（Anaconda）及深度学习框架（PyTorch/TensorFlow）的技术特性与应用场景。文章指出conda在跨语言依赖管理和环境隔离方面的优势，对比pip的轻量级特点；解析Anaconda作为一站式科学计算平台的生态价值；深入比较PyTorch动态图与TensorFlow静态图的设计哲学及适用场景。通过阐述工具间的协同使用方法，为不同应用需求下的技术选型提供了实践指导.

2025-08-01 13:34:50 866

原创一文讲透一个强大算法模型-多项式回归！！

多项式回归是一种非线性拟合方法，通过多项式函数描述变量间的非线性关系。本文以一个房价预测案例展开，对比了不同阶数多项式对非线性数据的拟合效果。核心步骤包括：1)确定多项式阶数；2)构造设计矩阵；3)最小二乘法求解参数；4)模型评估。结果表明，适当阶数的多项式能有效捕捉非线性趋势，但高阶易导致过拟合。通过交叉验证选择最佳阶数，并引入L1/L2正则化优化模型。该方法在数据呈现非线性特征时比线性回归更具优势，能实现更准确的预测建模。

2025-07-05 16:06:20 782

原创讲透一个强大算法模型，贝叶斯回归！！

贝叶斯回归是一种基于贝叶斯思想的回归分析方法，它将模型参数视为随机变量而非固定值。与传统回归提供确定参数不同，贝叶斯回归输出参数的概率分布，既能估计变量间关系，又能量化预测的不确定性。其核心流程包括：设定参数的先验分布，通过观测数据计算似然函数，再结合两者得到后验分布。预测时综合考虑参数不确定性和观测噪声，给出预测值的概率分布。该方法特别适用于数据量小、噪声大的场景，可通过sklearn的BayesianRidge实现，并支持超参数自动优化。贝叶斯回归的优势在于提供预测置信区间，帮助评估模型可靠性。

2025-07-05 14:58:21 732

原创超全总结！Pythorch 构建Attention-lstm时序模型！！

本文介绍了使用PyTorch构建Attention-LSTM时序模型的实践案例。文章首先阐述了LSTM网络的原理，包括输入门、遗忘门、输出门等核心机制，并讲解了Attention机制如何帮助模型聚焦关键信息。作者提供了完整的PyTorch实现代码，通过正弦波数据集进行时序预测，包含数据准备、模型构建、训练过程及结果可视化。实验结果显示，模型损失值虽然趋于收敛，但预测结果未能有效捕捉数据周期性特征。文章最后分析了可能的原因并建议优化方向，包括调整模型复杂度、超参数等，为读者提供了时序建模的实用参考。

2025-06-27 14:04:38 658

原创 FastAPI框架的10个重要知识点总结

1. 数据验证采用Pydantic实现自动化类型转换和复杂校验，支持嵌套模型和自定义验证器；2. 文档系统自动生成交互式API文档（Swagger/ReDoc）；3. 依赖注入机制简化共享逻辑复用；4. 异步支持提升并发性能；5. 完善的中间件、异常处理和认证授权体系。该框架通过Starlette底层优化和Uvicorn部署支持，展现出媲美Go/Node.js的高性能特性，成为现代Python Web开发的优选方案。

2025-06-21 21:49:01 531

原创时间序列预测、分类 | 图神经网络开源代码分享（上）

本文系统梳理了图神经网络(GNN)在时间序列预测、分类等任务中的最新研究进展。GNN通过构建节点和边的关系网络，能够有效捕捉时间序列中复杂的时空依赖关系：在多变量序列中建模变量间的相互影响，在时间维度上分析动态演化规律。文章从三个维度详细介绍了现有方法：1)空间依赖建模(谱GNN、空间GNN及混合方法)；2)时间依赖建模(循环模型、卷积模型、注意力机制等)；3)预测架构融合(离散与连续模型)。同时提供了多个典型模型的论文链接和开源代码资源。

2025-06-21 14:53:54 723

原创如何使用 neptune.ai 优化模型训练期间的 GPU 使用率

GPU性能优化是深度学习训练的关键环节。GPU利用率、内存占用和功耗是评估性能的核心指标。通过混合精度训练、批次大小调整和数据流水线优化可以显著提升GPU效能。研究显示，不同深度学习框架的GPU利用率存在明显差异。使用Neptune等工具监控资源使用情况能够有效识别瓶颈，Brainly案例证明优化数据预处理流程可将GPU利用率从25%提升至更高水平。建议开发者关注内存使用、采用混合精度、分析CPU/GPU负载平衡，并系统评估各优化措施的实际效果。

2025-06-20 19:13:00 790

原创 Hugging Face 预训练模型：找到最适合你任务的模型

介绍了 Hugging Face 预训练模型在解决机器学习问题时的优势，其 2017 年上线后推出的 Transformers 库及 NLP 资源让高质量 NLP 模型更易使用。它专注于 NLP 任务，模型能理解语义和语境。博客还介绍了模型选择前要明确用例，可通过其平台筛选模型，以及设置环境的方法，还列举了支持的基本 NLP 任务，阐述了 Transformer 架构和 Hugging Face 的应用，最后以创建英德翻译器为例展示了模型使用、微调及评估过程。

2025-06-20 16:14:42 1110

原创隐语杯--医疗大模型隐私微调竞赛全攻略：思路、代码与案例解析

本次医疗大模型隐私微调竞赛聚焦医疗AI领域的核心矛盾——模型精度与数据隐私的平衡。竞赛提供4万条医疗对话训练数据及两种验证集，要求参赛者在微调过程中兼顾下游任务精度和隐私保护。通过LoRA等高效微调方法减少计算资源消耗，结合数据匿名化、差分隐私和对抗训练等技术防止模型记忆敏感信息。示例代码展示了从数据处理到模型训练的全流程实现，包括隐私保护评估机制。参考案例（如约翰霍普金斯大学的差分隐私应用）验证了技术可行性。解决方案需在医疗语义理解、隐私风险量化等方面持续优化，推动医疗AI在隐私合规前提下落地应用。

2025-06-19 14:31:43 598

原创注意力机制、自注意力机制、多头注意力机制、通道注意力机制、空间注意力机制超详细讲解

本文系统梳理了注意力机制在深度学习中的演进与应用。从2017年Transformer的突破性成果切入，详细解析了自注意力机制的计算流程及其在自然语言处理中的优势；继而阐述了多头注意力通过并行视角增强特征捕获能力的原理。在计算机视觉领域，重点剖析了通道注意力(SENet、ECA)和空间注意力(CBAM、STN)的技术特点，展示了如何通过权重分配聚焦关键信息。文章还对比了不同注意力机制的适用场景，如通道注意力筛选语义特征，空间注意力定位关键区域。

2025-06-18 21:55:27 1617

原创一文搞清楚如何使用 LoRA 微调(LLM)

LoRA（低秩自适应）是一种高效的大型语言模型微调技术，通过仅调整少量关键参数而非全模型实现任务适配。本文演示了使用LoRA微调Gemma-2-9b-it模型生成名言标签的完整流程：1) 安装PEFT等库并加载8位量化模型；2) 冻结模型参数并注入LoRA适配器；3) 配置低秩矩阵参数（r=16）和注意力目标层；4) 预处理数据集并启动高效训练；5) 测试推理效果并分享轻量适配器。实验表明，LoRA只需训练原模型0.1%的参数即可获得优秀性能，大幅降低了计算资源需求。该方法通用性强，适用于各类大语言模型

2025-06-18 15:28:01 1071

原创讲透 RNN 到 Transformer ！！！

本文探讨了深度学习在序列数据处理中的演进历程，从RNN到Transformer的技术突破。RNN通过循环连接解决了序列时序依赖问题，但存在顺序处理效率低、长距离依赖难以捕捉等局限。Attention机制的引入打破了RNN的局限性，实现了全局信息交互。Transformer在此基础上完全摒弃循环结构，通过自注意力机制实现了并行计算和高效的长序列处理，其核心创新包括多头注意力、位置编码等模块。文章通过一个两位数加法任务案例，对比展示了RNN和Transformer的具体实现差异，突出了Transformer在结

2025-06-17 18:49:42 944

原创 Pandas中merge、concat、join 区别！！

详细解释了Pandas提供了三种数据合并方法：merge基于键连接数据（类似SQL JOIN），concat沿轴堆叠对象（无视连接键），join基于索引或列合并。merge最灵活但性能较差，concat适用于相同结构数据的高效堆叠，join擅长索引对齐的快速合并。实际应用中应根据数据结构、连接需求和性能考虑选择合适方法：复杂键连接用merge，简单堆叠用concat，索引对齐用join。优化技巧包括设置索引、过滤数据、一次合并等，合并时可通过suffixes处理重复列名。掌握三者差异可提升数据处理效率。

2025-06-17 16:11:31 1192

原创 PDF转Markdown基准测试

本文对比评测了5种PDF转Markdown工具的性能表现。测试采用结构化基准文件，重点评估格式保留、语义转换质量及处理效率。结果显示：PyMuPDF4LLM速度最快但表格处理不佳；ChatGPT-4o转换质量最佳但响应较慢；marker表格解析精准但依赖GPU加速；Docling表现不稳定；MarkItDown仅输出纯文本。实验证明，PDF的非结构化特性导致传统提取方法存在格式丢失问题，而Markdown的结构化优势能显著提升LLM处理效果，在RAG系统中使检索准确率提升27%，人工校对效率提高40%。

2025-06-14 21:59:02 980 1

原创 AReaL-boba²：首个全异步强化学习训练系统它来了！！

清华大学与蚂蚁技术研究院联合开发的AReaL-boba²强化学习系统，实现了从同步到全异步训练范式的革新。该系统通过三层技术重构：1)异步训练引擎解耦数据生成与参数更新，GPU利用率提升至78%-89%；2)通信优化使跨节点延迟降低62%；3)显存管理策略减少32B模型显存碎片至11%。在代码任务中，14B模型在LiveCodeBench达到69.1分SOTA性能，训练效率提升2.77倍。系统支持多轮交互训练，通过对话历史缓冲区和动态策略更新机制

2025-06-14 14:23:37 1151

原创讲透Transformer的5大核心优势！！

Transformer凭借五大核心优势成为近十年最具影响力的模型架构。首先，其自注意力机制实现了高度并行计算，显著提升处理效率。其次，模型能直接捕捉序列中的长程依赖关系，优于传统RNN和CNN。第三，模块化设计带来强大可扩展性，支持参数和数据规模持续扩张。第四，通用序列处理能力使其成功应用于文本、图像、音频等多模态场景。最后，端到端学习机制简化了训练流程，实现信息的最优传播路径。这些优势源于Transformer对信息流动方式的革命性重构，使其成为推动AI技

2025-06-13 15:44:33 718

原创 Python数据分析库 Pandas 四十个高频操作！！！

本文总结了40个Pandas数据处理的实用技巧，涵盖数据读取、预览、清洗、转换、聚合等全流程操作。核心功能包括：多格式数据读取（CSV/Excel/JSON等）、基础数据查看（head/info/describe）、行列选择与条件筛选、缺失值处理、排序与分组聚合、数据合并与导出。高级技巧涉及异常值检测（IQR法）、时间序列处理、内存优化、矢量化运算、大数据分块处理以及可视化辅助分析（热力图/缺失值矩阵）。特别强调了性能优化方法如延迟计算、类型转换，并提供了调试与内存报告工具。

2025-06-13 13:54:35 355

原创 Transformer 与 XGBoost 协同优化的时间序列建模

本文提出一种结合Transformer与XGBoost的时间序列协同建模方法。Transformer通过自注意力机制捕捉序列的长期依赖关系，XGBoost则专注于拟合Transformer的预测残差，捕捉非线性细节。模型采用分阶段训练：先预训练Transformer提取时序特征，再用其输出训练XGBoost，最后可选联合微调。实验表明，该方法能有效提升预测精度，误差分析显示预测值与实际值趋势吻合良好。文章还提供了参数优化建议和调参流程，案例为复杂时间序列预测任务提供了有效的解决方案。

2025-06-12 16:22:07 1007

原创只用几十行PyTorch代码让GPU利用率猛涨！

摘要：北京大学校友张天远团队提出LaCT模型架构，通过大块更新策略（2000-100万tokens）显著提升GPU利用率至70%。该架构结合窗口注意力与大块测试时训练（LaCT），以无序集处理块内tokens并捕获局部依赖，增强并行性。实验表明，LaCT在百万级tokens的跨模态任务（如新视图合成、视频生成）中优于3D高斯泼溅等技术，且显存占用减少60%。开源代码显示其硬件效率突破（算力利用率65%-82%），为长上下文建模提供新范式。未来可拓展至动态块调整与多模态联合建模。

2025-06-11 13:43:15 887

原创统计学核心概念与现实应用精解（偏机器学习）

深入浅出地讲解了统计学的核心概念及其应用。统计学主要围绕概率分布和期望展开，概率分布描述随机变量的可能取值及其可能性，期望则是加权平均值，反映长期平均结果。文章详细介绍了离散和连续随机变量的概率质量函数（PMF）和概率密度函数（PDF），累积分布函数（CDF），以及联合分布与边缘分布的关系。在统计学的两大学派中，频率派通过假设检验和p值进行决策，适用于可重复事件；贝叶斯派则结合先验概率和似然函数更新信念，适用于唯一事件。似然函数作为数据与参数之间的桥梁，通过最大似然估计（MLE）推断参数。统计学方法如假设检

2025-06-10 16:39:13 1337

原创 L1和L2核心区别！！--part 2

本文深入探讨了 L1 和 L2 正则化的核心区别，及其在机器学习模型优化中的应用。L1 正则化通过产生稀疏解实现特征选择，适用于高维稀疏数据；L2 正则化则通过收缩系数提升模型稳定性，适合处理多重共线性问题。Elastic Net 结合两者优势，兼顾特征选择和模型稳定性。正则化通过限制模型复杂度，有效缓解过拟合，提升泛化能力。从优化角度看，L1 导致的非光滑问题需要特殊算法解决。通过实验和图像对比，直观展示了不同正则化方法在特征系数、预测误差等方面的表现差异。

2025-06-09 15:27:13 1170

原创彻底讲透，L1和L2核心区别！！

本文通过代码和实验深入剖析了L1正则化（Lasso）和L2正则化（Ridge）的区别。L1正则化约束区域为菱形，易与损失等高线尖角相切，使部分参数为零，实现特征选择；L2正则化约束区域为圆形，使参数均匀收缩。实验中，对于只有3个真正有用特征的数据，Lasso将不重要特征系数压缩为零，而Ridge只是将系数收缩。L1适合特征选择，L2适合系数稳定化，Elastic Net结合两者优势。

2025-06-08 19:20:22 629

原创 XGBoost时间序列预测之-未来销量的预测

本文介绍了基于XGBoost的时间序列销售预测模型构建过程。从问题定义与数据特征分析出发，阐述了业务目标、数据结构及技术挑战。接着解析XGBoost的核心原理，包括目标函数优化与加法训练策略。在特征工程部分，重点讲解滞后特征、滚动窗口特征等构建方法。模型架构部分涵盖特征矩阵构建、训练与预测流程。最后探讨模型优化、超参数调优及结合深度学习的拓展方案，为读者提供销售预测模型的实用指南。

2025-06-07 15:42:14 1116

原创 50个pytorch的超强操作！！

本文全面深入地介绍了 PyTorch 的各项功能与操作，从基础张量操作如创建、形状变换、拼接到高级训练策略如 GPU 加速、分布式训练，再到模型构建、训练及评估，提供了详尽的讲解。涵盖了数据加载、处理、模型保存、加载以及多种优化技术，包括混合精度训练、模型剪枝和自动微分等，为读者呈现了一个全面的 PyTorch 学习与应用指南，帮助读者系统掌握 PyTorch 在深度学习中的广泛应用。

2025-06-06 23:33:32 1602

原创深入浅出：Transformer 输入输出嵌入层的词向量映射与线性变换

本文围绕 Transformer 模型架构展开，重点解析其核心组件原理与复制任务实践。输入嵌入层通过嵌入矩阵将文本转换为向量，结合位置编码赋予序列顺序信息；自注意力机制经线性变换生成查询、键、值向量，计算注意力权重实现上下文感知；输出嵌入层则将向量映射回词汇表。通过复制任务实验，借助损失曲线、嵌入可视化、预测对比及注意力热力图验证模型有效性，结果表明模型能有效捕捉位置与语义信息，注意力机制聚焦自身位置，验证了 Transformer 基础架构在序列任务中的可行性，为复杂 NLP 任务提供理论与实践支撑。

2025-06-06 13:59:01 1125

原创 ReLU 激活函数：重大缺陷一去不复返！

上述替代函数均具有平滑特性（如连续可导），通过 FGI 机制注入梯度后，可无缝替代传统 ReLU，使得网络在负激活区域仍能进行有效梯度传播，从而提升深层网络的训练效率与表达能力（如图 8 所示，不同替代函数在负区域的梯度曲线差异显著，但均能通过 SUGAR 框架实现梯度注入）。这些函数通过为负预激活值引入非零激活，提供了不同的权衡。具体而言，通过 ** 前向梯度注入（FGI）** 机制，将替代函数的梯度信息直接注入网络的前向传播过程，从而在保持 ReLU 非线性特性的同时，避免因负输入导致的梯度消失问题。

2025-06-05 23:30:04 1177 1

原创 SVM超详细原理总结

支持向量机(SVM)是一种基于最大间隔分类的机器学习算法，适用于线性和非线性数据。本文系统阐述了SVM的核心原理：线性可分时的硬间隔优化、非线性数据的核方法映射(如RBF核)，以及现实场景中的软间隔正则化(C参数控制)。通过鸢尾花数据集案例，展示了SVM的标准化预处理、网格搜索调参(C和gamma)及决策边界可视化方法，并分析了参数对模型性能的影响。SVM的关键优势在于最大化间隔带来的强泛化能力，但其性能依赖于核函数选择和参数调优，适用于中等规模的高维数据分类任务。

2025-06-04 19:01:39 777

原创 Adam、SGD、RMSprop优化器全面对比！！

本文从对比分析的方向对深度学习中三种经典优化器（SGD、RMSprop、Adam）的性能特点进行了详细解释。比如SGD简单但收敛慢，适合简单模型；RMSprop通过自适应学习率有效处理梯度波动，在RNN中表现优异；Adam结合动量与自适应机制，收敛速度快且稳定，成为复杂网络的首选。实验显示，Adam和RMSprop在验证集损失和梯度控制方面均优于SGD，其中Adam表现出更集中的参数分布。建议根据任务复杂度选择优化器：简单任务用SGD，序列数据用RMSprop，复杂网络优先Adam。

2025-06-03 14:17:31 1659

原创一文让你搞懂深度学习中神经网络的各层结构与功能

本文深入剖析了卷积神经网络（CNN）中卷积层、池化层、归一化层、激活函数、Flatten层和全连接层的原理与作用。卷积层通过局部连接和权重共享高效提取图像特征；池化层降维并保留关键特征；归一化层消除量纲差异，加速收敛；激活函数引入非线性，提升表达能力；Flatten层将多维特征映射为一维向量，连接卷积层与全连接层；全连接层整合特征，实现分类或回归。这些组件协同工作，赋予CNN强大的图像处理能力，广泛应用于分类、检测等任务。

2025-06-02 16:02:19 1332

原创首个基于统计学的线性注意力机制ToST来了！

加州大学伯克利分校吴梓阳博士团队提出Token Statistics Transformer（ToST）模型，通过创新性的Token统计量自注意力机制（TSSA），将传统Transformer的二次方计算复杂度降至线性。该研究基于最大编码率缩减理论（MCR²）的变分形式，通过白盒架构设计实现高效特征提取，在NLP和CV任务中保持性能同时显著降低资源消耗。实验表明ToST在ImageNet等基准测试中媲美传统Transformer，且在长序列任务中表现出色。这项跨机构合作成果入选ICLR2025，为边缘计算、

2025-05-31 12:54:34 1044

原创详细到用手撕transformer下半部分

完整实现了Transformer的编码器-解码器架构，基于Vaswani等人2017年提出的经典设计。通过模块化构建编码器块、位置编码和训练组件，并利用PyTorch Lightning框架整合训练流程。在数字序列反转任务测试中，模型表现优异，验证了Transformer处理长距离依赖的能力。文章详细解析了多头注意力机制、残差连接等核心设计，并讨论了不同架构变体（如BERT、GPT）的应用场景。实现过程涵盖从底层注意力计算到完整模型训练的完整技术链，为理解Transformer工作机制提供了实践参考。

2025-05-30 13:43:20 1046

高效精准，LightGBM 重塑时间序列预测格局！！！

LightGBM数据集

2025-04-02

【0 基础也能懂！】系列超市小票 + 奶茶订单：自创5 个生活场景数据集（含脏数据）

奶茶店订单数据集生成代码首先定义了基础元素，包括日期范围，商品列表然后确定业务逻辑-周末效应，天气促销等对于每条订单，生成含脏数据的字段最后将生成的数据保存为带业务场景的奶茶店订单.csv 字段为：日期、星期、商品、销量、客单价、优惠券（是否使用）、天气超市小票数据集生成代码首先定义了可能的商品信息，包括商品名称、分类和价格。然后确定了日期范围，在这个日期范围内随机生成每天的购买记录。对于每次购买，随机选择商品、数量、会员等级和是否促销。最后将生成的数据保存为超市小票.csv文件。电商复购数据集生成代码定义了用户数量和日期范围，以及可能的商品列表。对于每个用户，随机生成首次购买时间和首次购买的商品。随机生成复购次数，根据复购次数计算最近复购时间和总消费金额。最后将生成的数据保存为电商复购数据.csv文件。

2025-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人