自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(104)
  • 收藏
  • 关注

原创 【知识图谱】电商行业的完整技术实践教程(5万字完结篇)

所有可能的实体对:(“Mate40”,“华为”), (“Mate40”,“手机”), (“华为”,“手机”)。送入关系模型分类,预期输出 (“Mate40”,“华为”): 品牌, (“Mate40”,“手机”): 属于类别, (“华为”,“手机”): 无关系。,定义了图谱中概念和关系的类型层次结构,相当于知识图谱的“纲领”和“schema”。训练完成后,当模型看到新的句子,比如“苹果的MacBook笔记本性能强大”,识别出实体“苹果”(品牌)和“MacBook”(产品)后,就能正确输出关系“品牌”。

2025-05-19 23:04:10 1475

原创 【深度学习】03-神经网络 3-3 梯度下降的优化方法-动量算法Momentum

动量算法是一种改进的梯度下降方法,通过引入“动量”来减少震荡、加速收敛,并避免陷入局部最优解。通过结合当前和过去的梯度更新,动量算法能够有效改善传统梯度下降的缺陷,尤其在神经网络训练中表现优异。Nesterov 动量是动量算法的一种改进变种,能够进一步加速收敛,尤其在较为复杂的损失函数表面。%5Ctheta。

2024-09-24 09:41:13 2983

原创 企业 RAG 系统模型选型与部署综述

例如,中国某大型银行构建了面向内部员工的知识问答助手,采用 ChatGLM2-6B 模型配合银行政策文件库,实现了对业务流程、合规要求的准确回答。其二,对于一些复杂或自定义的模型结构,转换为ONNX可能遇到不支持的算子,需要额外实现自定义Kernel或fallback,增加部署难度,并可能降低推理效率。底层为可插拔的大语言模型(支持本地部署 Qwen、Baichuan、ChatGLM 等或OpenAI云模型),中间为RAG检索增强模块(负责向量检索、结果过滤及与LLM的融合),上层为业务应用接口层。

2025-06-01 00:00:45 573

原创 【大模型部署】mac m1本地部署 ChatGLM3-6B 超详细教程

在 mac m1 16G 上完全离线 的本地模型目录上,跑通官方 ChatGLM3-6B

2025-05-31 22:33:27 1014

原创 【大模型/MCP】MCP简介

MCP 的简介,以及优势对比与简单python案例

2025-05-29 21:09:33 1019

原创 【大模型MCP】MCP 深度解析:AI 时代的「USB-C」接口——原理、对比、实战代码与行业落地

MCP 由 Anthropic 于 2024 年底提出,借助 JSON-RPC 2.0 消息格式和 WebSocket 长连接,为大模型与外部工具/数据源之间提供统一、实时、双向的调用规范。2025 年 3 月正式版发布后,OpenAI Responses API、Google Gemini SDK、Replit、Sourcegraph Cody 等均宣布兼容,形成涵盖 IDE、区块链、云服务及企业知识库的生态链。相较 REST/GraphQL,MCP 具备调用集中、实时推送、批量/通知支持与 JSON S

2025-05-29 21:00:17 901

原创 【RAG】一文读懂:Tokenizer 与 Embedding 的核心区别和模型选型以及如何用原生 Encoder 生成中文语义向量(附带 C-MTEB 中文句向量模型 TOP 10 排行榜)

在构建 RAG 或检索系统时,如何选择embedding 模型,确实是一个难题,本文给出embedding 模型和Tokenizer的区别,并给出当前企业排名前十的模型以及建议。

2025-05-28 00:55:55 666

原创 【大模型微调】3万字详解大模型PEFT高效微调:从 P-Tuning 到 LoRA/QLoRA/AdaLoRA/DoRA/EDoRA 附代码使用详解

随着大规模预训练模型在各行各业落地,传统的全量微调成本高昂且难以规模化。本文回顾了 2019–2025 年间参数高效微调(PEFT)的演进路径:从在每层插入“小瓶颈”适配器的 Adapter-Tuning,到影响每层注意力的 Prefix-Tuning/Prompt-Tuning,再到零延迟、可合并的低秩 LoRA 及其衍生系列(QLoRA、AdaLoRA)、最终稳定收敛的 DoRA/EDoRA。我们详细剖析了每种方法的原理、插层位置、典型超参及优缺点,并提供了 GPT-2 + 🤗 PEFT ≥ 0

2025-05-26 00:32:46 1042 1

原创 【大模型提示词】面向超大规模模型的提示词工程

让同一基座模型快速“贴题”。常见做法:Prefix/Prompt-Tuning、Adapter-Tuning、LoRA 及 QLoRA。:提示工程关心“问得巧不巧”,PEFT 关心“改得省不省”;三招提示法+三类 PEFT 共同撑起 2025 年企业级 LLM 落地:前者解决“怎么问”,后者解决“如何接线”。用多任务「指令→答案」再训练一次,让模型学会“看到指令就执行”:先用大量“指令→答案”微调,让模型学会“听指令”。:把少量“示例→答案”塞进同一次输入,靠语言模型的。

2025-05-25 00:00:09 613

原创 【深度学习】损失“三位一体”——从 Fisher 的最大似然到 Shannon 的交叉熵再到 KL 散度,并走进 PET·P-Tuning微调·知识蒸馏的实战

1912 Fisher 用最大似然把「让数据出现概率最高」变成参数学习;1948 Shannon 把交叉熵解释成「最短平均编码长度」;1951 Kullback-Leibler 用相对熵量化「多余信息」。三条历史线落到今天深度学习同一个损失——交叉熵。下面按 时间 → 问题 → 数学 → 代码 的顺序拆解,并演示它们在二/多分类、知识蒸馏(含温度 T)和 PET 软模板微调里的角色。

2025-05-24 23:42:11 849

原创 【大模型微调】高效微调方法综述:P-Tuning软提示与lora低秩微调附案例代码详解

本文系统回顾了大规模预训练语言模型在2025年的主流微调策略,重点聚焦于软提示(Soft Prompt)与参数高效微调(PEFT)两大类方法。首先比较了 Prompt Tuning 与 P-Tuning 的差异,阐明了前者直接优化提示向量、后者通过小型网络对提示嵌入进行编码的技术特点。继而介绍了 LoRA(Low-Rank Adaptation)与 QLoRA 在 Transformer 层注入低秩分解和 4-bit 量化的原理与实践优势,展示了如何将参数更新量降至千分之一并大幅降低显存占用。最后结合 BE

2025-05-23 23:59:41 740

原创 【大模型微调】PET,Prompt Tuning,P Tuning,Lora,Qlora 微调的简介

QLoRA在LoRA之上先将预训练模型量化至4-bit(NF4),再冻结量化权重并仅训练LoRA分支,显存占用降低近3倍,却保持与16-bit LoRA几乎相同的性能,被用于在单块48 GB GPU上微调65B参数模型(如Guanaco)至近ChatGPT水平。LoRA于2021年问世,通过冻结Transformer的主干权重,在每层线性映射旁支注入两段低秩矩阵 A 与 B,仅训练 A,B,可训练参数量减少约10,000倍,且推理阶段无额外延迟。

2025-05-23 23:14:45 779 1

原创 【大模型位置编码】2万5千字详解:Transformer 位置编码的演进历程:从正余弦到可学习,到相对位置,旋转位置RoPE,线性偏置ALiBi 与多模态到deepseek R1的位置编码

Transformer 模型需要注入位置信息来理解序列顺序。从原始 Transformer 采用的正弦绝对位置编码,到 BERT/GPT 等使用的可学习绝对位置嵌入,再到 Transformer-XL、T5 引入的相对位置编码,以及近年流行的旋转位置编码 RoPE 和线性偏置位置编码 ALiBi,位置编码技术不断演进。此外,在视觉和多模态模型中还发展出 2D/3D 位置编码方案。本文将全面介绍这些位置编码方法产生的背景、数学原理、优缺点,并列举采用它们的中英文主流大模型(如 LLaMA、BLOOM、De

2025-05-22 22:23:39 1070

原创 【大模型优化】深入理解 Pre-LayerNorm :让 Transformer 训练更稳

超深 Transformer 与大语言模型(LLM)时代,归一化策略直接决定了模型能否稳定收敛、推理性能能否最大化。把归一化层从 “残差之后” 挪到 “子层之前”(Pre-LayerNorm,Pre-LN),再将传统 LayerNorm 简化为 RMSNorm——只做均方根缩放、不再减均值——是 GPT-3、LLaMA-4、DeepSeek-V3 等主流 LLM 的标准做法。Pre-LN 让每一层在进入注意力或前馈前就保持单位尺度,显著缓解梯度爆炸/消失;RMSNorm 进一步减少 7-64 % 归一化 F

2025-05-22 00:01:01 856

原创 【大模型优化】transformer归一化层优化:深度解读 RMSNorm (Root Mean Square Layer Normalization,均方根层归一化)

导读:RMSNorm 把传统 LayerNorm 的“减均值(centering)+ 除标准差(scaling)”简化为“直接除以向量均方根 (Root Mean Square, RMS,均方根)”。这一改动让归一化既 更省算 又 同样稳定,因而成为 LLaMA-2/3/4、DeepSeek-V3 等主流大语言模型的默认配置。本文从数学原理、效率优势、典型落地案例到工程迁移步骤,全方位讲透 为什么要用 RMSNorm、何时用 RMSNorm、怎么用 RMSNorm。

2025-05-21 23:36:57 984

原创 【大模型优化】Multi-Query Attention:传统自注意力( Self-Attention)优化显存和加速方案

Multi-Query Attention 通过共享 Key / Value、仅为每个头保留独立 Query,使注意力计算的时间复杂度不变、显存使用与 I/O 成本成倍下降;在 GPT-NeoX-20B 长序列基准中将推理速度提升 30-40%,显存削减约 60%。

2025-05-21 23:18:24 1059

原创 【大模型优化】FlashAttention:传统自注意力( Self-Attention)优化加速实现

FlashAttention 是一套专为 GPU 优化的精确自注意力(Self-Attention)实现,通过“输入/输出感知”(IO-awareness)和块化(Tiling)策略,利用片上 SRAM 缓存大幅降低对高带宽显存(HBM)的访问,进而在保持数值精度的前提下实现 1.5×–3× 的训练与推理速度提升,同时将显存峰值降低 50% 以上。本文从背景动机、核心优化点、使用案例、性能评测及未来演进等方面,深入剖析 FlashAttention 的设计与应用,并给出完整的 教程示例代码,帮助读者快速上手

2025-05-21 22:51:35 817

原创 【大模型优化】为什么要用“人类反馈强化学习(RLHF)”以及它的大致流程

在 RLHF(Reinforcement Learning from Human Feedback)的流程中,“重复上述过程多次” 指的并不是把监督微调(SFT)和奖励模型训练(RM)也都重新跑一遍,而是指在第三阶段——也就是使用奖励模型+PPO 来对策略模型(policy)进行强化学习微调(RFT)的循环过程不停地迭代。具体来说,整个 RLHF 通常分三大步:1. 监督微调(Supervised Fine-Tuning, SFT):用人工编写或标注的示例教会模型基本的问答格式和初步能力,一次性

2025-05-21 20:52:39 526

原创 【大模型】深入浅出 MoE 模型:从传统 Transformer 到 DeepSeek-V2 的稀疏专家解析

MoE 是一种将多个专门化子模型(专家)组合在一起,并使用一个门控函数(gating)为每个输入动态分配最合适专家的方法,能够高效学习复杂数据分布。在深度学习中,Mixture-of-Experts 通常将原本在单一路径上执行的前馈网络(FFN)拆分为 n 个并行专家,每个专家拥有独立参数集,门控网络根据输入分配稀疏激活模式。

2025-05-21 20:14:28 869

原创 【大模型优化】KV 缓存 与 MLA(Multi‐Head Latent Attention) 压缩之间的关系,以及它们在 Decoder-Only MoE 模型中的协同方式

KV缓存技术在自回归生成模型中扮演着关键角色,通过存储历史token的Key/Value矩阵,避免了重复计算,显著降低了推理复杂度。然而,随着上下文长度的增加,缓存体量线性增长,成为硬件存储和通信的瓶颈。MLA(Multi-Head Latent Attention)技术通过低秩投影将全维度的K/V矩阵压缩为较小的潜在矩阵,极大减少了缓存体积和通信开销。将MLA与KV缓存结合,不仅保持了生成质量,还将显存占用降至原先的6.7%,并提升了推理吞吐率5.8倍。此外,MLA与MoE(Mixture-of-Expe

2025-05-21 19:52:57 785

原创 【大模型】GPT 等decoder系列常见的下游任务

本文介绍了一种基于Transformer(如GPT/Decoder-Only模型)的统一架构,用于处理多种自然语言处理(NLP)任务。核心思路是使用同一个Transformer作为特征抽取器,通过在输入端拼接不同格式的token序列(如Start、Delim、Extract等特殊标记),并在输出端接上任务特定的小头(task-specific head),微调时仅训练这些新加层。文章通过四个例子(文本分类、文本蕴涵、文本相似度、多选/常识推理)展示了如何通过调整输入序列和输出头来适配不同任务。这种方法的优势

2025-05-21 18:25:09 964

原创 【深度学习】bert 四类最常见的下游任务

BERT 输出每个 token 的向量,再在每个向量后面接一个分类层(linear+Softmax),输出 O/B-PER/B-LOC…把预训练的 BERT+上述小头(task head)一块送入数据,用较低的学习率微调几轮,就能在各种下游任务上轻松跑出 SOTA 水平。在最前面加一个特殊的 [CLS] Token,后面跟上两个句子中所有的词和一个分隔符 [SEP];BERT 编码器跑完以后,取最左边 [CLS] 对应的输出向量(黄色的 E[CLS])BERT 编码后,不是只取一个 [CLS],而是对。

2025-05-20 23:51:44 276

原创 【深度学习】BERT 作为Transformer的Encoder 为什么采用可学习的位置编码

本文探讨了BERT模型在位置编码上选择可学习(learned)位置嵌入而非原始Transformer中的正弦/余弦(sinusoidal)编码的原因。主要分析了BERT选择learned positional embeddings的四大核心原因:实现与推理效率、固定最大长度、领域自适应能力以及参数代价微小。通过实验和社区实证,本文对比了两种编码方式在下游任务中的性能差异,发现learned编码在性能和资源消耗上更具优势。此外,本文还对比了其他主流模型如GPT系列在位置编码上的选择,指出BERT的设计选择符合

2025-05-20 23:41:06 763

原创 【大模型优化】超长文本注意力机制如何突破传统 O(n²) 瓶颈

文章探讨了在超长文本生成与预测中,如何通过改进注意力机制来突破传统O(n²)的计算瓶颈。传统的Transformer模型在处理长序列时,由于每个Token需要与所有其他Token计算注意力分数,导致时间和内存复杂度极高,难以在常规硬件上运行。为了解决这一问题,研究者提出了多种高效注意力算法,包括IO感知、稀疏化/线性化以及层次化/记忆增强注意力机制。这些方法显著降低了计算和存储开销,使得部分模型能够处理100K级以上的上下文。具体技术包括FlashAttention系列、稀疏注意力变体如Longformer

2025-05-20 22:48:45 288

原创 【大模型】大语言模型的评估指标

统计参考文本中的所有 n-gram 总数,以及这些 n-gram 在机器生成文本中被“召回”了多少,并以召回率形式给分(召回率=召回 n-gram 数/参考文本中 n-gram 总数)。:统计译文中每个 n-gram 在参考译文中出现的次数(最多算参考中出现次数),并除以译文中该 n-gram 的总数,得到每个阶数的匹配度。困惑度(PPL)是衡量语言模型预测下一个词不确定性的指标,本质上是测试集上交叉熵的指数形式,值越低说明模型越不“困惑”,预测越准确。支持多种子指标,更灵活。

2025-05-20 22:44:28 804

原创 【知识图谱】电商行业的完整问答系统技术实践教程

知识图谱(Knowledge Graph)是人工智能领域的重要技术,由谷歌于2012年提出,广泛应用于搜索、自然语言处理、智能助手和电子商务等领域。知识图谱通过图结构表示知识,节点代表实体或概念,边代表实体间的关系。其核心技术包括数据获取、信息抽取、知识表示、知识融合和图数据库存储与查询。本文以电商行业为例,详细介绍了知识图谱的构建流程,包括数据收集与标注、实体识别与关系抽取模型训练、知识图谱构建与可视化、接口开发与部署等。文章还探讨了知识图谱的技术难点与未来趋势,如与大语言模型的融合、图神经网络的应用等,

2025-05-19 18:49:16 617

原创 【知识图谱】Neo4j 图数据库简介

本文全面介绍了Neo4j图数据库的核心概念、安装配置、Cypher查询语言以及性能优化与集群部署等实用内容。Neo4j作为专为关联密集型数据设计的图数据库,通过节点、关系和属性高效表达复杂网络结构。文章详细讲解了Neo4j的社区版和企业版区别,并提供了Windows环境下的安装与配置指南。Cypher语言的基础与进阶用法涵盖了节点和关系的创建、查询、更新、删除等操作,以及常用函数与聚合。此外,文章结合电商推荐和社交网络分析等典型场景,展示了Neo4j的实际应用。最后,性能优化部分提供了内存配置、查询优化和批

2025-05-15 21:58:06 701

原创 【知识图谱】从规则到大模型:知识图谱信息抽取实体NER与关系RE任务近10年演进发展详解

本文回顾了关系抽取与实体抽取领域的经典与新兴模型,清晰地梳理了它们的出现时间与核心创新,并给出在 2025 年不同资源与场景下的最佳实践推荐。文章引用了 BiLSTM‑CRF、BiLSTM‑CNN‑CRF、SpanBERT、LUKE、KnowBERT、CasRel、REBEL、UIE 等模型的原始论文与权威来源,帮助读者全面、系统地理解信息抽取技术的发展脉络与应用指南。

2025-04-22 00:00:27 1032

原创 【深度学习】从零开始构建 Transformer:完整代码、原理解析:《Attention Is All You Need》

本文全面解析了 Transformer 模型的原理与实现,详细介绍了模型背景、核心技术、各模块设计及代码实现。文章从词嵌入、位置编码、注意力机制、多头注意力、前馈网络、层归一化到残差连接,逐层剖析 Transformer 模型的设计思路,并提供了完整的 PyTorch 代码实现。文中还讨论了掩码生成和参数初始化的细节,为读者深入理解 Transformer 模型及其优化提供了实战指南。无论你是 NLP 新手还是深度学习专家,都能从中获得启发,助力你在实际项目中成功应用 Transformer 模型。

2025-03-30 00:45:03 845

原创 【深度学习】模型剪枝代码详解

模型减枝

2025-03-14 00:21:44 112

原创 【深度学习】知识蒸馏代码详解

T 让数据更加平滑,大的值缩小,小的值变大,T越大,越平滑。

2025-03-13 03:11:54 218

原创 【深度学习CV】【图像分类】从CNN(卷积神经网络)、ResNet迁移学习到GPU高效训练优化【案例代码】详解

本文详细介绍了三种不同的方法来训练卷积神经网络进行 CIFAR-10 图像分类任务,帮助读者从零开始学习如何设计和优化深度学习模型。首先,我们通过手工设计一个卷积神经网络并进行训练,讲解每个层次的作用和设计思想;接着,我们使用一个开源模型 ResNet34,并对其进行微调以适应我们的数据集;最后,我们通过一系列高效的训练技巧,显著提高训练效率,减少训练时间。最终,您将不仅能实现这一目标,而且能够举一反三,设计自己的模型,提升模型效率。

2025-03-06 00:00:16 1260

原创 【卷积神经网络】【图像分类】【实战案例】全流程图像分类实战:手工设计CNN、ResNet迁移与高效训练优化详解

有人说为什么不用yolo v8,yolo v10系列。

2025-03-05 23:58:16 118

原创 【区块链】web3.0简介

Web3.0 是基于区块链及相关技术打造的全新互联网架构,旨在通过去中心化和开放性的方式,将数据、身份和数字资产的控制权还给用户,从而打破传统平台的垄断。这一概念不仅涉及去中心化金融、NFT、DAO 和元宇宙等热门领域,同时也面临扩展性、用户体验及监管等挑战。虽然 Web3.0 目前仍处于发展初期,但它已经引发了全球科技、投资和学术界的广泛关注,被视为可能重塑未来互联网的重要方向。

2025-03-02 23:56:48 1272

原创 【Linux】Vim 常用快捷键大全:跳转、编辑、查找替换全解析

Vim 是一款非常强大的文本编辑器,许多程序员和系统管理员都离不开它。本文详细介绍了 Vim 编辑器中的常用快捷键和命令,从基本模式、光标移动、编辑操作到查找替换,再到文件保存等常用操作,帮助你快速上手并提升编辑效率。无论你是 Vim 新手还是资深用户,都能从中找到提升效率的技巧。阅读本文后,你将熟悉 Vim 的各种操作,让编程、写作变得更加高效!

2025-03-02 21:23:42 1050

原创 【Linux】在 macOS 使用 .pem 私钥免密登录腾讯云服务器

本文详细介绍了如何在 macOS 系统中使用腾讯云下发的 .pem 私钥文件进行 SSH 免密登录。内容涵盖了如何将私钥文件安全地放置到 ~/.ssh/ 目录、设置适当的文件权限、使用私钥连接远程服务器以及如何配置 SSH 配置文件简化登录流程。此外,文章还解答了使用过程中常见的问题,如为什么需要 chmod 400、私钥文本内容的解释、以及 Windows 环境下的转换问题等。希望通过本文,读者能够快速掌握密钥对登录的相关操作,提升云服务器管理的安全性与效率。

2025-03-01 22:39:23 1151

原创 【深度学习】【文本生成】循环神经网络案例讲解-基于 PyTorch 的中文歌词生成——RNN,LSTM,GRU 从数据预处理到预测全流程详解

本文详细介绍了如何利用 PyTorch 构建一个简单的中文歌词生成系统。文章从数据预处理、词表构建、数据集与 DataLoader 制作,到基于 RNN 的模型搭建、训练及预测全过程进行了讲解。同时,对项目中可能的改进方向如使用 LSTM/GRU、多层 RNN、采样策略等进行了讨论。本文适合有一定深度学习基础、希望快速上手文本生成任务的同学参考学习。

2025-02-28 23:21:07 1604 1

原创 【深度学习】循环神经网络(RNN)及其改进:LSTM 与 GRU 代码实践以及常见问题

本文详细介绍了循环神经网络(RNN)在处理长序列时存在的梯度问题,并重点解析了 LSTM 与 GRU 的改进原理。通过对比 RNN、LSTM 与 GRU 的结构、输入输出形式以及训练和预测过程中的差异,帮助读者更好地理解它们在捕捉长程依赖和稳定训练方面的优势。同时,文章还讨论了如何通过梯度裁剪、合理初始化等方法修复梯度爆炸问题。

2025-02-28 22:48:52 1158

原创 【随想笔记】赚钱的事与值钱的事

如同,比尔的供水系统,在拧开水龙头,清水流出之前,他所面对的,是日复一日的现金消耗,以及所有人对他的无尽质疑——我们到底能不能完成这件事,接通水,赚到钱?过去的半年时间里,他做了商业计划,找到了投资,注册了公司,并雇用了项目施工管理的专业人员。但是,你赚钱的时候,别人在设计一个更大的结构覆盖你,当比尔的水管接通,艾德愤怒妒恨哭天抢地找村长都是没用的。从投资人角度看比尔的水管,要基于对市场需求与供給能力、成本结构、市场变化概率的评估后,进行估值、投资,然后建设、收益分成。赚钱的事的核心,是当下的利差。

2025-02-26 23:40:38 224

原创 【深度学习】【多分类】神经网络多分类任务的一站式解决方案 从数据预处理到结果解析,手把手教你做手机价格预测

本文将从零开始构建一个多分类的 PyTorch 项目,以预测二手手机的价格区间。我们会详细介绍数据集构建、模型设计、模型训练、模型评估等流程,并结合可视化(如混淆矩阵、分类报告)来剖析模型效果。最后,还给出多种可行的改进方法(如使用 Adam、增加网络深度、标准化数据等),帮助你快速提升模型表现。

2025-02-26 22:24:06 1187

【深度学习CV】图像分类如何训练一个高效的 图像分类模型:手工设计CNN、开源模型resnet到GPU优化

【深度学习CV】【图像分类】如何训练一个高效的 图像分类模型:手工设计CNN、开源模型resnet到GPU优化 包含代码完整的代码,和优化过程~

2025-03-06

深度学习循环神经网络案例讲解-基于 PyTorch 的中文歌词生成-RNN,LSTM,GRU 从数据预处理到预测全流程详解

循环神经网络 RNN,LSTM, GRU 歌词预测代码与数据

2025-02-28

深度学习多分类任务的一站式解决方案!从数据预处理到混淆矩阵,手把手教你做手机价格预测

包含数据和完整的代码以及结果和可视化过程

2025-02-26

机器学习【KMeans聚类分析实战】用户分群聚类详解-SSE、CH 指数、SC全解析,实战电信客户分群案例

包含输入输出,可视化案例。聚类算法

2025-02-23

从 ID3 到 CART:一文看懂决策树核心原理,实战 Titanic 乘客生存预测

cart,cd3, c4.5 决策树代码和可视化,数据,完整资源

2025-02-23

【计算机视觉基础CV】03-深度学习图像分类实战:鲜花数据集加载与预处理详解

训练和验证集数据

2024-12-19

深度学习03-神经网络 5 (完结篇) - pytroch手机价格分类案例讲解

神经网络手机价格预测数据集

2024-09-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除