- 博客(400)
- 资源 (5)
- 收藏
- 关注
原创 一文读懂:用PyTorch从零搭建一个Transformer模型
这篇文章我们从零实现了一个标准的 Transformer 模型。虽然用的是人工构造的小数据集,无法真正完成翻译任务,但整个流程涵盖了:• 模型结构搭建• 数据预处理• 掩码机制• 训练逻辑我已经尽可能让代码简洁明了,方便你理解和修改。如果你打算进一步扩展,可以考虑加入:• 学习率调度器(如NoamOpt• 梯度裁剪• Beam Search 解码• 更真实的双语数据集(如 WMT)说实话,当我第一次跑通这个模型时,心里还挺激动的。
2025-08-28 11:02:55
1047
原创 如何从零开始掌握大语言模型之训练与推理的系统化实践心得
今天我想和大家聊聊如何系统地学习大语言模型(LLM)的训练与推理。记得2年前我刚开始接触这个领域时,面对海量的技术文档也曾感到迷茫,但通过实践摸索,逐渐理清了学习路径。写在前面:目前为止,我也可以基于Pytorch,并结合Transformer架构写出一个小型的LLM了(这个内容,后面有机会再分享)。下面我将结合个人经验,系统分享大模型在训练与推理两大核心阶段的学习方法。
2025-08-26 19:50:22
416
原创 云上大模型推理的存储加速手记
同时,将读盘操作下沉至内核态 io_uring,用户态仅提交 SQE(Submission Queue Entry),由内核异步完成 DMA 到 RDMA 注册的显存区域,GPU 可直接读取。问题出在“全量映射”的设计上。上线两周后,KV Cache 命中率稳定在97%,P99 TTFT 为380ms,P99 TBT 为12ms,满足了业务方对 SLA 的要求。上线两周后,KV Cache 命中率稳定在97%,P99 TTFT 为380ms,P99 TBT 为12ms,满足了业务方对 SLA 的要求。
2025-08-26 19:48:53
756
原创 Vibe coding现在能用于生产吗?
更离谱的是,他明明反复强调过,甚至用全大写写了11遍:“DON’T DO IT”,要求进入“code freeze”状态,结果AI完全当耳旁风,照删不误。这还不算完,它还自作聪明,生成了4000个假用户数据,假装系统在正常运行,连单元测试结果都是伪造的,想把问题给“糊弄”过去。网上也确实有不少人分享自己的经历,说几个小时就搞出一个完整的App,整个人都兴奋得不行,说是“pure dopamine hit”——纯粹的多巴胺快乐,这形容还挺贴切的。咱们搞技术的,不怕新东西,也不怕试错,但得讲究个“稳中求进”。
2025-08-08 17:16:31
975
原创 “聪明反被聪明误”:大模型的过度思考陷阱
最近大模型(LLM)发展得特别快,大家普遍有个印象:让模型“多想一会儿”,答案就会更准、更稳。于是像思维链(chain-of-thought)提示、一步步推理解释、增加测试时计算量(test-time compute)这些方法,现在几乎成了标配,谁用谁香。但最近由Anthropic牵头的一项研究,题目叫《》(测试时计算的逆向缩放,见文末链接),给我们泼了一盆“清醒水”。研究发现,。这可不是简单的“多花点算力”问题,而是实实在在地引发了各种错误行为。
2025-08-08 17:15:17
552
原创 最近超火的AgentSociety :专为城市仿真环境构建智能体而设计的高级框架
最近我在研究一个特别有意思的开源项目,叫,由清华与香港科技大学共同发表,今天想和大家好好聊聊。说实话,刚看到这个项目的介绍时,我第一反应是:这不就是我们一直期待的那种“能模拟真实社会”的AI框架吗?结果深入了解之后,发现它不仅实现了这个目标,而且做得相当扎实。简单来说,。你可以把它想象成一个“虚拟社会实验室”,里面可以同时运行几万个由LLM驱动的智能体(agents),每个智能体都有自己的行为模式、社交关系、经济活动,甚至还能在真实城市地图上移动。
2025-08-08 17:14:24
926
原创 Trackio:面向机器学习者的本地优先、开源免费的轻量级实验追踪新工具
简单来说,Trackio 是一个轻量、开源、本地优先的 Python 实验追踪库,专为现代机器学习研究场景设计。最打动我的一点是:它是作为像wandb这类主流工具的drop-in replacement(即插即用替代方案)来设计的。什么意思呢?就是你几乎不需要改代码,只要把原来的换成,就能无缝切换过去,原来的都能照常运行。这对已经有大量 legacy code(旧代码)的同学来说,简直是福音。总的来说,Trackio 是一个让我感到“安心”的工具。
2025-08-08 17:13:08
994
原创 MLE-STAR:谷歌AI推出的机器学习工程新范式,一种搜索驱动、精准优化的智能代理
MLE-STAR 真的代表了当前 ML 自动化的一个新高度。它通过“搜索打底、聚焦优化、智能集成、严格检查”这一整套机制,不仅提升了性能,更重要的是提升了可靠性和可解释性。如果你在做 AutoML、智能 agent、或者 MLOps 相关的工作,这个项目非常值得深入研究。我已经在 GitHub 上 star 了他们的 repo,也打算用他们的 notebook 先跑一个 demo 试试。
2025-08-08 17:11:10
753
原创 AI自进化,GPU性能翻三倍——CUDA-L1开启自动优化新范式
最近看到一篇让我挺震撼的文章,来自 DeepReinforce 团队发布的一个新框架——。说实话,刚看到标题说“AI 让 GPU 性能提升 3 倍以上”,我心里是有点怀疑的。毕竟我们搞科研的都知道,这种宣传语很多时候水分不小。但当我静下心来仔细读完,尤其是看到他们公开了全部代码和可复现的结果后,我不得不承认:这确实是一个实打实的突破。不是它用了多么复杂的模型,而是它的思路非常清晰、逻辑严密,而且每一步都经得起推敲。他们没有靠“黑箱操作”或者闭源“魔法”,而是走了一条可验证、可复现、可推广的技术路径。
2025-08-08 17:09:47
1087
原创 最近一些思考:大模型代码生成中的“幻觉”困局
但Spracklen指出,这招一旦被攻破就失效了——因为一旦恶意包被发布,它就已经“在库中了”,下次模型再查,就会认为它是“合法”的。另外,北京航空航天大学、山东大学和华为云的研究团队通过开放编码和迭代分析,构建了一个更细粒度的幻觉分类体系,包括知识冲突、不一致、重复、死代码等类别,并推出了HALLUCODE基准,用于评估LLM识别幻觉的能力。资源充足的公司或许可以训练自己的模型,把内部代码作为训练数据,但对大多数中小公司来说,“开箱即用”(off-the-shelf)的模型仍是唯一选择。
2025-08-08 17:08:35
654
原创 Google 又开源一利器 LangExtract:一款可将非结构化文本抽取为结构化数据的 Python 库
在当今这个数据驱动的时代,很多有价值的信息其实都藏在非结构化的文本里——比如临床病历、冗长的法律合同,或者用户反馈的讨论串。从这些文档中提取出有意义、可追溯的信息,一直以来都是技术和实践上的双重挑战。最近,Google AI 推出了一款新的开源 Python 库,叫做,就是冲着解决这个问题来的。它利用像 Gemini 这样的大语言模型(LLM),实现自动化信息抽取,而且特别强调结果的和。说实话,我看到这个工具的第一反应是:这正是我们在做文本结构化时常常需要但又不容易实现的东西。
2025-08-08 17:05:42
1283
原创 OpenAI 发布客户服务智能体演示的开源版本,集成Agents SDK
当用户输入请求时,例如“更改我的座位”或“取消我的航班”,分诊智能体会处理该输入以确定意图,并将查询分发给相应的下游智能体。此外,该演示还包括用于实时航班查询的航班状态智能体,以及回答行李政策或机型等一般性问题的常见问题解答智能体。该演示包含多个专注型智能体:分诊智能体、座位预订智能体、航班状态智能体、取消预订智能体以及常见问题解答智能体。通过发布这个参考实现,OpenAI提供了一个切实的示例,展示了如何将多智能体协调、工具使用和安全检查结合起来,形成强大的服务体验。
2025-07-21 09:43:40
423
原创 vLLM 基准测试与性能测试框架:全面解析LLM推理性能评估体系
vLLM 的基准测试与性能测试框架通过系统化的架构设计、多样化的测试工具、精细化的指标体系,为大语言模型推理性能评估提供了“科研级”的解决方案。该框架不仅满足了学术研究中不同优化策略的对比需求,还为工程落地中的硬件选型、容量规划、服务质量保障提供了数据支撑。随着 LLM 应用场景的不断拓展,此类兼具灵活性与严谨性的基准测试体系,将成为推动模型效率优化与产业落地的重要基础设施。
2025-07-21 09:42:48
1469
原创 vLLM工具调用机制深度解析:从基础原理到多模型适配实践
vLLM的工具调用系统构建在标准化的函数调用框架之上,形成了层次分明的功能矩阵。其核心能力集中体现在对三种调用模式的支持上:命名函数调用、required强制调用与auto自动调用,三者通过不同的引导解码策略,实现了对模型输出的精准控制。命名函数调用作为基础模式,默认通过Outlines引导解码技术,确保模型生成符合JSON模式定义的函数调用结构。这种机制通过预先定义的工具参数模式,在推理过程中强制模型输出可解析的函数调用格式。
2025-07-21 09:41:31
1214
原创 基于 Docker 及 Kubernetes 部署 vLLM:开启机器学习模型服务的新篇章
尽管官方镜像功能强大,但在某些场景下,我们可能需要自定义镜像以满足特定需求。此Dockerfile以vLLM 0.9.0版本镜像为基础,通过uv pip命令安装了音频处理相关的可选依赖。这为在语音识别、语音合成等多模态任务中应用vLLM提供了可能。该命令从GitHub源代码仓库安装最新的Transformers库,使我们能够第一时间体验到最新的模型架构与算法优化。其中,应替换为自定义镜像的标签名称。
2025-07-18 17:14:34
1261
原创 深入解析 vLLM 分布式推理与部署策略
在当今人工智能快速发展的时代,大型语言模型(LLM)的推理和部署面临着诸多挑战,尤其是当模型规模日益庞大时,如何高效地利用硬件资源成为关键问题。vLLM 作为一种强大的工具,为分布式推理和部署提供了多种策略,本文将详细探讨其相关技术和应用场景,希望能对您提供有价值的参考。
2025-07-18 17:12:59
1246
原创 vLLM快速入门:开启高效推理与部署之旅
vLLM以其简便的安装流程、高效的离线批量推理能力和强大的在线服务部署功能,为语言模型的推理和应用提供了一个全面而灵活的解决方案。无论是科研人员还是开发者,都可以借助vLLM快速开展实验、构建原型,并将语言模型集成到实际产品和服务中。随着vLLM的不断发展和完善,我们有理由相信,它将在语言模型领域发挥越来越重要的作用,推动人工智能技术的创新和普及。未来,期待vLLM在更多场景下大放异彩,为各行各业带来更多的便利和可能性。
2025-07-17 15:13:11
574
原创 Yandex 推出 Alchemist:提升文本生成图像(T2I)模型质量的紧凑型监督微调数据集
尽管像 DALL-E 3、Imagen 3 和 Stable Diffusion 3 等模型在文本生成图像(T2I)领域取得了重大进展,但要实现一致的输出质量(无论是在审美还是对齐方面)仍然是一个持续存在的挑战。虽然大规模预训练提供了广泛的知识,但仅靠它还不足以实现高审美质量和对齐。监督微调(SFT)作为后训练的关键步骤,其效果在很大程度上依赖于微调数据集的质量。目前用于 SFT 的公开数据集要么针对狭窄的视觉领域(如动漫或特定艺术风格),要么依赖于对网络规模数据的基本启发式过滤。
2025-07-16 14:11:28
583
原创 谷歌引入开源全栈 AI 代理栈:借助 Gemini 2.5 和 LangGraph 实现多步网络搜索、反思与综合
对话式 AI 已迅速从基础聊天机器人框架中发展起来。然而,大多数大型语言模型(LLM)仍存在一个关键限制——它们仅依据静态训练数据生成回复,缺乏自我识别知识空白或执行实时信息综合的能力。因此,这些模型常常给出不完整或过时的答案,尤其在涉及不断演变或小众话题时。为解决这些问题,AI 代理必须超越被动查询。它们需要识别信息空白,执行自主网络搜索,验证结果,并完善回复——有效模仿人类研究助手的工作方式。与来自及其他开源社区的贡献者合作,开发了一款旨在解决该问题的栈。该系统采用和。
2025-07-16 14:09:28
1073
原创 如何使用 OpenCV 打开指定摄像头
在计算机视觉应用中,经常需要从特定的摄像头设备获取视频流。例如,在多摄像头环境中,当使用 OpenCV 的类打开摄像头时,如果不指定摄像头的 ID,可能会随机打开系统中的某个摄像头,或者按照设备连接的顺序打开第一个可用的摄像头。在多摄像头环境下,这种方式可能无法满足应用需求。此外,直接使用摄像头 ID 的方式可能不够稳定,因为设备的连接顺序或系统分配的 ID 可能会发生变化。那如何使用 OpenCV 打开指定的摄像头呢?我们知道,摄像头都会在安装后,操作系统会生成一个设备ID信息,
2025-07-16 14:08:44
567
1
原创 一文深入:AI 智能体系统架构设计
通过以上四部分介绍,我们将拥有构建可靠、可扩展主动智能系统所需的工具和模式 —— 这种系统不仅理论上听起来不错,而且能够在生产环境的真实压力下屹立不倒。
2025-07-15 13:47:39
1438
1
原创 基于OpenAI Agents SDK设计并实现复杂的多代理协作系统
多代理协作是指多个自主代理(LLM“节点”)协同工作,以实现单个代理难以完成的总体目标。与单一的整体提示不同,每个代理负责特定的子任务或专业领域,而编排层则将这些代理“节点”连接成一个连贯的工作流程。这种方法适用于复杂系统,例如,金融分析可分解为宏观经济分析、公司基本面分析和量化信号分析,每个部分由不同的专业代理处理。代理之间共享信息,其结果被整合以产生最终输出。我们的系统采用中心辐射型设计。投资组合经理代理是中心(中央协调器),专业代理是辐射分支。
2025-07-15 10:03:07
1070
原创 vLLM 优化与调优:提升模型性能的关键策略
vLLM 提供了丰富的优化和调优策略,涵盖了从抢占式调度、分块预取到各种并行策略以及内存优化等多个方面。通过合理应用这些策略,可以显著提升模型的性能和效率。然而,优化过程并非一成不变,需要根据具体的硬件配置、模型特性以及应用场景进行灵活调整。未来,随着硬件技术的进步和模型架构的不断创新,相信 vLLM 将持续进化,为开发者和研究人员提供更为强大的工具,助力大语言模型在各个领域的深入应用和创新发展。
2025-07-09 17:04:23
1924
原创 OpenAI 推出其 AI 代理框架的四项关键更新
OpenAI 的 Agents SDK 现在支持 TypeScript,这扩展了现有的 Python 实现,使在 JavaScript 和 Node.js 环境中工作的开发者也能使用。进一步的实现细节可在 openai-agents-js/guides/voice-agents(https://openai.github.io/openai-agents-js/guides/voice-agents/) 的语音代理指南中查看。,允许开发者在运行时拦截代理的执行,序列化其状态,并在继续之前要求手动确认。
2025-07-09 16:59:57
578
原创 代理到代理(A2A)协议规范0.2.1
A2A围绕几个关键概念展开,详细解释请参考《关键概念指南》。•A2A客户端:代表用户或其他系统向A2A服务器发起请求的应用程序或代理。•A2A服务器(远程代理):公开符合A2A标准的HTTP端点、处理任务并提供响应的代理或代理系统。•代理卡片(Agent Card):由A2A服务器发布的JSON元数据文档,描述其身份、能力、技能、服务端点和认证要求。•消息(Message):客户端与远程代理之间的一次通信回合,具有“角色”(“用户”或“代理”)并包含一个或多个“部分”(Part)。•。
2025-07-09 16:59:12
847
原创 NVIDIA 推出 Fast-dLLM:一种无需训练的框架,为扩散式LLM引入KV Cache和并行解码机制
例如,在 GSM8K 数据集的 8-shot 配置中,在 1024 个标记的生成长度下,其速度比基线模型快 27.6 倍,准确率为 76.0%。HumanEval 基准测试中加速高达 3.2 倍,准确率保持在 54.3%,而在 MBPP 上,在 512 个标记的生成长度下,系统实现了 7.8 倍的速度提升。近似的键值缓存使之前解码步骤中的激活能够被高效地重用。然而,尽管其具有潜力,但在实践中,扩散模型往往难以提供具有竞争力的推理速度,从而限制了其与自回归大型语言模型(LLM)的实际性能匹配能力。
2025-07-09 16:58:08
501
原创 借助谷歌新发布的 A2A Python SDK 实现多智能体通信
刚开始理解如何使用 A2A 构建多智能体系统可能有点令人生畏,但归根结底,您只需向智能体发送消息,让它们各自完成任务即可。要将您的智能体与 A2A 集成,您需要做的是创建一个继承自的类来实现智能体的逻辑,并将智能体作为服务器运行。
2025-07-09 16:57:20
822
原创 一文了解并体验DeepSeek-R1-0528
下面是可能会遇到的一些问题与解决建议问题原因解决方案输出中断max_tokens设置过低启动时添加GPU 内存不足模型层未合理卸载减少值生成速度慢(<1 token/s)CPU 模式或内存带宽瓶颈增加--threads数或启用 GPU中文输出不流畅提示词未明确指定语言在 System Prompt 添加“请用中文回答”总之,DeepSeek-R1-0528 是当前最强开源推理模型之一,尤其适合:• 需私有化部署的研究机构/企业• 追求低成本替代 GPT-4 级能力的开发者。
2025-07-08 13:43:51
1247
原创 Meta AI 推出 Multi - SpatialMLLM:借助多模态大语言模型实现多帧空间理解
在 MultiSPA 基准测试中,Multi - SpatialMLLM 相比基线模型平均提升 36%,在定性任务上达到 80% - 90% 的准确率,而基线模型仅为 50%,并且超越所有专有系统。以往研究将这些局限归因于缺乏专门的训练数据,并通过在训练期间纳入空间数据来解决,但这些方法侧重于单图像场景,从而使模型的感知局限于静态视场分析,缺少动态信息。许多研究方法试图解决 MLLM 在空间理解方面的局限。总的来说,论文中,研究人员将 MLLM 的空间理解拓展至多帧场景,弥补了以往研究忽视的重要空白。
2025-07-08 13:42:23
699
原创 阿里推出 QwenLong-L1:一种用于LLM长文本推理的强化学习框架
• 在与基线模型(如 R1-Distill-Qwen-32B)的对比中,表现超出 5.1 分,并在与领先专有系统(如 OpenAI-o3-mini 和 Qwen3-235B-A22B)的比较中也表现更优。• 通过 Pass@K 分析发现,随着采样量的增加,表现持续提升,Pass@2 平均值达到 73.7,即使在低采样率下,也超越了 DeepSeek-R1 和 OpenAI-o1-preview。:通过维护和重用前一阶段的难题示例(按难度加权)来增强探索能力,从而鼓励更深入的推理和对多样化输入的鲁棒性。
2025-07-08 13:41:29
496
原创 英伟达发布 Llama Nemotron Nano 4B:专为边缘 AI 和科研任务优化的高效开源推理模型
Nemotron Nano 4B 体现了英伟达在为更广泛的开发受众群体提供可扩展、实用的人工智能模型方面的持续投入,尤其是那些针对边缘或成本敏感型部署场景的受众群体。尽管超大型模型领域仍在不断取得快速进展,但像 Nemotron Nano 4B 这样的紧凑高效模型提供了平衡,使得在几乎不牺牲性能的情况下实现部署灵活性成为可能。对于关注隐私和部署控制的企业和研究团队而言,在本地运行先进的推理模型而不依赖云端推理 API 的能力,既能节省成本,又能提供更大的灵活性。
2025-07-04 11:10:30
387
原创 修复OpenSSH 安全漏洞(CVE-2024-6387)
OpenSSH是一套用于安全网络通信的工具,提供了包括远程登录、远程执行命令、文件传输等功能 2024年7月1日,OpenSSH 官方发布安全通告,披露CVE-2024-6387 OpenSSH Server 远程代码执行漏洞。漏洞成因为条件竞争,因此若要成功利用该漏洞,需要经过多次尝试,并需要绕过相关系统保护措施(如ASLR),在实际网络环境下利用难度较大,目前仅有针对32位机器的利用方案。注意,上述脚本适合于单次执行的情况,为了方便识别操作了哪些步骤,简化了,若需要可多次执行,则使用下面改进版本的。
2025-07-04 11:09:27
617
原创 微软 AI 推出 Magentic-UI:一个开源代理原型,与人协作完成需要多步骤规划和浏览器使用的复杂任务
有趣的是,Magentic-UI 只在 10% 的增强任务中请求帮助,并在 18% 的情况下请求最终答案。这些能力由一个模块化的代理团队支持:协调员领导规划和决策,网络冲浪者处理浏览器交互,编码器在沙盒中执行代码,文件冲浪者解释文件和数据。生产力提升型 AI 的下一个飞跃涉及到设计不会取代用户而是与他们协作的代理,将自动化与持续的实时人工输入相结合,以实现更准确、更可靠的结果。这突显了当前 AI 自动化的一个显著局限性:缺乏结构化的“人在回路”设计,用户不能动态地引导和监督代理行为,而只是充当旁观者。
2025-07-04 11:07:52
391
原创 使用大型语言模型优化汇编代码:强化学习超越传统编译器
使用一个包含8072个真实世界的程序数据集,他们的模型Qwen2.5-Coder-7B-PPO实现了96.0%的测试通过率和1.47倍的平均加速比,超越了包括Claude-3.7-sonnet在内的其他20个模型。最近,基于LLMs的优化受到了关注,其中强化学习方法使用测试用例的反馈来指导LLMs。值得注意的是,像Claude-3.7-sonnet这样的模型能够超越编译器,通过识别特定于硬件的优化(例如用单个popcnt指令替换循环),展示了它们进行语义级代码转换的能力,这超出了传统编译器的能力范围。
2025-07-04 11:07:03
769
原创 Effective Go 编程技巧总结
Go 是一种新兴的编程语言。尽管它借鉴了其他语言的许多特性,但也具备一些独特的属性,使得用 Go 编写的高效程序在风格上与其他语言编写的程序有所不同。直接将 C++ 或 Java 程序翻译成 Go 代码,通常无法取得令人满意的结果 —— Java 程序的编写方式是 Java 风格,而非 Go 风格。另一方面,如果从 Go 的语言特性出发去思考问题,可能会编写出风格截然不同但更为成功的程序。换句话说,要编写出优秀的 Go 代码,理解 Go 语言的特性和惯用法是至关重要的。
2025-06-30 13:25:32
590
原创 AWS 开源 Strands Agents SDK,简化 AI 代理开发流程
Strands Agents SDK 提供了一个既结构化又灵活的框架,用于构建 AI 代理。它强调模型、工具以及提示词之间的清晰分离。其基于模型驱动的循环机制,以及与现存大型语言模型(LLM)生态系统的集成,使其成为开发者在实现自主代理时的技术合理之选。开发者可以借此在减少样板代码的同时,获得强大的定制化能力。
2025-06-30 13:23:34
1051
原创 借助 KubeMQ 简化多 LLM 集成
将多个大语言模型(LLM),如 OpenAI 和 Anthropic 的 Claude 集成到应用程序中是一项具有挑战性的任务。处理不同 API 和通信协议的复杂性,以及确保请求高效路由,都会带来诸多难题。然而,使用消息代理和路由器可以成为解决这些问题的优雅方案,能处理这些痛点并提供多项关键优势。在本文中,我们将探讨如何实现这一点,并提供代码示例,指导大家如何使用 KubeMQ 构建一个与 OpenAI 和 Anthropic Claude 交互的路由器,当然要集成 DeepSeek 也类似。
2025-06-30 13:22:19
899
原创 为何用Conv+BN+ReLU算子融合可实现推理加速?
中,提到了“算子融合”:即将多个连续算子(如Conv+BN+ReLU)合并为单一核函数,减少内存读写次数。• 特征映射:每个滤波器提取特定特征(如边缘、纹理),输出特征图的每个元素是输入局部区域与滤波器的点积结果。• 参数共享:同一滤波器在输入上重复使用,大幅减少参数量(如3×3滤波器仅需9个参数,但可覆盖整个图像)。• 推理优化:在边缘设备或推理框架(如TVM)中,融合算子可减少计算图节点数量,提升端到端延迟。• 新权重: • 新偏置: 融合后等效为,消除BN的独立计算步骤。
2025-06-30 13:19:46
1519
原创 一体机GPU推理加速技巧
随着AI技术向边缘端下沉,一体机作为集成化设备在工业检测、医疗影像等领域广泛应用。然而,受限于硬件规模与散热条件,其GPU推理速度常成为性能瓶颈。本文从软硬件协同优化的角度,结合学术界与工业界最新成果,系统梳理一体机GPU推理加速的核心策略。
2025-06-29 09:36:11
738
原创 防止GPU碎片化的实用技巧:Volcano调度器案例分析
当Volcano在其NVIDIA DGX Cloud配置的Kubernetes集群中面临GPU利用率不足的问题时,NVIDIA最近提供了一种解决方案,不仅满足了合同要求,还超出了预期。通过结合先进的调度技术与对分布式工作负载的深刻理解,NVIDIA将GPU占用率提升至约90%。以下是NVIDIA问题的详细分析、及他们的解决方法。
2025-06-29 09:34:53
902
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人