英伟达推出了 Llama Nem)otron Nano 4B,这是一款专为在科学任务、编程、符号运算、函数调用和指令执行方面提供强大性能与效率而设计的开源推理模型,其紧凑程度足以支持边缘部署。该模型仅包含 40 亿参数,却在内部基准测试中实现了比其他多达 80 亿参数的同类开源模型更高的准确率,并且推理吞吐量高出 50%。
该模型被定位为在资源受限环境中部署基于语言的人工智能代理的实用基础。通过专注于推理效率,Llama Nemotron Nano 4B 满足了对轻量级模型日益增长的需求,这些模型能够在传统云端环境之外支持混合推理和指令执行任务。
模型架构与训练栈
Nemotron Nano 4B 以 Llama 3.1 架构为基础,与英伟达此前的 “Minitron” 系列一脉相承。其架构采用密集型、仅解码器的变换器(transformer)设计。该模型针对推理密集型工作负载的性能进行了优化,同时保持了参数量的轻量化。
模型的训练后处理栈包括在数学、编程、推理任务和函数调用等精选数据集上进行的多阶段监督式微调。除了传统的监督学习外,Nemotron Nano 4B 还通过奖励感知偏好优化(Reward-aware Preference Optimization, RPO)方法进行了强化学习优化,旨在提升模型在基于聊天和指令执行环境中的实用性。
这种指令调优与奖励建模相结合的方式有助于使模型的输出更贴近用户意图,特别是在多轮推理场景中。这种训练方法反映了英伟达在将小型模型与传统上需要大幅增加参数量的实用任务对齐方面的重视。
性能基准测试
尽管其体积小巧,但 Nemotron Nano 4B 在单轮和多轮推理任务中均展现出强劲的性能。据英伟达介绍,与参数量在 80 亿范围内的同类开源模型相比,它的推理吞吐量高出 50%。该模型支持高达 128,000 个标记的上下文窗口,这对于涉及长文档、嵌套函数调用或多跳推理链的任务尤其有用。
尽管英伟达尚未在 Hugging Face 文档中披露完整的基准测试表格,但据报道,该模型在数学、代码生成和函数调用精度等基准测试中均优于其他开源替代方案。其吞吐量优势表明,对于目标为具有中等复杂度工作负载的高效推理管道的开发者而言,它可作为一种可行的默认选择。
专为边缘部署而优化
Nemotron Nano 4B 的核心差异化优势之一是其对边缘部署的关注。该模型已在英伟达 Jetson 平台和英伟达 RTX GPU 上进行了专门测试和优化,从而能够实现在低功耗嵌入式设备上的实时推理能力,包括机器人系统、自主边缘代理或本地开发工作站。
对于关注隐私和部署控制的企业和研究团队而言,在本地运行先进的推理模型而不依赖云端推理 API 的能力,既能节省成本,又能提供更大的灵活性。
许可与访问方式
该模型依据英伟达开源模型许可协议发布,允许商业使用。它可通过 Hugging Face(网址为 huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-4B-v1.1) 获取,所有相关的模型权重、配置文件和分词器组件均公开可访问。这种许可结构与英伟达在支持其开源模型周边开发者生态系统方面的更广泛战略相一致。
结语
Nemotron Nano 4B 体现了英伟达在为更广泛的开发受众群体提供可扩展、实用的人工智能模型方面的持续投入,尤其是那些针对边缘或成本敏感型部署场景的受众群体。尽管超大型模型领域仍在不断取得快速进展,但像 Nemotron Nano 4B 这样的紧凑高效模型提供了平衡,使得在几乎不牺牲性能的情况下实现部署灵活性成为可能。