- 博客(558)
- 资源 (4)
- 收藏
- 关注

原创 NVIDIA GTC 开发者社区Watch Party资料汇总
以下是所有涉及到的工具中文解读汇总,希望可以帮到各位7. NVIDIA nvmath-python:高性能数学库的Pyth
2025-03-24 09:34:04
2060

原创 NVIDIA 开发者社区第十一届Sky Hackathon训练营实验手册---AWS Sagemaker AI部分
在这部分实验中,我们将利用AWS Sagemaker下载并部署NIM。
2025-02-15 20:56:38
1561

原创 162个例子告诉你在NVIDIA开发者社区夏令营能学到什么
NVIDIA开发者社区AI-Agent夏令营作品合集, 通过这162个例子,向大家展示了在2024 NVIDIA开发者训练营中开发者朋友们用NVIDIA NIM做了什么样的优秀作品
2024-08-21 09:42:56
3063
3

原创 2024 NVIDIA开发者社区夏令营环境配置指南(Win & Mac)
2024 NVIDIA开发者社区夏令营环境配置指南(Win & Mac)
2024-08-04 19:04:22
5046
1

原创 NVIDIA Chat With RTX安装使用教程
世界各地每天有数百万人使用聊天机器人,由基于 NVIDIA GPU 的云服务器提供支持。现在,这些突破性工具即将登陆由 NVIDIA RTX 提供支持的 Windows PC,以实现本地、快速、自定义的生成 AI。Chat with RTX 是一个技术演示,现已免费下载,可让用户使用自己的内容个性化聊天机器人,并由本地 NVIDIA GeForce RTX 30 系列 GPU 或更高版本(具有至少 8GB 显存和 VRAM)加速。
2024-02-23 05:16:12
10454
19
原创 NVIDIA Tensor Core演进:从Volta到Blackwell的技术革命
在人工智能和深度学习的快速发展浪潮中,GPU计算能力的提升一直是推动整个行业前进的核心动力。NVIDIA的Tensor Core技术作为现代AI计算的基石,从Volta架构首次引入到最新的Blackwell架构,经历了一场深刻的技术革命。本文将深入探讨这一演进过程,揭示其背后的技术原理、设计哲学和未来发展方向。
2025-06-25 11:18:04
843
原创 NVIDIA集体通信库2.26:性能提升与监控功能的全面升级
NCCL 2.26关键升级摘要 NVIDIA集体通信库2.26版本带来显著性能提升和监控增强,主要包括: PAT算法优化:通过CUDA warp级并行化,实现了15-25%的大规模通信性能提升,特别适用于32节点以上的AI训练场景。 隐式启动顺序:新增多通信器自动同步功能,有效防止死锁,简化分布式编程复杂度。 增强监控能力:扩展内核/网络分析器支持,提供更精细的性能诊断工具。 网络QoS控制:引入通信器级服务质量调控,优化多任务网络资源分配。 这些改进使NCCL 2.26成为大规模AI训练和HPC应用的理想
2025-06-25 07:57:35
495
原创 寻找最佳分块策略:获得准确AI响应的完整指南
分块策略是构建高效RAG系统的关键环节,直接影响AI响应质量。NVIDIA研究表明,不当分块会导致检索精度下降40%、响应相关性降低35%,而优化分块可提升系统性能达60%。研究对比了三种主流分块方法:基于令牌的分块(适合密集文本)、页面级分块(保留视觉上下文)和章节级分块(维持逻辑结构)。实验采用双管道评估架构,在DigitalCorpora等5个数据集上进行测试,结果显示不同文档类型需匹配特定分块策略。
2025-06-24 15:10:33
665
原创 利用一张GPU高效构建多模态抽取AI流水线——NVIDIA NeMo Retriever全流程实战与代码详解
本文介绍了NVIDIA NeMo Retriever多模态AI流水线解决方案,详细剖析了其架构组成、核心功能与实施步骤。该系统仅需单张GPU即可实现PDF等复杂文档的高效多模态抽取(速度提升15倍,错误率降低50%),包含文本、表格、图表等内容的自动解析、嵌入存储与智能检索功能。文章提供了全套Python代码示例,涵盖文档摄取、结构化抽取、向量检索及智能问答等环节,并重点展示了多模态内容分析与可视化方法。该方案在金融、医疗等行业的知识管理场景中表现优异,支持本地部署确保数据安全,为企业构建高效、可扩展的AI
2025-06-24 14:01:02
833
原创 微调LLMOps:快速模型评估和持续优化的完整指南
LLMOps微调与优化实践指南 摘要:本文深入探讨了大型语言模型(LLM)运营化(LLMOps)的核心挑战与解决方案。文章首先分析了LLMOps面临的四大挑战:微调管道管理复杂性、大规模评估难题、模型版本控制需求以及推理服务优化问题。随后重点介绍了NVIDIA NeMo微服务生态系统,包括数据处理的NeMo Curator、模型定制的NeMo Customizer、评估系统NeMo Evaluator、安全模块NeMo Guardrails以及推理部署平台NVIDIA NIM。
2025-06-18 16:11:56
1014
原创 使用统一的NVIDIA NIM工作流程简化LLM部署和AI推理
NVIDIA NIM简化了大型语言模型(LLM)部署流程,通过智能分析模型格式、架构和量化方式自动选择最优推理后端(TensorRT-LLM、vLLM或SGLang)。该系统支持Hugging Face、TensorRT-LLM检查点和引擎三种模型格式,并能识别FP16/FP8/INT8等多种量化技术。NIM的核心优势在于统一的工作流程容器,自动执行模型分析、后端选择和优化配置,使开发者无需深入了解各推理后端细节即可获得最佳性能。该系统特别适合生产环境部署,支持多GPU并行和多种量化格式,大幅降低了LLM部
2025-06-18 07:34:30
788
原创 使用开源NVIDIA cuOpt加速决策优化
NVIDIA cuOpt开源GPU加速优化引擎助力企业快速决策 cuOpt是NVIDIA推出的开源决策优化引擎,通过GPU并行计算技术显著加速线性规划(LP)、混合整数规划(MIP)和车辆路径(VRP)等复杂优化问题的求解过程。文章分析了现代企业面临的供应链优化挑战,如多目标约束、实时响应需求和计算复杂性等问题。cuOpt采用创新的并行算法架构和内存管理技术,可兼容PuLP和AMPL建模工具,无需大幅修改现有模型即可实现数十倍的性能提升。以全球咖啡连锁店的物流优化为例,展示了cuOpt如何解决大规模动态优化
2025-06-17 10:48:05
1121
原创 使用NVIDIA NeMo Agent Toolkit扩展现实机器人仿真的物理AI应用
摘要: 物理AI是推动自主机器人系统发展的核心技术,但真实数据收集面临成本高、耗时长和安全限制等挑战。合成数据生成(SDG)技术提供了高效替代方案,但现有流程仍依赖人工操作。NVIDIA NeMo Agent Toolkit通过多智能体协作架构实现自动化SDG,包含规划、现实主义增强、推理和支持助手四类智能体,结合Omniverse、Cosmos等工具生成高质量仿真数据。该方案显著提升了机器人训练数据的多样性、真实感和可扩展性,为物理AI开发提供了高效技术路径。(149字)
2025-06-14 18:42:00
1490
原创 使用NVIDIA TensorRT for RTX运行高性能AI应用程序
摘要: NVIDIA正式发布TensorRT for RTX SDK,这是一个专为RTX GPU优化的高性能AI推理解决方案。该SDK支持从Turing到Blackwell架构的所有RTX GPU,提供轻量化设计(<200MB)和跨平台支持(Windows/Linux)。核心创新包括两阶段优化架构(AOT预编译+JIT运行时优化)和动态形状支持,通过形状特化内核实现高达60%的性能提升。运行时缓存机制可保存编译结果,加速后续运行。该SDK特别适用于创意、游戏和生产力应用,简化了AI模型在消费级设备上的
2025-06-14 17:23:48
965
原创 全新NVIDIA Llama Nemotron Nano视觉语言模型在OCR基准测试中准确率夺冠
全新NVIDIA Llama Nemotron Nano视觉语言模型在OCR基准测试中准确率夺冠
2025-06-13 12:48:28
1284
原创 NVIDIA Dynamo:数据中心规模的分布式推理服务框架深度解析
摘要 NVIDIA Dynamo是一款专为大规模生成式AI推理设计的分布式服务框架,通过创新的分离服务架构和智能路由系统,显著提升了推理性能和资源利用率。该框架将预填充与解码阶段分离到不同引擎,实现KV缓存感知的智能路由,并采用多层内存管理技术优化缓存效率。Dynamo支持多种推理引擎(TensorRT-LLM、vLLM等),提供OpenAI兼容API,通过Rust/Python混合架构兼顾性能与易用性。本文详细解析了Dynamo的核心架构、关键技术实现及部署方案,为构建高效分布式推理服务提供参考。
2025-06-06 12:12:34
898
1
原创 MCP LLM Bridge:连接Model Context Protocol与OpenAI兼容LLM的桥梁
MCP LLM Bridge 是一个连接 Model Context Protocol (MCP) 服务器与 OpenAI 兼容大型语言模型 (LLM) 的桥接工具,旨在解决不同模型协议之间的集成挑战。它通过双向协议转换,将 MCP 工具规范转换为 OpenAI 函数模式,并处理函数调用映射到 MCP 工具执行,支持云端和本地部署的模型(如 Ollama)。
2025-05-17 18:49:28
1303
1
原创 FastMCP:为大语言模型构建强大的上下文和工具服务
FastMCP是一个高效的Python库,旨在为大语言模型(LLM)提供强大的上下文和工具服务。它基于模型上下文协议(MCP),该协议为LLM与外部系统的交互提供了标准化方式。FastMCP简化了MCP服务器和客户端的构建,具有高效开发、简洁设计和Python风格等优势。其核心功能包括资源(Resources)、工具(Tools)、提示(Prompts)和上下文(Context),分别用于提供数据、执行操作、创建提示模板和增强交互功能。
2025-05-17 18:47:58
2579
1
原创 第十一届Sky Hackathon大赛圆满落幕:多模态RAG技术创新成果丰硕
项目名称:硬件开发的iPhone时刻:AI一键生成电路项目简介该项目旨在通过AI技术革新硬件开发流程,实现一键生成电路设计。团队开发的PCBTool利用NVIDIA NIM平台和多模态RAG技术,能够根据用户需求自动生成电路图和PCB布局,大幅降低了硬件开发门槛,提高了开发效率。第十一届Sky Hackathon大赛通过"构建具有多模态检索增强生成(RAG)功能的AI聊天机器人"这一主题,成功推动了参赛者对RAG技术和大模型应用的深入探索。
2025-04-21 08:52:00
677
原创 NVIDIA AgentIQ 详细介绍
AgentIQ 采用模块化架构,将代理、工具和工作流抽象为函数,实现高度的可组合性和可重用性。函数(Functions):AgentIQ 中的基本构建块,可以是工具、代理或工作流。每个函数都有明确定义的输入和输出,使其可以轻松组合。工作流(Workflows):定义代理如何使用工具和与用户交互的流程。AgentIQ 支持多种工作流类型,包括 ReAct、函数调用和自定义工作流。语言模型(LLMs):AgentIQ 支持多种语言模型,包括 NVIDIA NIM 服务、OpenAI 和 Anthropic 等。
2025-04-04 21:43:41
884
原创 7大支持MCP的AI框架:为LLM和智能代理提供上下文的新标准
可以将MCP视为LLM的第三次演进。在第一次演进中,我们拥有能够准确回答用户提示的LLM,前提是它们在训练数据中找到了这些查询。在这个阶段,由于它们无法访问外部工具,因此无法对训练数据之外的提示做出有意义的响应。在LLM的第二次演进中,我们为它们提供了额外的上下文(工具),这些工具虽然不直观,但能够帮助LLM准确预测和回答用户意图。第三次演进仍然包括LLM和工具,但我们实现了一个适当的基础设施,使它们能够访问外部应用程序并确保易于维护。
2025-04-04 21:42:49
1008
原创 轻量级多模态多语言Gemma 3模型:为性能而优化
在构建基于基础模型的AI系统时,开发者需要在内存、延迟、存储、计算等资源之间取得微妙的平衡。对于管理成本和用户体验的开发者来说,没有一种通用的解决方案适合所有情况,尤其是在将生成式AI能力引入快速增长的AI驱动应用生态系统时。开发者需要高质量、可定制的模型选项,这些模型能够支持在不同计算环境中部署和托管的大规模服务,从数据中心到边缘计算再到设备端应用场景。Google DeepMind刚刚宣布推出Gemma 3,这是一系列新的多模态和多语言开源模型。
2025-04-03 14:49:47
1140
原创 NVIDIA Blackwell在MLPerf Inference v5.0中实现性能飞跃
MLPerf Inference v5.0是一个长期运行的基准测试套件,旨在测量各种不同模型和使用场景下的推理吞吐量。自2019年首次推出以来,MLPerf Inference不断更新,增加新模型和场景,确保其作为测量AI计算平台推理性能的有效工具。:一个拥有4050亿参数的密集LLM。对于服务器场景,该基准测试设定了首个token生成时间(TTFT)为6秒,每个输出token的时间(TPOT)为175毫秒的延迟要求。:一个拥有700亿参数的密集LLM。
2025-04-03 08:52:43
829
原创 使用NVIDIA NIM微服务加速科学文献综述
我们在生成式AI编程节的工作展示了AI在加速系统文献综述方面的变革潜力。借助NVIDIA NIM,我们快速从想法转变为工作解决方案,显著改进了从科学论文中提取信息的过程。这一经验突显了AI如何能够简化研究工作流程,实现更快速、更全面的洞察。LLM有潜力促进跨学科研究,使科学家能够更有效地探索复杂的多领域研究领域。展望未来,我们的目标是完善这些方法和工具,确保它们对未来跨各种主题的研究具有可访问性和可扩展性。
2025-04-02 10:50:36
742
原创 使用NVIDIA Cosmos世界基础模型扩展合成数据和物理AI推理能力
在人工智能快速发展的今天,下一代AI驱动的机器人,如人形机器人和自动驾驶汽车,都依赖于高保真、物理感知的训练数据。然而,如果没有多样化且具代表性的数据集,这些系统将无法获得适当的训练,并在测试中面临诸多风险:泛化能力差、对真实世界变化的适应有限、在边缘情况下行为不可预测等。而收集大规模真实世界数据集不仅成本高昂,还极其耗时,且常常受到现实可能性的限制。NVIDIA Cosmos通过加速世界基础模型(World Foundation Model, WFM)的开发来解决这一挑战。
2025-04-02 10:36:02
780
原创 NVIDIA工业设施数字孪生中的机器人模拟
工业设施数字孪生中的机器人仿真是未来智能制造的关键技术。通过NVIDIA提供的强大工具,工程师可以创建高度逼真的虚拟环境,模拟机器人操作,优化性能,并在物理部署前识别潜在问题。随着计算能力的不断提升和仿真技术的进步,我们可以期待数字孪生技术在工业自动化中发挥越来越重要的作用,推动智能制造进入新的发展阶段。
2025-04-01 16:30:56
1101
原创 使用Hugging Face训练自定义重排模型(Reranker)完全指南
重排模型(Reranker)是一种特殊类型的神经网络模型,专门用于评估查询(query)和文档(document)之间的相关性。与嵌入模型(Embedding Model)不同,重排模型不会将文本转换为向量,而是直接输出一个相关性得分。这使得重排模型能够捕捉到更细微的语义关系,提高搜索结果的质量。# 自定义数据集示例# 准备数据"query": ["如何训练重排模型?", "深度学习入门教程", "Python编程基础"],
2025-04-01 10:00:03
1401
原创 R²D²:NVIDIA研究院推进机器人移动性和全身控制的创新工作流程与AI基础模型
我们通过在平台上验证的先进研究来解决这些挑战。我们的方法将前沿研究与工程工作流程相结合,并在我们的AI和机器人平台上进行测试,包括NVIDIA Omniverse、Cosmos、Isaac Sim和Isaac Lab。由此产生的模型、策略和数据集作为可定制的参考,供研究和开发者社区根据特定机器人需求进行调整。我们期待分享我们的发现,并共同构建机器人技术的未来。
2025-03-31 11:37:34
2083
原创 图数据结构详解:概念、实现与应用
图(Graph)是一种非线性数据结构,由顶点(Vertex)和边(Edge)组成。直观地说,图是由点和连接这些点的线组成的。在数学上,图通常表示为G = (V, E),其中V是顶点集合,E是边集合。社交网络中的人际关系城市之间的道路连接计算机网络中的连接关系分子结构中的原子连接任务之间的依赖关系图是一种非常强大和灵活的数据结构,它可以用来表示各种复杂的关系和网络。在本教程中,我们深入探讨了图的基本概念、表示方法、遍历算法以及一些重要的应用和高级主题。图的基本概念和术语。
2025-03-31 11:16:41
1331
原创 数据结构中的树:从基础概念到C++实现
树(Tree)是一种非线性的数据结构,它是由n(n≥0)个有限节点组成的一个具有层次关系的集合。当n=0时,称为空树。有且仅有一个特定的称为根(Root)的节点其余节点可分为m(m≥0)个互不相交的有限集T1、T2、…、Tm,其中每个集合本身又是一棵树,称为原树的子树(SubTree)树的结构之所以称为"树",是因为它看起来像一棵倒置的树,根在上,叶在下。二叉树是最常见和最重要的树类型之一,它的每个节点最多有两个子节点,通常称为左子节点和右子节点。每个节点最多有两个子节点。
2025-03-30 11:45:58
557
原创 Model Context Protocol (MCP) 详解:连接AI与数据的开放标准
Model Context Protocol(MCP)是一个开放协议,用于标准化应用程序如何向大型语言模型(LLM)提供上下文。它可以被比喻为"AI应用程序的USB-C端口"。正如USB-C提供了一种标准化的方式来连接设备与各种外设和配件,MCP提供了一种标准化的方式来连接AI模型与不同的数据源和工具。MCP的核心目标是解决AI助手与数据之间的隔离问题。即使是最先进的模型也受到与数据隔离的限制——它们被困在信息孤岛和传统系统之后。每个新的数据源都需要自己的定制实现,使真正连接的系统难以扩展。
2025-03-30 08:00:00
1622
原创 NVIDIA DALI:Python深度学习数据加载和预处理库详解
NVIDIA DALI是一个高性能的数据加载和预处理库,专为深度学习和数据科学应用程序设计。它提供了一套灵活的API,允许用户构建高效的数据处理管道,以加速深度学习训练过程中的数据准备阶段。DALI利用GPU的并行计算能力,将数据加载和预处理操作从CPU卸载到GPU,从而显著提高数据处理效率。NVIDIA DALI是一个强大的数据加载和预处理库,通过GPU加速和流水线并行化,显著提高了深度学习训练的效率。它与主流深度学习框架无缝集成,支持各种数据格式和预处理操作,是深度学习工作流程中不可或缺的工具。
2025-03-29 09:00:00
841
原创 NVIDIA Merlin:GPU加速推荐系统全指南
NVIDIA Merlin是一个开源库,旨在加速NVIDIA GPU上的推荐系统。该库使数据科学家、机器学习工程师和研究人员能够大规模构建高性能推荐系统。Merlin包含了解决常见特征工程、训练和推理挑战的工具。Merlin流水线的每个阶段都经过优化,可支持数百TB的数据,所有这些都可以通过易于使用的API访问。NVIDIA Merlin是一个强大的开源库,专为在NVIDIA GPU上加速推荐系统而设计。
2025-03-29 09:00:00
757
原创 C++链表详解:从基础概念到高级应用
链表是计算机科学中最基础也是最重要的数据结构之一,它在内存管理、算法实现和实际应用中扮演着关键角色。本文将详细介绍链表的概念、类型、C++实现以及实际应用场景,帮助读者全面理解这一重要的数据结构。
2025-03-28 18:16:50
976
原创 NVIDIA cuOpt:GPU加速优化AI微服务详解
混合整数线性规划(Mixed Integer Linear Programming, MILP)线性规划(Linear Programming, LP)车辆路径问题(Vehicle Routing Problems, VRP)cuOpt能够为包含数百万变量和约束条件的大规模问题提供近实时的解决方案,可以轻松集成到现有求解器中,并能在混合和多云环境中无缝部署。注意:线性规划(LP)和混合整数线性规划(MILP)目前是早期访问功能,仅向特定客户开放。
2025-03-28 13:45:52
1143
原创 NVIDIA cuQuantum 详细教程:高性能量子计算模拟库
在传统(“经典”)计算机中,一个比特只能是0或1。而量子比特(“quantum bit"或"qubit”)则可以表示为两种状态的线性叠加。∣ψ⟩α∣0⟩β∣1⟩∣ψ⟩α∣0⟩β∣1⟩其中∣0⟩|0\rangle∣0⟩和∣1⟩|1\rangle∣1⟩⟨0∣0⟩1⟨1∣1⟩1⟨0∣1⟩0⟨1∣0⟩0⟨0∣0⟩1⟨1∣1⟩1⟨0∣1⟩0⟨1∣0⟩0而α\alphaα和β。
2025-03-28 09:00:00
1956
原创 NVIDIA cuEquivariance 详细教程:引言与概述
NVIDIA cuEquivariance 是一个专为构建高性能等变神经网络而设计的 Python 库,它通过分段张量积的方式实现了对称性的保持。在深度学习领域,保持数据的内在对称性是提高模型效率和泛化能力的关键因素,而 cuEquivariance 正是为解决这一挑战而生。作为 NVIDIA 开发的高性能计算库,cuEquivariance 提供了一套全面的 API 来描述分段张量积,并配备了经过优化的 CUDA 内核来执行这些操作。这使得研究人员和开发者能够构建既保持几何对称性又具有高计算效率的深度学习
2025-03-27 09:29:40
619
原创 NVIDIA cuTENSOR 中文教程大纲
NVIDIA cuTENSOR 是一个高性能的 CUDA 张量原语库,专为加速张量计算而设计。作为 NVIDIA 的 CUDA 数学库家族的一部分,cuTENSOR 提供了高度优化的张量操作实现,使开发者能够充分利用 NVIDIA GPU 的强大计算能力来处理复杂的张量运算。张量计算是现代科学计算、深度学习和数据分析等领域的核心操作。随着这些领域中模型和数据规模的不断增长,高效的张量操作变得尤为重要。
2025-03-27 09:28:52
502
2
原创 NVIDIA CUTLASS 深度学习教程
NVIDIA CUTLASS (CUDA Templates for Linear Algebra Subroutines and Solvers) 是一个用于线性代数运算的CUDA C++模板库。它专门为深度学习中的矩阵运算优化,提供了高性能的GEMM(通用矩阵乘法)实现。
2025-03-26 10:39:00
784
1
原创 NVIDIA NCCL:高性能多GPU通信库详解
始终使用最新版本:NCCL不断优化和修复问题,保持更新系统配置一致:确保所有节点的软硬件配置一致启用调试信息:遇到问题时启用NCCL_DEBUG获取更多信息隔离测试:使用nccl-tests工具隔离测试NCCL功能检查网络配置:大多数问题与网络配置相关记录环境变量:记录有效的环境变量配置,便于复现和调试通过遵循这些故障排除指南,您应该能够解决大多数NCCL相关问题,并确保您的多GPU系统高效运行。
2025-03-26 09:42:38
836
第六届Sky Hackathon知识图谱
2022-05-21
人脸口罩检测(含运行代码+数据集)
2022-05-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人