Inferencia de IA
Escale y sirva IA generativa con rapidez.
NVIDIA Dynamo es un marco de inferencia modular de código abierto para servir modelos de IA generativa en entornos distribuidos. Permite un escalado perfecto de cargas de trabajo de inferencia en grandes flotas de GPU con programación dinámica de recursos, enrutamiento inteligente de solicitudes, gestión de memoria optimizada y transferencia de datos acelerada.
Al servir el modelo de razonamiento de código abierto DeepSeek-R1 671B en NVIDIA GB200 NVL72, NVIDIA Dynamo aumentó el número de solicitudes servidas hasta en 30 veces, lo que la convierte en la solución ideal para fábricas de IA que buscan ejecutarse al menor coste posible para maximizar la generación de ingresos de tokens.
NVIDIA Dynamo es compatible con todos los principales backends de inferencia de IA y cuenta con optimizaciones específicas de modelos lingüísticos de gran tamaño (LLM), como el servicio desagregado, la aceleración y el escalado de modelos de razonamiento de IA al coste más bajo y con la mayor eficiencia. Recibirá soporte como parte de NVIDIA AI Enterprise en una futura versión.
Separa las fases de contexto (prerellenado) y de generación (descodificación) de los LLM en distintas GPU, lo que permite el paralelismo de modelos personalizado y la asignación de GPU independientes para aumentar las solicitudes servidas por GPU.
Supervisa la capacidad de la GPU en entornos de inferencia distribuida y asigna dinámicamente trabajadores de GPU en todas las fases de contexto y generación para resolver cuellos de botella y optimizar el rendimiento.
Enruta el tráfico de inferencia de forma eficiente y minimiza el costoso recálculo de solicitudes repetidas o solapadas para preservar los recursos de computación y garantizar una distribución de cargas equilibrada en grandes flotas de GPU.
Acelera el movimiento de datos en entornos de inferencia distribuida al tiempo que simplifica las complejidades de transferencia en diverso hardware, incluidas GPU, CPU, redes y almacenamiento.
Agilice y automatice la configuración de clústeres de GPU con herramientas prediseñadas y fáciles de implementar y permita el autoescalado dinámico con métricas específicas de LLM en tiempo real, evitando el sobreaprovisionamiento o el aprovisionamiento insuficiente de recursos de GPU.
Aproveche la inferencia de LLM avanzada que sirve optimizaciones, como el servicio desagregado, para aumentar el número de solicitudes de inferencia servidas sin poner en peligro la experiencia del usuario.
El diseño abierto y modular le permite seleccionar fácilmente los componentes que sirven inferencia y que se adaptan a sus necesidades únicas, garantizándole la compatibilidad con su pila de IA existente y evitando costosos proyectos de migración.
El soporte de NVIDIA Dynamo para todos los principales marcos, incluidos TensorRT-LLM, vLLM, SGLang, PyTorch y muchos más, garantiza su capacidad para implementar rápidamente nuevos modelos de IA generativa, independientemente de su backend.
NVIDIA Dynamo es totalmente de código abierto, lo que le ofrece transparencia y flexibilidad completas. Implemente NVIDIA Dynamo, contribuya a su crecimiento e intégrelo a la perfección en su pila existente.
¡Échele un vistazo en GitHub y únase a la comunidad!
Descubra cómo puede impulsar la innovación con NVIDIA Dynamo.
Los modelos de razonamiento generan más tokens para resolver problemas complejos, lo que aumenta los costes de inferencia. NVIDIA Dynamo optimiza estos modelos con características como el servicio desagregado. Este enfoque separa las fases de computación de prerellenado y descodificación en distintas GPU, lo que permite a los equipos de inferencia de IA optimizar cada fase de forma independiente. El resultado es una mejor utilización de recursos, más consultas servidas por GPU y menores costes de inferencia.
A medida que los modelos de IA crecen en demasía para poder alojarse en un solo nodo, servirlos de forma eficiente se convierte en un desafío. La inferencia distribuida requiere la división de modelos en varios nodos, lo que añade complejidad en la orquestación, el escalado y la comunicación. Garantizar que estos nodos funcionen como una unidad cohesiva, especialmente bajo cargas de trabajo dinámicas, exige una gestión cuidadosa. NVIDIA Dynamo simplifica esto al proporcionar capacidades preintegradas en Kubernetes, manejando a la perfección la programación, el escalado y el servicio para que pueda centrarse en la implementación de IA, no en la gestión de infraestructura.
Los agentes de IA se basan en varios modelos (LLM, sistemas de recuperación y herramientas especializadas) que trabajan sincronizados en tiempo real. El escalado de estos agentes es un desafío complejo que requiere una programación inteligente de GPU, una gestión de caché de KV eficiente y una comunicación de latencia ultrabaja, para mantener la capacidad de respuesta.
NVIDIA Dynamo agiliza este proceso con un planificador de GPU inteligente integrado, un enrutador inteligente y una biblioteca de comunicación de baja latencia, lo que hace que el escalado de agentes de IA sea perfecto y eficiente.
La generación de código requiere a menudo un refinamiento iterativo para ajustar indicaciones, aclarar requisitos o depurar salidas basadas en las respuestas del modelo. Esta ida y vuelta requiere un recálculo del contexto con cada vuelta de usuario, lo que aumenta los costes de inferencia. NVIDIA Dynamo optimiza este proceso al permitir la reutilización del contexto y la descarga en memoria asequible, minimizando el costoso recálculo y reduciendo los costes de inferencia generales.
¡Descárguelo en GitHub y únase a la comunidad!
Explore todo lo necesario para comenzar a desarrollar con NVIDIA Dynamo, incluyendo la última documentación, tutoriales, blogs técnicos y mucho más.
Hable con un especialista en productos de NVIDIA sobre cómo pasar de la fase piloto a la de producción con la seguridad, la estabilidad de las API y el soporte de NVIDIA AI Enterprise.