Veo te ayuda a generar videos con instrucciones de texto. En esta guía, se proporcionan prácticas recomendadas para ayudarte a comenzar a generar videos de Veo de alta calidad.
Para obtener más información sobre cómo escribir instrucciones eficaces, consulta la guía de instrucciones para la generación de videos de Veo en Gemini Enterprise Agent Platform.
Usa instrucciones claras y específicas
Las instrucciones claras y directas que eliminan la ambigüedad ayudan a generar mejores resultados de video.
No se recomienda: "Me imagino una escena en la que, como, el enfoque principal, un tipo, está un poco triste, y es como, oscura, y la cámara está, como, desde abajo, ¿sabes?"
Se recomienda: "Primer plano en ángulo bajo de un hombre con una expresión sombría. La escena está poco iluminada, lo que transmite un estado de ánimo melancólico".
Evita las comillas
Para evitar que el modelo procese texto en el video, usa dos puntos (:) después
de la acción del orador para indicar el discurso y evita usar comillas (").
No se recomienda: Una mujer dice: "Mi nombre es Clara."
Se recomienda: Una mujer dice: Mi nombre es Clara.
Usa varias relaciones de aspecto
Usa relaciones de aspecto para aumentar el rendimiento de tu video en varias plataformas. Las diferentes plataformas están optimizadas para diferentes relaciones de aspecto. Comprender las relaciones de aspecto de tus plataformas es fundamental para el marketing y la publicidad.
Las siguientes son relaciones de aspecto clave y sus usos principales:
16:9: También se conoce como "horizontal" o "pantalla ancha", y se considera el estándar para televisores, monitores, la mayoría de las pantallas de video, YouTube, presentaciones y teléfonos celulares en modo horizontal. La relación de aspecto de 16:9 también es útil para capturar más del fondo, como paisajes panorámicos.
9:16: También se conoce como vertical, vertical o pantalla ancha rotada. 9:16 es esencial para plataformas que priorizan los dispositivos móviles, como TikTok, Reels de Instagram y YouTube Shorts. La relación de aspecto de 9:16 también es útil para retratos o objetos altos con orientaciones verticales sólidas, como edificios, árboles o cascadas.
Enfoca los videos cortos en una sola escena
Para los videos cortos, dedica cada instrucción a un solo momento enfocado. Si intentas encadenar varios eventos distintos (A, luego B y luego C) en una instrucción para un video corto, a menudo se generan videos confusos o incompletos.
No se recomienda: "Un detective encuentra una pista en una biblioteca, luego conduce por la ciudad de noche y, luego, se enfrenta a un sospechoso en un almacén"
Se recomienda: Genera cada parte como un clip independiente:
Clip 1: "Primer plano de la mano enguantada de un detective que quita el de un libro antiguo en una biblioteca oscura, revelando un símbolo oculto"
Clip 2: "Un auto conduce por una ciudad iluminada con luces de neón por la noche, con lluvia que cae sobre el parabrisas, en un estilo de cine negro"
Clip 3: "Dentro de un almacén oscuro, un detective está frente a una figura en silueta, lo que crea una atmósfera tensa".
Mejora tu flujo de trabajo con Gemini
Gemini puede ser un socio poderoso durante todo el proceso de creación de videos, desde la ideación hasta la evaluación.
Antes de la creación: Usa Gemini como un experto en instrucciones
En lugar de comenzar desde cero, puedes pedirle a Gemini que actúe como un experto en instrucciones. Haz que refine tus ideas básicas en instrucciones detalladas y listas para Veo. Por ejemplo, puedes darle una instrucción como la siguiente:
"Act as an expert prompter for a generative AI video generation model. Look at
this image, and write a prompt that INSTRUCTION. Ensure your
prompt is comprehensive and detailed."
Reemplaza INSTRUCTION por instrucciones adicionales para el modelo de Veo.
Después de la creación: Usa Gemini como un "segundo par de ojos"
Después de generar el video, Gemini puede evaluar el resultado final, compararlo con los lineamientos de la empresa o la marca, y marcar cualquier área potencialmente problemática que pueda requerir una revisión manual.
Logra coherencia en los personajes y las voces
Crea una descripción detallada del personaje: La descripción del personaje es la base de la coherencia. Para garantizar la reutilización y la coherencia de la voz, asígnale un nombre y un estilo de voz específico. Luego, crea la descripción con un conjunto enriquecido de funciones inmutables: complexión física y edad, color y estilo de cabello, estructura facial, color y forma de ojos, y cualquier marca definitoria. Puedes usar Gemini para generar una descripción verbal exhaustiva de los rasgos faciales de tu personaje.
Aplica la descripción de manera coherente: Copia y pega la descripción completa e inalterada del personaje en tu instrucción para cada escena o acción nueva. Solo modifica las partes que describen la nueva acción o configuración. Para mejorar tu flujo de trabajo, también puedes usar Gemini como generador de escenas. Proporciónale a Gemini la descripción final de tu personaje y pídele que genere varias instrucciones de escena para ti.
Usa el mismo parámetro de semilla: Para garantizar una salida visual, estilística y de voz coherente en varias escenas, usa el mismo parámetro de semilla.
Ejemplo: El siguiente video se generó con el mismo parámetro de semilla y las siguientes instrucciones. Las descripciones repetidas de los personajes y las voces están en negrita en cada una de las siguientes instrucciones:
Instrucción para la escena 1:
"A medium shot, with the camera slowly dollying forward in a dimly lit, grand
Parisian archive. Dust motes dance in a single beam of light from a high window.
Clara, a historian in her early 30s, with observant, dark brown
eyes that hold a quiet intensity. She has chin-length, black hair styled in a
classic bob. She is dressed in a sophisticated, dark navy-blue
wool coat, with a silk scarf patterned with subtle gold and cream designs tied
around her neck. She stands before a large, ancient wooden table, carefully
turning the fragile, yellowed page of a massive, leather-bound book. Her
expression is one of deep concentration. In a voice that is crisp
and clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: It has to be here"
Instrucción para la escena 2:
"A wide shot of the Pont des Arts in Paris at twilight, the sky a mix of deep
blue and soft orange. The lights of the city are beginning to twinkle on along
the Seine. Clara, a historian in her early 30s, with observant,
dark brown eyes that hold a quiet intensity. She has chin-length, black hair
styled in a classic bob. She is dressed in a sophisticated, dark
navy-blue wool coat, with a silk scarf patterned with subtle gold and cream
designs tied around her neck. She leans against the railing, looking out at the
water, a small, triumphant smile on her face. She pulls a folded, old map from
her coat pocket and looks down at it. In a voice that is crisp and
clear, with a thoughtful, analytical tone and a standard American
accent, Clara says: I knew it. The path starts from here"
Instrucción para la escena 3:
"An eye-level shot in a small, hidden Parisian courtyard, overgrown with ivy and
lit by a single, warm gas lamp. Clara, a historian in her early
30s, with observant, dark brown eyes that hold a quiet intensity. She has
chin-length, black hair styled in a classic bob. She is dressed
in a sophisticated, dark navy-blue wool coat, with a silk scarf patterned with
subtle gold and cream designs tied around her neck. She kneels down and runs her
fingers over an ancient, carved symbol on a stone paver, almost completely
obscured by moss. Her eyes light up with discovery. In a voice
that is crisp and clear, with a thoughtful, analytical tone and a standard
American accent, Clara says: After all these years, I've found
it"
Conversión de imágenes en videos
En las siguientes secciones, se describen las prácticas recomendadas que son importantes cuando se usa la conversión de imágenes en videos.
Usa una imagen de origen de alta calidad
Cuando usas la función de conversión de imágenes en videos, la calidad de la imagen de origen es importante. Veo usa la imagen de origen como base para todo lo que sigue, incluidos los detalles de los personajes, la iluminación y el estilo artístico general.
Una fotografía nítida, clara y bien compuesta produce un video más coherente y de mayor calidad. Considera la imagen de origen como el primer fotograma de tu película: cuanto más fuerte sea el comienzo, mejor será el final.
Instrucción solo para el movimiento
Tu imagen de origen ya proporciona el sujeto, la escena y el estilo. Enfoca tu instrucción en el movimiento que quieres ver.
No se recomienda: Volver a describir el personaje, el fondo o la iluminación que se muestran en la imagen. Las instrucciones redundantes confunden al modelo y generan resultados deficientes.
Se recomienda: Instrucción para el movimiento de la cámara , la animación de elementos y los cambios ambientales.
Usa términos generales para los personajes de la imagen de origen
En tu instrucción de movimiento, haz referencia al personaje con términos generales como "el sujeto", "la mujer", "él", "ella" o "ellos".
Dirige el movimiento de la cámara
Puedes dirigir tres tipos de movimiento, ya sea solos o en combinación.
Movimiento de la cámara: La cámara se mueve, pero la escena es estática. Esta es la forma más sencilla y confiable de agregar dinamismo.
- Ejemplo: "Acercamiento lento del sujeto".
Animación de elementos: El personaje o el objeto principal se mueve. Es ideal para acciones sutiles y realistas.
- Ejemplo: "El cabello y la ropa del personaje ondean suavemente con el viento".
Animación ambiental: El fondo o la atmósfera cobran vida.
- Ejemplo: "La niebla se desplaza lentamente por el paisaje".
Ejemplo: En el siguiente video y la siguiente instrucción, se muestra la animación de elementos con la siguiente imagen:

"A sweeping drone-like aerial view starting from ground level and rising to
reveal the entire landscape in epic proportions"
Resumen de prácticas recomendadas
En la siguiente tabla, se resumen las prácticas recomendadas de este documento.
| Tema | Tarea |
|---|---|
| Instrucciones | |
| Generación de video | |
| Conversión de imágenes en videos |
¿Qué sigue?
Guía de instrucciones de Veo en Gemini Enterprise Agent Platform
Genera videos con Veo en Gemini Enterprise Agent Platform a partir de instrucciones de texto
Genera videos con Veo en Gemini Enterprise Agent Platform a partir de una imagen
Extiende la generación de videos de Veo en Gemini Enterprise Agent Platform
Comprende la IA responsable y los lineamientos de uso de Veo en Gemini Enterprise Agent Platform