Auf dieser Seite finden Sie Voraussetzungen und eine detaillierte Anleitung zur Feinabstimmung von Gemini mithilfe von Videodaten und beaufsichtigtem Lernen.
Anwendungsfälle
Mit der Feinabstimmung können Sie Gemini-Basismodelle für spezielle Aufgaben anpassen. Hier einige Anwendungsfälle für Videos:
Automatisierte Videozusammenfassung: LLMs werden so optimiert, dass sie prägnante und kohärente Zusammenfassungen langer Videos generieren, in denen die wichtigsten Themen, Ereignisse und Erzählungen erfasst werden. Das ist nützlich für die Suche nach Inhalten, die Archivierung und schnelle Reviews.
Detaillierte Ereigniserkennung und ‑lokalisierung: Durch die Feinabstimmung können LLMs bestimmte Aktionen, Ereignisse oder Objekte in einer Video-Timeline genauer erkennen und lokalisieren. So können beispielsweise alle Instanzen eines bestimmten Produkts in einem Marketingvideo oder eine bestimmte Aktion in Sportaufnahmen identifiziert werden.
Inhaltsmoderation: Durch spezielle Optimierung kann die Fähigkeit eines LLM verbessert werden, sensible, unangemessene oder richtlinienwidrige Inhalte in Videos zu erkennen. Dabei wird über die einfache Objekterkennung hinausgegangen, um Kontext und Nuancen zu verstehen.
Videountertitelung: Dies ist bereits eine gängige Anwendung. Durch die Feinabstimmung können die Genauigkeit, der Sprachfluss und die Kontextsensitivität von automatisch generierten Untertiteln verbessert werden, einschließlich Beschreibungen nonverbaler Hinweise.
Beschränkungen
- Maximale Videodateigröße: 100 MB.
Das reicht möglicherweise nicht für große Videodateien aus. Hier einige empfohlene Problemumgehungen:
- Wenn es nur wenige große Dateien gibt, schließen Sie diese Dateien nicht in die JSONL-Dateien ein.
- Wenn Ihr Dataset viele große Dateien enthält, die nicht ignoriert werden können, reduzieren Sie die visuelle Auflösung der Dateien. Das kann sich negativ auf die Leistung auswirken.
- Teilen Sie die Videos in Chunks auf, um die Dateigröße auf 100 MB zu begrenzen, und verwenden Sie die gechunkten Videos für das Tuning. Achte darauf, dass du alle Zeitstempelanmerkungen, die sich auf das Originalvideo beziehen, an die neue (aufgeteilte) Videotimeline anpasst.
- Maximale Videolänge pro Beispiel: Pro Beispiel ist nur ein Video zulässig. Es kann mit
MEDIA_RESOLUTION_HIGHoderMEDIA_RESOLUTION_MEDIUM5 Minuten lang sein und mitMEDIA_RESOLUTION_LOW20 Minuten. - Entfernte Beispiele: Wenn ein Beispiel Videoinhalte enthält, die länger als die unterstützte maximale Länge sind, wird es aus dem Dataset entfernt. Nicht berücksichtigte Beispiele werden nicht in Rechnung gestellt und nicht für das Training verwendet. Wenn mehr als 10% des Datasets verworfen werden, schlägt der Job mit einer Fehlermeldung fehl, bevor das Training beginnt.
- Mischen verschiedener Media-Auflösungen wird nicht unterstützt: Der Wert von
mediaResolutionmuss für jedes Beispiel im gesamten Trainingsdataset konsistent sein. Alle Zeilen in den JSONL-Dateien, die für das Training und die Validierung verwendet werden, sollten denselben Wert fürmediaResolutionhaben.
Dataset-Format
Im Feld fileUri wird der Speicherort des Datasets angegeben. Das kann der URI für eine Datei in einem Cloud Storage-Bucket oder eine öffentlich verfügbare HTTP- oder HTTPS-URL sein.
Mit dem Feld mediaResolution wird die Anzahl der Tokens pro Frame für die Eingabevideos angegeben. Im Folgenden werden die Tokenanzahlen für unterstützte Modelle beschrieben:
Gemini 2.5:
MEDIA_RESOLUTION_LOW: 64 Tokens pro FrameMEDIA_RESOLUTION_MEDIUMundMEDIA_RESOLUTION_HIGH: 256 Tokens pro Frame
Die Modellabstimmung mit
MEDIA_RESOLUTION_LOWist etwa viermal schneller als die mitMEDIA_RESOLUTION_MEDIUModerMEDIA_RESOLUTION_HIGH, wobei die Leistungssteigerung minimal ist.Gemini 3:
Die Anzahl der Tokens ist dieselbe wie beim Basismodell. Weitere Informationen finden Sie unter Media-Auflösung.
Wenn ein Videosegment für das Training und die Validierung verwendet wird, befindet es sich im Feld videoMetadata. Während der Optimierung wird dieser Datenpunkt so decodiert, dass er Informationen aus dem Segment enthält, das aus der angegebenen Videodatei extrahiert wurde, beginnend mit dem Zeitstempel startOffset (dem Start-Offset in Sekunden) bis endOffset.
Ein Beispiel für das generische Format finden Sie unter Dataset-Beispiel für Gemini.
In den folgenden Abschnitten finden Sie Beispiele für das Format von Videodatasets.
Beispiel für JSON-Schema für Fälle, in denen das vollständige Video für Training und Validierung verwendet wird
Dieses Schema wird als einzelne Zeile in die JSONL-Datei eingefügt.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
},
},
{
"text": "
You are a video analysis expert. Detect which animal appears in the
video.The video can only have one of the following animals: dog, cat,
rabbit.\n Output Format:\n Generate output in the following JSON
format:\n
[{\n
\"animal_name\": \"<CATEGORY>\",\n
}]\n"
}
]
},
{
"role": "model",
"parts": [
{
"text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
}
]
},
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
(Nur Gemini 3-Modelle und höher) Ab den Gemini 3-Modellen können Sie auch die Media-Auflösung für einzelne Media-Elemente festlegen. So können Sie Auflösungen in Ihrem Dataset mischen, indem Sie beispielsweise MEDIA_RESOLUTION_HIGH für ein Element und MEDIA_RESOLUTION_LOW für ein anderes festlegen. Weitere Informationen zur Auflösung auf Teilebene und den entsprechenden Tokenanzahlen finden Sie unter Media-Auflösung.Part
Einstellungen für die Medienauflösung auf Part-Ebene haben Vorrang vor globalen Einstellungen.
Das folgende Beispiel-Dataset legt die Media-Auflösung sowohl auf Part- als auch auf globaler Ebene fest:
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
}
},
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
},
"mediaResolution": {
"level": "MEDIA_RESOLUTION_HIGH"
}
},
{
"text": "Describe these videos in detail."
}
]
},
{
"role": "model",
"parts": [
{
"text": "Video 1 is low resolution while video 2 is sharp and clear"
}
]
}
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
JSON-Schema-Beispiel für Fälle, in denen ein Videosegment für Training und Validierung verwendet wird
Dieses Schema wird als einzelne Zeile in die JSONL-Datei eingefügt.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
},
"videoMetadata": {
"startOffset": "5s",
"endOffset": "25s"
}
},
{
"text": "
You are a video analysis expert. Detect which animal appears in the
video.The video can only have one of the following animals: dog, cat,
rabbit.\n Output Format:\n Generate output in the following JSON
format:\n
[{\n
\"animal_name\": \"<CATEGORY>\",\n
}]\n"
}
]
},
{
"role": "model",
"parts": [
{
"text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
}
]
},
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
Nächste Schritte
Weitere Informationen zum Optimieren von Videos mit Gemini 2.5 über die Agent Platform
Weitere Informationen zum Bildverständnis von Gemini finden Sie in der Dokumentation zum Bildverständnis.
Weitere Informationen finden Sie unter Gemini-Modelle mithilfe der überwachten Feinabstimmung abstimmen.
Informationen dazu, wie die überwachte Feinabstimmung in einer Lösung verwendet werden kann, die eine Wissensdatenbank für generative KI erstellt, finden Sie unter Schnellstartlösung: Wissensdatenbank für generative KI.