Mit der Codeausführungsfunktion der Gemini API kann das Modell Python-Code generieren und ausführen und iterativ aus den Ergebnissen lernen, bis es zu einer endgültigen Ausgabe kommt. Sie können diese Codeausführungsfunktion nutzen, um Anwendungen zu erstellen, die von codebasierten Schlussfolgerungen profitieren und Text ausgeben. Die Codeausführung können Sie beispielsweise in einer Anwendung verwenden, die Gleichungen löst oder Text verarbeitet.
Codeausführung ist sowohl in AI Studio als auch in der Gemini API verfügbar. In AI Studio können Sie die Codeausführung im rechten Bereich unter Tools aktivieren. Die Gemini API bietet Codeausführung als Tool, ähnlich wie Funktionsaufrufe. Nachdem Sie die Codeausführung als Tool hinzugefügt haben, entscheidet das Modell, wann es verwendet wird.
Die Codeausführungsumgebung umfasst die folgenden Bibliotheken: altair
, chess
, cv2
, matplotlib
, mpmath
, numpy
, pandas
, pdfminer
, reportlab
, seaborn
, sklearn
, statsmodels
, striprtf
, sympy
und tabulate
. Sie können keine eigenen Bibliotheken installieren.
Hinweis
Bevor Sie die Gemini API aufrufen, müssen Sie das von Ihnen ausgewählte SDK installiert und einen Gemini API-Schlüssel konfiguriert und einsatzbereit haben.
Erste Schritte mit der Codeausführung
Ein-/Ausgabe (E/A)
Ab Gemini 2.0 Flash unterstützt die Codeausführung die Datei- und Grafikausgabe. Mit diesen neuen Eingabe- und Ausgabefunktionen können Sie CSV- und Textdateien hochladen, Fragen zu den Dateien stellen und Matplotlib-Grafiken als Teil der Antwort generieren lassen.
E/A-Preise
Bei der Verwendung von E/A zur Codeausführung werden Eingabe- und Ausgabetokens in Rechnung gestellt:
Eingabetokens:
- Nutzer-Prompt
Ausgabetokens:
- Vom Modell generierter Code
- Ausgabe der Codeausführung in der Codeumgebung
- Vom Modell generierte Zusammenfassung
E/A-Details
Wenn Sie mit der Codeausführungs-E/A arbeiten, beachten Sie die folgenden technischen Details:
- Die maximale Laufzeit der Codeumgebung beträgt 30 Sekunden.
- Wenn die Codeumgebung einen Fehler generiert, kann das Modell entscheiden, die Codeausgabe neu zu generieren. Das kann bis zu fünfmal passieren.
- Die maximale Dateieingabegröße wird durch das Modelltokenfenster begrenzt. In AI Studio beträgt die maximale Größe der Eingabedatei bei Verwendung von Gemini Flash 2.0 1 Million Tokens (etwa 2 MB für Textdateien der unterstützten Eingabetypen). Wenn Sie eine zu große Datei hochladen, können Sie sie in AI Studio nicht senden.
Single-Turn | Bidirektional (multimodal Live API) | |
---|---|---|
Unterstützte Modelle | Alle Gemini 2.0-Modelle | Nur experimentelle Flash-Modelle |
Unterstützte Dateieingabetypen | .png, .jpeg, .csv, .xml, .cpp, .java, .py, .js, .ts | .png, .jpeg, .csv, .xml, .cpp, .java, .py, .js, .ts |
Darstellungsbibliotheken werden unterstützt | Matplotlib | Matplotlib |
Verwendung von Multitools | Nein | Ja |
Abrechnung
Wenn Sie die Codeausführung über die Gemini API aktivieren, fallen keine zusätzlichen Kosten an. Ihnen werden die aktuellen Ein- und Ausgabetokens basierend auf dem von Ihnen verwendeten Gemini-Modell in Rechnung gestellt.
Weitere Informationen zur Abrechnung der Codeausführung:
- Die Eingabetokens, die Sie an das Modell übergeben, werden Ihnen nur einmal in Rechnung gestellt. Die endgültigen Ausgabetokens, die vom Modell zurückgegeben werden, werden Ihnen in Rechnung gestellt.
- Tokens, die den generierten Code darstellen, werden als Ausgabetoken gezählt. Der generierte Code kann Text und multimodale Ausgaben wie Bilder enthalten.
- Ergebnisse der Codeausführung werden auch als Ausgabetoken gezählt.
Das Abrechnungsmodell wird im folgenden Diagramm dargestellt:
- Ihnen werden die aktuellen Ein- und Ausgabetokens basierend auf dem von Ihnen verwendeten Gemini-Modell in Rechnung gestellt.
- Wenn Gemini beim Generieren Ihrer Antwort Codeausführung verwendet, werden der ursprüngliche Prompt, der generierte Code und das Ergebnis des ausgeführten Codes als Zwischentokens gekennzeichnet und als Eingabetokens in Rechnung gestellt.
- Gemini generiert dann eine Zusammenfassung und gibt den generierten Code, das Ergebnis des ausgeführten Codes und die endgültige Zusammenfassung zurück. Diese werden als Ausgabetokens in Rechnung gestellt.
- Die Gemini API enthält eine Zwischenanzahl von Tokens in der API-Antwort, damit Sie wissen, warum Sie zusätzliche Eingabetokens erhalten, die über die ursprüngliche Aufforderung hinausgehen.
Beschränkungen
- Das Modell kann nur Code generieren und ausführen. Andere Artefakte wie Mediendateien können nicht zurückgegeben werden.
- In einigen Fällen kann die Aktivierung der Codeausführung zu Rückschritten in anderen Bereichen der Modellausgabe führen, z. B. beim Schreiben einer Geschichte.
- Die Möglichkeiten der verschiedenen Modelle, die Codeausführung erfolgreich zu nutzen, können unterschiedlich sein.