Funkcja wykonywania kodu w Gemini API umożliwia modelowi generowanie i uruchamianie kodu Pythona oraz uczenie się na podstawie wyników aż do uzyskania ostatecznej wersji. Za pomocą tej funkcji wykonywania kodu możesz tworzyć aplikacje korzystające z rozumowania opartego na kodzie i generujące tekstowe dane wyjściowe. Możesz na przykład użyć wykonania kodu w aplikacji, która rozwiązuje równania lub przetwarza tekst.
Wykonywanie kodu jest dostępne zarówno w AI Studio, jak i interfejsie Gemini API. W AI Studio możesz włączyć wykonywanie kodu w panelu po prawej stronie w sekcji Narzędzia. Gemini API umożliwia wykonywanie kodu jako narzędzie podobne do wywoływania funkcji. Gdy dodasz wykonanie kodu jako narzędzie, model decyduje, kiedy go użyć.
Środowisko wykonywania kodu obejmuje następujące biblioteki: altair
, chess
, cv2
, matplotlib
, mpmath
, numpy
, pandas
, pdfminer
, reportlab
, seaborn
, sklearn
, statsmodels
, striprtf
, sympy
i tabulate
. Nie możesz instalować własnych bibliotek.
Zanim zaczniesz
Zanim wywołasz interfejs Gemini API, upewnij się, że masz zainstalowany wybrany pakiet SDK oraz skonfigurowany i gotowy do użycia klucz interfejsu Gemini API.
Wprowadzenie do wykonywania kodu
Wejście/wyjście (I/O)
Począwszy od Gemini 2.0 Flash, wykonywanie kodu obsługuje wprowadzanie plików i wyświetlanie wykresów. Korzystając z nowych funkcji wejściowych i wyjściowych, możesz przesyłać pliki CSV i tekstowe, zadawać pytania o pliki, a w odpowiedzi generować wykresy Matplotlib.
Cennik I/O
Przy korzystaniu z operacji wejścia-wyjścia wykonania kodu płacisz za tokeny wejściowe i wyjściowe:
Tokeny wejściowe:
- Prompt użytkownika
Tokeny wyjściowe:
- Kod wygenerowany przez model
- Dane wyjściowe uruchomionego kodu w środowisku kodu
- Podsumowanie wygenerowane przez model
Szczegóły I/O
Podczas korzystania z wejścia/wyjścia wykonywania kodu pamiętaj o tych kwestiach technicznych:
- Maksymalny czas działania środowiska kodu to 30 sekund.
- Jeśli środowisko kodu wygeneruje błąd, model może zdecydować się na ponowne wygenerowanie danych wyjściowych kodu. Może się to zdarzyć maksymalnie 5 razy.
- Maksymalny rozmiar danych wejściowych pliku jest ograniczony przez okno tokena modelu. W AI Studio przy użyciu Gemini Flash 2.0 maksymalny rozmiar pliku wejściowego to 1 milion tokenów (około 2 MB w przypadku plików tekstowych obsługiwanych typów wprowadzania). Jeśli prześlesz zbyt duży plik, AI Studio uniemożliwi jego wysłanie.
Jeden etap | Dwukierunkowe (multimodal Live API) | |
---|---|---|
Obsługiwane modele | Wszystkie modele Gemini 2.0 | Tylko modele eksperymentalne Flash |
Obsługiwane typy danych wejściowych pliku | .png, .jpeg, .csv, .xml, .cpp, .java, .py, .js, .ts | .png, .jpeg, .csv, .xml, .cpp, .java, .py, .js, .ts |
Obsługiwane biblioteki wykresów | Matplotlib | Matplotlib |
Korzystanie z wielu narzędzi | Nie | Tak |
Płatności
Włączenie wykonywania kodu z poziomu interfejsu Gemini API nie wiąże się z dodatkowymi opłatami. Opłaty będą naliczane według aktualnej stawki tokenów wejściowych i wyjściowych na podstawie używanego przez Ciebie modelu Gemini.
Oto kilka dodatkowych informacji o płatnościach za wykonanie kodu:
- Opłaty są naliczane tylko raz za tokeny wejściowe przekazane do modelu, a opłaty za ostateczne tokeny wyjściowe zwrócone przez model.
- Tokeny reprezentujące wygenerowany kod są liczone jako tokeny wyjściowe. Wygenerowany kod może zawierać tekst i multimodalne dane wyjściowe, takie jak obrazy.
- Wyniki wykonania kodu są też liczone jako tokeny wyjściowe.
Model płatności pokazano na tym diagramie:
- Opłaty są naliczane według aktualnej stawki tokenów wejściowych i wyjściowych na podstawie używanego przez Ciebie modelu Gemini.
- Jeśli Gemini podczas generowania odpowiedzi użyje wykonania kodu, pierwotny prompt, wygenerowany kod i wynik wykonanego kodu są oznaczone etykietą tokeny pośrednie i są rozliczane jako tokeny wejściowe.
- Gemini generuje następnie podsumowanie i zwraca wygenerowany kod, wynik wykonanego kodu oraz ostateczne podsumowanie. Są one rozliczane jako tokeny wyjściowe.
- Interfejs Gemini API uwzględnia liczbę tokenów pośrednich w odpowiedzi interfejsu API, dzięki czemu wiesz, dlaczego otrzymujesz dodatkowe tokeny wejściowe poza początkowym promptem.
Ograniczenia
- Model może tylko generować i wykonywać kod. Nie może zwracać innych artefaktów, np. plików multimedialnych.
- W niektórych przypadkach włączenie wykonania kodu może doprowadzić do regresji w innych obszarach danych wyjściowych modelu (np. podczas pisania historii).
- Występują pewne różnice w możliwościach pomyślnego wykonywania kodu przez różne modele.