Wykonanie kodu

Funkcja wykonywania kodu w Gemini API umożliwia modelowi generowanie i uruchamianie kodu Pythona oraz uczenie się na podstawie wyników aż do uzyskania ostatecznej wersji. Za pomocą tej funkcji wykonywania kodu możesz tworzyć aplikacje korzystające z rozumowania opartego na kodzie i generujące tekstowe dane wyjściowe. Możesz na przykład użyć wykonania kodu w aplikacji, która rozwiązuje równania lub przetwarza tekst.

Wykonywanie kodu jest dostępne zarówno w AI Studio, jak i interfejsie Gemini API. W AI Studio możesz włączyć wykonywanie kodu w panelu po prawej stronie w sekcji Narzędzia. Gemini API umożliwia wykonywanie kodu jako narzędzie podobne do wywoływania funkcji. Gdy dodasz wykonanie kodu jako narzędzie, model decyduje, kiedy go użyć.

Środowisko wykonywania kodu obejmuje następujące biblioteki: altair, chess, cv2, matplotlib, mpmath, numpy, pandas, pdfminer, reportlab, seaborn, sklearn, statsmodels, striprtf, sympy i tabulate. Nie możesz instalować własnych bibliotek.

Zanim zaczniesz

Zanim wywołasz interfejs Gemini API, upewnij się, że masz zainstalowany wybrany pakiet SDK oraz skonfigurowany i gotowy do użycia klucz interfejsu Gemini API.

Wprowadzenie do wykonywania kodu

Wejście/wyjście (I/O)

Począwszy od Gemini 2.0 Flash, wykonywanie kodu obsługuje wprowadzanie plików i wyświetlanie wykresów. Korzystając z nowych funkcji wejściowych i wyjściowych, możesz przesyłać pliki CSV i tekstowe, zadawać pytania o pliki, a w odpowiedzi generować wykresy Matplotlib.

Cennik I/O

Przy korzystaniu z operacji wejścia-wyjścia wykonania kodu płacisz za tokeny wejściowe i wyjściowe:

Tokeny wejściowe:

  • Prompt użytkownika

Tokeny wyjściowe:

  • Kod wygenerowany przez model
  • Dane wyjściowe uruchomionego kodu w środowisku kodu
  • Podsumowanie wygenerowane przez model

Szczegóły I/O

Podczas korzystania z wejścia/wyjścia wykonywania kodu pamiętaj o tych kwestiach technicznych:

  • Maksymalny czas działania środowiska kodu to 30 sekund.
  • Jeśli środowisko kodu wygeneruje błąd, model może zdecydować się na ponowne wygenerowanie danych wyjściowych kodu. Może się to zdarzyć maksymalnie 5 razy.
  • Maksymalny rozmiar danych wejściowych pliku jest ograniczony przez okno tokena modelu. W AI Studio przy użyciu Gemini Flash 2.0 maksymalny rozmiar pliku wejściowego to 1 milion tokenów (około 2 MB w przypadku plików tekstowych obsługiwanych typów wprowadzania). Jeśli prześlesz zbyt duży plik, AI Studio uniemożliwi jego wysłanie.
Jeden etap Dwukierunkowe (multimodal Live API)
Obsługiwane modele Wszystkie modele Gemini 2.0 Tylko modele eksperymentalne Flash
Obsługiwane typy danych wejściowych pliku .png, .jpeg, .csv, .xml, .cpp, .java, .py, .js, .ts .png, .jpeg, .csv, .xml, .cpp, .java, .py, .js, .ts
Obsługiwane biblioteki wykresów Matplotlib Matplotlib
Korzystanie z wielu narzędzi Nie Tak

Płatności

Włączenie wykonywania kodu z poziomu interfejsu Gemini API nie wiąże się z dodatkowymi opłatami. Opłaty będą naliczane według aktualnej stawki tokenów wejściowych i wyjściowych na podstawie używanego przez Ciebie modelu Gemini.

Oto kilka dodatkowych informacji o płatnościach za wykonanie kodu:

  • Opłaty są naliczane tylko raz za tokeny wejściowe przekazane do modelu, a opłaty za ostateczne tokeny wyjściowe zwrócone przez model.
  • Tokeny reprezentujące wygenerowany kod są liczone jako tokeny wyjściowe. Wygenerowany kod może zawierać tekst i multimodalne dane wyjściowe, takie jak obrazy.
  • Wyniki wykonania kodu są też liczone jako tokeny wyjściowe.

Model płatności pokazano na tym diagramie:

model płatności za wykonanie kodu

  • Opłaty są naliczane według aktualnej stawki tokenów wejściowych i wyjściowych na podstawie używanego przez Ciebie modelu Gemini.
  • Jeśli Gemini podczas generowania odpowiedzi użyje wykonania kodu, pierwotny prompt, wygenerowany kod i wynik wykonanego kodu są oznaczone etykietą tokeny pośrednie i są rozliczane jako tokeny wejściowe.
  • Gemini generuje następnie podsumowanie i zwraca wygenerowany kod, wynik wykonanego kodu oraz ostateczne podsumowanie. Są one rozliczane jako tokeny wyjściowe.
  • Interfejs Gemini API uwzględnia liczbę tokenów pośrednich w odpowiedzi interfejsu API, dzięki czemu wiesz, dlaczego otrzymujesz dodatkowe tokeny wejściowe poza początkowym promptem.

Ograniczenia

  • Model może tylko generować i wykonywać kod. Nie może zwracać innych artefaktów, np. plików multimedialnych.
  • W niektórych przypadkach włączenie wykonania kodu może doprowadzić do regresji w innych obszarach danych wyjściowych modelu (np. podczas pisania historii).
  • Występują pewne różnice w możliwościach pomyślnego wykonywania kodu przez różne modele.