Wykonanie kodu

Funkcja wykonywania kodu interfejsu Gemini API umożliwia modelowi generowanie i uruchamianie kodu Pythona oraz iteracyjne uczenie się na podstawie wyników, aż do uzyskania ostatecznego wyniku. Możesz użyć tej funkcji do tworzenia aplikacji, które korzystają z rozpoznawania tekstu opartego na kodzie i generują tekst. Możesz na przykład użyć wykonania kodu w aplikacji, która rozwiązuje równania lub przetwarza tekst.

Wykonywanie kodu jest dostępne zarówno w AI Studio, jak i w Gemini API. W AI Studio możesz włączyć wykonywanie kodu w panelu po prawej stronie w sekcji Narzędzia. Gemini API zapewnia wykonywanie kodu jako narzędzie, podobnie jak wywoływanie funkcji. Po dodaniu wykonywania kodu jako narzędzia model sam decyduje, kiedy ma go użyć.

Środowisko wykonywania kodu zawiera te biblioteki: altair, chess, cv2, matplotlib, mpmath, numpy, pandas, pdfminer, reportlab, seaborn, sklearn, statsmodels, striprtf, sympy i tabulate. Nie możesz instalować własnych bibliotek.

Pierwsze kroki z wykonywaniem kodu

W tej sekcji zakładamy, że masz już za sobą czynności związane z konfiguracją i ustawianiem, które omówiono w krótkim wprowadzeniu.

Wejście/wyjście (I/O)

Począwszy od Gemini 2.0 Flash, wykonywanie kodu obsługuje dane wejściowe w pliku i dane wyjściowe w postaci wykresu. Dzięki tym nowym funkcjom wejścia i wyjścia możesz przesyłać pliki CSV i pliki tekstowe, zadawać pytania dotyczące tych plików oraz generować wykresy Matplotlib w ramach odpowiedzi.

Ceny operacji wejścia/wyjścia

Gdy używasz funkcji I/O w ramach wykonywania kodu, płacisz za tokeny wejściowe i tokeny wyjściowe:

Tokeny wejściowe:

  • Prośba do użytkownika

Tokeny wyjściowe:

  • Kod wygenerowany przez model
  • Wynik działania kodu w środowisku kodu
  • Podsumowanie wygenerowane przez model

Szczegóły operacji wejścia/wyjścia

Podczas pracy z wejściami/wyjściami w ramach wykonywania kodu należy wziąć pod uwagę te szczegóły techniczne:

  • Maksymalny czas działania środowiska kodu to 30 sekund.
  • Jeśli środowisko kodu wygeneruje błąd, model może zdecydować się na ponowne wygenerowanie danych wyjściowych kodu. Może się to zdarzyć do 5 razy.
  • Maksymalny rozmiar pliku wejściowego jest ograniczony przez okno tokenu modelu. W AI Studio, przy użyciu Gemini Flash 2.0, maksymalny rozmiar pliku wejściowego to 1 mln tokenów (około 2 MB w przypadku plików tekstowych obsługiwanych typów danych wejściowych). Jeśli przesyłasz plik, który jest za duży, AI Studio nie pozwoli Ci go wysłać.
Jeden etap Dwukierunkowy (API rozmowy multimodalnej na żywo)
Obsługiwane modele Wszystkie modele Gemini 2.0 Tylko modele eksperymentalne Flasha
Obsługiwane typy danych wejściowych .png, .jpeg, .csv, .xml, .cpp, .java, .py, .js, .ts .png, .jpeg, .csv, .xml, .cpp, .java, .py, .js, .ts
Obsługiwane biblioteki do wykresów Matplotlib Matplotlib
Używanie narzędzia wielofunkcyjnego Nie Tak

Płatności

Włączenie wykonywania kodu z interfejsu Gemini API nie wiąże się z dodatkowymi opłatami. Będziesz rozliczany według bieżącej stawki tokenów wejściowych i wyjściowych na podstawie używanego modelu Gemini.

Oto kilka innych informacji o płatnościach za wykonywanie kodu:

  • Będziesz obciążany(-a) tylko raz za tokeny wejściowe przekazywane do modelu oraz za ostateczne tokeny wyjściowe zwracane przez model.
  • Tokeny reprezentujące wygenerowany kod są zliczane jako tokeny wyjściowe. Wygenerowany kod może zawierać tekst i dane multimodalne, takie jak obrazy.
  • Wyniki wykonania kodu są również liczone jako tokeny wyjściowe.

Model rozliczeniowy przedstawiono na poniższym diagramie:

model rozliczeniowy wykonania kodu;

  • Opłaty są naliczane według bieżącej stawki tokenów wejściowych i wyjściowych na podstawie używanego modelu Gemini.
  • Jeśli Gemini używa do generowania odpowiedzi wykonania kodu, oryginalny prompt, wygenerowany kod i wynik wykonanego kodu są oznaczone jako tokeny pośrednie i obliczane jako tokeny wejściowe.
  • Następnie Gemini generuje podsumowanie i zwraca wygenerowany kod, wynik wykonanego kodu oraz podsumowanie końcowe. Są one rozliczane jako tokeny wyjściowe.
  • Interfejs Gemini API zawiera w swojej odpowiedzi liczbę tokenów pośrednich, dzięki czemu wiesz, dlaczego otrzymujesz dodatkowe tokeny wejściowe poza początkowym promptem.

Ograniczenia

  • Model może tylko generować i wykonywać kod. Nie może zwracać innych artefaktów, takich jak pliki multimedialne.
  • W niektórych przypadkach włączenie wykonywania kodu może spowodować regresję w innych obszarach danych wyjściowych modelu (np. w pisaniu historii).
  • Różne modele mają nieco inne możliwości korzystania z wykonywania kodu.