Codeausführung

Mit der Codeausführungsfunktion der Gemini API kann das Modell Python-Code generieren und ausführen und iterativ aus den Ergebnissen lernen, bis eine endgültige Ausgabe erreicht wird. Mit dieser Codeausführungsfunktion können Sie Anwendungen erstellen, die von codebasierter Argumentation profitieren und Textausgaben generieren. Sie können die Codeausführung beispielsweise in einer Anwendung verwenden, die Gleichungen löst oder Text verarbeitet.

Die Codeausführung ist sowohl in AI Studio als auch in der Gemini API verfügbar. In AI Studio können Sie die Codeausführung im rechten Bereich unter Tools aktivieren. Die Gemini API bietet die Codeausführung als Tool, ähnlich wie beim Funktionsaufruf. Nachdem Sie die Codeausführung als Tool hinzugefügt haben, entscheidet das Modell, wann es verwendet werden soll.

Die Codeausführungsumgebung umfasst die folgenden Bibliotheken: altair, chess, cv2, matplotlib, mpmath, numpy, pandas, pdfminer, reportlab, seaborn, sklearn, statsmodels, striprtf, sympy und tabulate. Sie können keine eigenen Bibliotheken installieren.

Erste Schritte mit der Codeausführung

In diesem Abschnitt wird davon ausgegangen, dass Sie die Einrichtungs- und Konfigurationsschritte in der Kurzanleitung ausgeführt haben.

Eingabe/Ausgabe (I/O)

Ab Gemini 2.0 Flash wird bei der Codeausführung die Dateieingabe und die Grafikausgabe unterstützt. Mit diesen neuen Eingabe- und Ausgabefunktionen können Sie CSV- und Textdateien hochladen, Fragen zu den Dateien stellen und als Teil der Antwort Matplotlib-Diagramme generieren lassen.

I/O-Preise

Bei der Verwendung der Codeausführungs-E/A werden Ihnen Eingabe- und Ausgabetokens in Rechnung gestellt:

Eingabetokens:

  • Nutzer-Prompt

Ausgabetokens:

  • Vom Modell generierter Code
  • Codeausführungsausgabe in der Codeumgebung
  • Vom Modell generierte Zusammenfassung

E/A-Details

Beachten Sie bei der Arbeit mit der E/A der Codeausführung die folgenden technischen Details:

  • Die maximale Laufzeit der Codeumgebung beträgt 30 Sekunden.
  • Wenn die Codeumgebung einen Fehler generiert, kann das Modell entscheiden, die Codeausgabe neu zu generieren. Das kann bis zu fünfmal passieren.
  • Die maximale Dateieingabegröße wird durch das Modelltokenfenster begrenzt. In AI Studio mit Gemini Flash 2.0 beträgt die maximale Eingabedateigröße 1 Million Token (ungefähr 2 MB für Textdateien der unterstützten Eingabetypen). Wenn Sie eine zu große Datei hochladen, können Sie sie in AI Studio nicht senden.
Single-Turn Bidirektional (Multimodal Live API)
Unterstützte Modelle Alle Gemini 2.0-Modelle Nur experimentelle Flash-Modelle
Unterstützte Dateieingabetypen PNG, JPEG, CSV, XML, CPP, JAVA, PY, JS, TS PNG, JPEG, CSV, XML, CPP, JAVA, PY, JS, TS
Unterstützte Plot-Bibliotheken Matplotlib Matplotlib
Mehrere Tools verwenden Nein Ja

Abrechnung

Für die Aktivierung der Codeausführung über die Gemini API fallen keine zusätzlichen Kosten an. Ihnen werden die Eingabe- und Ausgabetokens zum aktuellen Preis in Rechnung gestellt, der auf dem von Ihnen verwendeten Gemini-Modell basiert.

Weitere Informationen zur Abrechnung der Codeausführung:

  • Sie werden nur einmal für die Eingabe-Tokens in Rechnung gestellt, die Sie an das Modell übergeben. Außerdem werden Ihnen die endgültigen Ausgabe-Tokens in Rechnung gestellt, die vom Modell zurückgegeben werden.
  • Tokens, die generierten Code darstellen, werden als Ausgabetokens gezählt. Der generierte Code kann Text und multimodale Ausgabe wie Bilder enthalten.
  • Ergebnisse der Codeausführung werden ebenfalls als Ausgabetokens gezählt.

Das Abrechnungsmodell ist im folgenden Diagramm dargestellt:

Abrechnungsmodell für die Codeausführung

  • Die Abrechnung erfolgt nach dem aktuellen Preis für Eingabe- und Ausgabetokens, der auf dem von Ihnen verwendeten Gemini-Modell basiert.
  • Wenn Gemini beim Generieren Ihrer Antwort die Codeausführung verwendet, werden der ursprüngliche Prompt, der generierte Code und das Ergebnis des ausgeführten Codes als Zwischen-Tokens gekennzeichnet und als Eingabe-Tokens abgerechnet.
  • Gemini generiert dann eine Zusammenfassung und gibt den generierten Code, das Ergebnis des ausgeführten Codes und die endgültige Zusammenfassung zurück. Diese werden als Ausgabetokens abgerechnet.
  • Die Gemini API enthält in der API-Antwort eine Zwischentokenanzahl, damit du weißt, warum du zusätzlich zu deinem ursprünglichen Prompt zusätzliche Eingabetokens erhältst.

Beschränkungen

  • Das Modell kann nur Code generieren und ausführen. Andere Artefakte wie Mediendateien können nicht zurückgegeben werden.
  • In einigen Fällen kann die Aktivierung der Codeausführung zu Rückschritten in anderen Bereichen der Modellausgabe führen, z. B. beim Schreiben einer Geschichte.
  • Die verschiedenen Modelle unterscheiden sich in der Fähigkeit, die Codeausführung erfolgreich zu nutzen.