Mit der Codeausführungsfunktion der Gemini API kann das Modell Python-Code generieren und ausführen und iterativ aus den Ergebnissen lernen, bis eine endgültige Ausgabe erreicht wird. Mit dieser Codeausführungsfunktion können Sie Anwendungen erstellen, die von codebasierter Argumentation profitieren und Textausgaben generieren. Sie können die Codeausführung beispielsweise in einer Anwendung verwenden, die Gleichungen löst oder Text verarbeitet.
Die Codeausführung ist sowohl in AI Studio als auch in der Gemini API verfügbar. In AI Studio können Sie die Codeausführung im rechten Bereich unter Tools aktivieren. Die Gemini API bietet die Codeausführung als Tool, ähnlich wie beim Funktionsaufruf. Nachdem Sie die Codeausführung als Tool hinzugefügt haben, entscheidet das Modell, wann es verwendet werden soll.
Die Codeausführungsumgebung umfasst die folgenden Bibliotheken:
altair
, chess
, cv2
, matplotlib
, mpmath
, numpy
, pandas
,
pdfminer
, reportlab
, seaborn
, sklearn
, statsmodels
, striprtf
,
sympy
und tabulate
. Sie können keine eigenen Bibliotheken installieren.
Erste Schritte mit der Codeausführung
In diesem Abschnitt wird davon ausgegangen, dass Sie die Einrichtungs- und Konfigurationsschritte in der Kurzanleitung ausgeführt haben.
Eingabe/Ausgabe (I/O)
Ab Gemini 2.0 Flash wird bei der Codeausführung die Dateieingabe und die Grafikausgabe unterstützt. Mit diesen neuen Eingabe- und Ausgabefunktionen können Sie CSV- und Textdateien hochladen, Fragen zu den Dateien stellen und als Teil der Antwort Matplotlib-Diagramme generieren lassen.
I/O-Preise
Bei der Verwendung der Codeausführungs-E/A werden Ihnen Eingabe- und Ausgabetokens in Rechnung gestellt:
Eingabetokens:
- Nutzer-Prompt
Ausgabetokens:
- Vom Modell generierter Code
- Codeausführungsausgabe in der Codeumgebung
- Vom Modell generierte Zusammenfassung
E/A-Details
Beachten Sie bei der Arbeit mit der E/A der Codeausführung die folgenden technischen Details:
- Die maximale Laufzeit der Codeumgebung beträgt 30 Sekunden.
- Wenn die Codeumgebung einen Fehler generiert, kann das Modell entscheiden, die Codeausgabe neu zu generieren. Das kann bis zu fünfmal passieren.
- Die maximale Dateieingabegröße wird durch das Modelltokenfenster begrenzt. In AI Studio mit Gemini Flash 2.0 beträgt die maximale Eingabedateigröße 1 Million Token (ungefähr 2 MB für Textdateien der unterstützten Eingabetypen). Wenn Sie eine zu große Datei hochladen, können Sie sie in AI Studio nicht senden.
Single-Turn | Bidirektional (Multimodal Live API) | |
---|---|---|
Unterstützte Modelle | Alle Gemini 2.0-Modelle | Nur experimentelle Flash-Modelle |
Unterstützte Dateieingabetypen | PNG, JPEG, CSV, XML, CPP, JAVA, PY, JS, TS | PNG, JPEG, CSV, XML, CPP, JAVA, PY, JS, TS |
Unterstützte Plot-Bibliotheken | Matplotlib | Matplotlib |
Mehrere Tools verwenden | Nein | Ja |
Abrechnung
Für die Aktivierung der Codeausführung über die Gemini API fallen keine zusätzlichen Kosten an. Ihnen werden die Eingabe- und Ausgabetokens zum aktuellen Preis in Rechnung gestellt, der auf dem von Ihnen verwendeten Gemini-Modell basiert.
Weitere Informationen zur Abrechnung der Codeausführung:
- Sie werden nur einmal für die Eingabe-Tokens in Rechnung gestellt, die Sie an das Modell übergeben. Außerdem werden Ihnen die endgültigen Ausgabe-Tokens in Rechnung gestellt, die vom Modell zurückgegeben werden.
- Tokens, die generierten Code darstellen, werden als Ausgabetokens gezählt. Der generierte Code kann Text und multimodale Ausgabe wie Bilder enthalten.
- Ergebnisse der Codeausführung werden ebenfalls als Ausgabetokens gezählt.
Das Abrechnungsmodell ist im folgenden Diagramm dargestellt:
- Die Abrechnung erfolgt nach dem aktuellen Preis für Eingabe- und Ausgabetokens, der auf dem von Ihnen verwendeten Gemini-Modell basiert.
- Wenn Gemini beim Generieren Ihrer Antwort die Codeausführung verwendet, werden der ursprüngliche Prompt, der generierte Code und das Ergebnis des ausgeführten Codes als Zwischen-Tokens gekennzeichnet und als Eingabe-Tokens abgerechnet.
- Gemini generiert dann eine Zusammenfassung und gibt den generierten Code, das Ergebnis des ausgeführten Codes und die endgültige Zusammenfassung zurück. Diese werden als Ausgabetokens abgerechnet.
- Die Gemini API enthält in der API-Antwort eine Zwischentokenanzahl, damit du weißt, warum du zusätzlich zu deinem ursprünglichen Prompt zusätzliche Eingabetokens erhältst.
Beschränkungen
- Das Modell kann nur Code generieren und ausführen. Andere Artefakte wie Mediendateien können nicht zurückgegeben werden.
- In einigen Fällen kann die Aktivierung der Codeausführung zu Rückschritten in anderen Bereichen der Modellausgabe führen, z. B. beim Schreiben einer Geschichte.
- Die verschiedenen Modelle unterscheiden sich in der Fähigkeit, die Codeausführung erfolgreich zu nutzen.