La función de ejecución de código de la API de Gemini permite que el modelo genere y ejecute código de Python, y aprenda de forma iterativa a partir de los resultados hasta que llegue a un resultado final. Puedes usar esta capacidad de ejecución de código para compilar aplicaciones que se beneficien del razonamiento basado en código y que produzcan salidas de texto. Por ejemplo, puedes usar la ejecución de código en una aplicación que resuelve ecuaciones o procesa texto.
La ejecución de código está disponible en AI Studio y la API de Gemini. En AI Studio, puedes habilitar la ejecución de código en el panel derecho en Herramientas. La API de Gemini proporciona la ejecución de código como herramienta, de forma similar a la llamada a funciones. Después de agregar la ejecución del código como herramienta, el modelo decide cuándo usarla.
El entorno de ejecución de código incluye las siguientes bibliotecas: altair
, chess
, cv2
, matplotlib
, mpmath
, numpy
, pandas
, pdfminer
, reportlab
, seaborn
, sklearn
, statsmodels
, striprtf
, sympy
y tabulate
. No puedes instalar tus propias bibliotecas.
Antes de comenzar
Antes de llamar a la API de Gemini, asegúrate de tener instalado el SDK que elijas y de que una clave de API de Gemini esté configurada y lista para usar.
Comienza a usar la ejecución de código
Entrada y salida (E/S)
A partir de Gemini 2.0 Flash, la ejecución de código admite la entrada de archivos y la salida de grafos. Con estas nuevas capacidades de entrada y salida, puedes subir archivos CSV y de texto, hacer preguntas sobre los archivos y generar gráficos de Matplotlib como parte de la respuesta.
Precios de E/S
Cuando usas E/S de ejecución de código, se te cobra por los tokens de entrada y de salida:
Tokens de entrada:
- Instrucción del usuario
Tokens de salida:
- Código generado por el modelo
- Resultado de la ejecución de código en el entorno del código
- Resumen generado por el modelo
Detalles de E/S
Cuando trabajes con E/S de ejecución de código, ten en cuenta los siguientes detalles técnicos:
- El tiempo de ejecución máximo del entorno de código es de 30 segundos.
- Si el entorno del código genera un error, el modelo puede decidir volver a generar el resultado del código. Esto puede ocurrir hasta 5 veces.
- El tamaño máximo de entrada del archivo está limitado por la ventana del token del modelo. En AI Studio, con Gemini Flash 2.0, el tamaño máximo del archivo de entrada es de 1 millón de tokens (aproximadamente 2 MB para los archivos de texto de los tipos de entrada compatibles). Si subes un archivo demasiado grande, AI Studio no te permitirá enviarlo.
Un solo turno | Bidireccional (API de Multimodal Live) | |
---|---|---|
Modelos compatibles | Todos los modelos de Gemini 2.0 | Solo modelos experimentales de Flash |
Tipos de entrada de archivo compatibles | .png, .jpeg, .csv, .xml, .cpp, .java, .py, .js y .ts | .png, .jpeg, .csv, .xml, .cpp, .java, .py, .js y .ts |
Cómo trazar bibliotecas compatibles | Matplotlib | Matplotlib |
Uso de varias herramientas | No | Sí |
Facturación
No se aplican cargos adicionales por habilitar la ejecución de código desde la API de Gemini. Se te facturará según la tarifa actual de tokens de entrada y salida, según el modelo Gemini que estés usando.
A continuación, se incluyen otros aspectos que debes tener en cuenta sobre la facturación de la ejecución de código:
- Solo se te factura una vez por los tokens de entrada que pasas al modelo y se te facturan los tokens de salida finales que te devolvió el modelo.
- Los tokens que representan el código generado se cuentan como tokens de salida. El código generado puede incluir texto y resultados multimodales, como imágenes.
- Los resultados de la ejecución de código también se cuentan como tokens de salida.
El modelo de facturación se muestra en el siguiente diagrama:
- Se te factura según la tarifa actual de tokens de entrada y salida, según el modelo Gemini que uses.
- Si Gemini usa la ejecución de código cuando genera tu respuesta, la instrucción original, el código generado y el resultado del código ejecutado se etiquetan como tokens intermedios y se facturan como tokens de entrada.
- Luego, Gemini genera un resumen y muestra el código generado, el resultado del código ejecutado y el resumen final. Estos se facturan como tokens de salida.
- La API de Gemini incluye un recuento de tokens intermedio en la respuesta de la API para que sepas por qué recibes tokens de entrada adicionales más allá de la instrucción inicial.
Limitaciones
- El modelo solo puede generar y ejecutar código. No puede mostrar otros artefactos, como archivos multimedia.
- En algunos casos, habilitar la ejecución de código puede generar regresiones en otras áreas del resultado del modelo (por ejemplo, escribir una historia).
- Existe cierta variación en la capacidad de los diferentes modelos para usar la ejecución de código con éxito.