Aufforderung mit Mediendateien


Auf ai.google.dev ansehen In Google Colab ausführen Quelle auf GitHub ansehen

Die Gemini API unterstützt Prompts mit Text-, Bild-, Audio- und Videodaten, auch als multimodale Prompts bezeichnet. Dies bedeutet, dass Sie diese Arten von Mediendateien in Ihre Prompts aufnehmen können. Bei kleinen Dateien können Sie das Gemini-Modell direkt auf eine lokale Datei verweisen, wenn Sie eine Aufforderung bereitstellen. Laden Sie größere Dateien mit der File API hoch, bevor Sie sie in Aufforderungen einfügen.

Mit der File API können Sie bis zu 20 GB an Dateien pro Projekt speichern, wobei jede Datei nicht größer als 2 GB ist. Dateien werden 48 Stunden gespeichert und können innerhalb dieses Zeitraums mit Ihrem API-Schlüssel zur Generierung verwendet werden. Sie können nicht aus der API heruntergeladen werden. Die Files API ist in allen Regionen, in denen die Gemini API verfügbar ist, kostenlos verfügbar.

Die File API verarbeitet Eingaben, die zum Generieren von Inhalten mit model.generateContent oder model.streamGenerateContent verwendet werden können. Informationen zu gültigen Dateiformaten (MIME-Typen) und unterstützten Modellen finden Sie unter Unterstützte Dateiformate.

In diesem Leitfaden wird beschrieben, wie Sie mit der File API Mediendateien hochladen und in einen GenerateContent-Aufruf an die Gemini API einfügen. Weitere Informationen finden Sie in den Codebeispielen.

Unterstützte Dateiformate

Gemini-Modelle unterstützen Prompts mit mehreren Dateiformaten. In diesem Abschnitt werden Überlegungen zur Verwendung allgemeiner Medienformate für Prompts erläutert, insbesondere Bild-, Audio-, Video- und reine Textdateien. Sie können Mediendateien nur für Prompts mit bestimmten Modellversionen verwenden, wie in der folgenden Tabelle gezeigt.

Modell Bilder Audio Video Nur-Text
Gemini 1.5 Pro (Version 008 und höher) ✔ (max. 3.600 Bilddateien)
Gemini Pro Vision ✔ (maximal 16 Bilddateien)

Bildformate

Sie können Bilddaten für Prompts mit den Modellen gemini-pro-vision und gemini-1.5-pro verwenden. Wenn Sie Bilder für Prompts verwenden, unterliegen diese den folgenden Einschränkungen und Anforderungen:

  • Bilder müssen in einem der folgenden MIME-Typen für Bilddaten vorliegen:
    • PNG - image/png
    • JPEG - image/jpeg
    • WEBP - image/webp
    • HEIC - image/heic
    • HEIF - image/heif
  • Maximal 16 einzelne Bilder für gemini-pro-vision und 3.600 Bilder für gemini-1.5-pro
  • Die Anzahl der Pixel in einem Bild ist nicht begrenzt. Größere Bilder werden jedoch auf eine maximale Auflösung von 3.072 × 3.072 verkleinert, ohne ihr ursprüngliches Seitenverhältnis beizubehalten.

Audioformate

Sie können Audiodaten für Prompts mit dem Modell gemini-1.5-pro verwenden. Wenn Sie für Prompts Audiodaten verwenden, unterliegen diese den folgenden Einschränkungen und Anforderungen:

  • Audiodaten werden im folgenden gängigen MIME-Typen im Audioformat unterstützt:
    • WAV – Audio/WAV
    • MP3 – Audio/MP3
    • AIFF – Audio/AIFF
    • AAC – Audio/AAC
    • OGG Vorbis – audio/ogg
    • FLAC – Audio/FLAC
  • Die maximal unterstützte Länge von Audiodaten in einer einzelnen Aufforderung beträgt 9,5 Stunden.
  • Audiodateien werden mit einer Datenauflösung von 16 kbit/s neu gesampelt. Mehrere Audiokanäle werden zu einem einzigen Kanal kombiniert.
  • Es gibt keine spezifische Beschränkung für die Anzahl der Audiodateien in einem einzelnen Prompt.Die Gesamtlänge aller Audiodateien in einem einzelnen Prompt darf jedoch 9, 5 Stunden nicht überschreiten.

Videoformate

Sie können Videodaten für Prompts mit dem Modell gemini-1.5-pro verwenden.

  • Videodaten werden in den folgenden gängigen MIME-Typen für Videos unterstützt:

    • video/mp4
    • video/mpeg
    • Video/MOV
    • Video/AVI
    • video/x-flv
    • Video/MPG
    • Video/WebM
    • Video/WMV
    • Video/3GPP
  • Der File API-Dienst nimmt Videos mit einer Frame-pro-Sekunde (fps) für Bilder auf und kann sich ändern, um eine optimale Inferenzqualität zu erzielen. Einzelne Bilder benötigen unabhängig von Auflösung und Qualität 258 Tokens.

Nur-Text-Formate

Die File API unterstützt das Hochladen von Nur-Text-Dateien mit den folgenden MIME-Typen:

  • text/plain
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • Text/X-Typscript
  • Anwendung/X-Typscript
  • text/csv
  • Text/Markdown
  • Text/X-Python
  • application/x-python-code
  • application/json
  • text/xml
  • Anwendung/RTF
  • Text/RTF

Bei Nur-Text-Dateien mit einem MIME-Typ, der nicht in der Liste enthalten ist, können Sie versuchen, einen der oben genannten MIME-Typen manuell anzugeben.