Aufforderung mit Mediendateien


Auf ai.google.dev ansehen In Google Colab ausführen Quelle auf GitHub ansehen

Die Gemini API unterstützt Prompts mit Text-, Bild-, Audio- und Videodaten, was auch als multimodale Prompts bezeichnet wird. Das bedeutet, dass Sie diese Arten von Mediendateien in Ihre Prompts aufnehmen können. Bei kleinen Dateien können Sie das Gemini-Modell direkt auf eine lokale Datei verweisen, wenn Sie einen Prompt eingeben. Lade größere Dateien mit der File API hoch, bevor du sie in Prompts einfügst.

Mit der File API können Sie bis zu 20 GB an Dateien pro Projekt speichern, wobei jede Datei nicht größer als 2 GB ist. Dateien werden 48 Stunden gespeichert und können innerhalb dieses Zeitraums mit Ihrem API-Schlüssel generiert werden. Sie können nicht von der API heruntergeladen werden. Die Files API ist in allen Regionen, in denen die Gemini API verfügbar ist, kostenlos verfügbar.

Die File API verarbeitet Eingaben, die zum Generieren von Inhalten mit model.generateContent oder model.streamGenerateContent verwendet werden können. Informationen zu gültigen Dateiformaten (MIME-Typen) und unterstützten Modellen finden Sie unter Unterstützte Dateiformate.

In diesem Leitfaden wird beschrieben, wie du mit der File API Mediendateien hochlädst und sie in einen GenerateContent-Aufruf an die Gemini API einfügst. Weitere Informationen finden Sie in den Codebeispielen.

Unterstützte Dateiformate

Gemini-Modelle unterstützen Prompts in mehreren Dateiformaten. In diesem Abschnitt werden Überlegungen zur Verwendung allgemeiner Medienformate für Prompts erläutert, insbesondere Bild-, Audio-, Video- und Nur-Text-Dateien. Sie können Mediendateien nur bei bestimmten Modellversionen für Prompts verwenden, wie in der folgenden Tabelle gezeigt.

Modell Bilder Audio Video Nur-Text
Gemini 1.5 Pro (Version 008 und höher) ✔ (max. 3.600 Bilddateien)

Bildformate

Sie können Bilddaten für Prompts in Gemini 1.5-Modellen verwenden. Wenn Sie Bilder für Prompts verwenden, unterliegen sie den folgenden Einschränkungen und Anforderungen:

  • Bilder müssen einem der folgenden MIME-Typen für Bilddaten entsprechen:
    • PNG - image/png
    • JPEG - image/jpeg
    • WEBP - image/webp
    • HEIC - image/heic
    • HEIF - image/heif
  • Maximal 3.600 Bilder für die Gemini 1.5-Modelle.
  • Es gibt keine spezifischen Beschränkungen für die Anzahl der Pixel in einem Bild. Größere Bilder werden jedoch so verkleinert, dass sie eine maximale Auflösung von 3.072 × 3.072 erreichen und ihr ursprüngliches Seitenverhältnis erhalten bleibt.

Audioformate

Sie können Audiodaten für Prompts bei Gemini 1.5-Modellen verwenden. Wenn Sie Audio für Prompts verwenden, unterliegen sie den folgenden Einschränkungen und Anforderungen:

  • Für Audiodaten werden die folgenden gängigen MIME-Typen für das Audioformat unterstützt:
    • WAV – Audio/WAV
    • MP3 – Audio/MP3
    • AIFF – Audio/AIFF
    • AAC – Audio/AAC
    • OGG Vorbis – Audio/OGG
    • FLAC – Audio/FLAC
  • Die maximal unterstützte Länge von Audiodaten in einem einzelnen Prompt beträgt 9,5 Stunden.
  • Audiodateien werden auf eine Datenauflösung von 16 Kbit/s neu gesampelt und mehrere Audiokanäle werden zu einem einzigen Kanal zusammengefasst.
  • Die Anzahl der Audiodateien in einem einzelnen Prompt ist nicht begrenzt.Die Gesamtlänge aller Audiodateien in einem einzelnen Prompt darf jedoch 9, 5 Stunden nicht überschreiten.

Videoformate

Sie können Videodaten für Prompts mit den Gemini 1.5-Modellen verwenden.

  • Videodaten werden in den folgenden gängigen MIME-Typen für Videoformate unterstützt:

    • video/mp4
    • video/mpeg
    • Video/MOV
    • Video/AVI
    • video/x-flv
    • Video/mpg
    • Video/WebM
    • Video/WMV
    • Video/3GPP
  • Der File API-Dienst analysiert Videos mit 1 Frame pro Sekunde (fps) und kann Änderungen unterliegen, um die beste Inferenzqualität zu erzielen. Einzelne Bilder benötigen unabhängig von Auflösung und Qualität 258 Tokens.

Nur-Text-Formate

Die File API unterstützt das Hochladen von Nur-Text-Dateien mit den folgenden MIME-Typen:

  • text/plain
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • Text/X-Typskript
  • Anwendung/X-Typscript
  • text/csv
  • Text/Markierung
  • Text/X-Python
  • application/x-python-code
  • application/json
  • text/xml
  • Anwendung/RTF
  • Text/RTF

Für reine Textdateien mit einem MIME-Typ, der nicht in der Liste aufgeführt ist, können Sie versuchen, einen der oben genannten MIME-Typen manuell anzugeben.