Audiofunktionen mit der Gemini API entdecken

Gemini kann auf Prompts zu Audioinhalten reagieren. Gemini kann beispielsweise:

  • Audioinhalte beschreiben, zusammenfassen oder Fragen dazu beantworten
  • Geben Sie eine Transkription des Audioinhalts an.
  • Geben Sie Antworten oder eine Transkription zu einem bestimmten Audiosegment an.

In diesem Leitfaden werden verschiedene Möglichkeiten zur Interaktion mit Audiodateien und Audioinhalten mithilfe der Gemini API veranschaulicht.

Unterstützte Audioformate

Gemini unterstützt die folgenden MIME-Typen für Audioformate:

  • WAV - audio/wav
  • MP3 - audio/mp3
  • AIFF – audio/aiff
  • AAC - audio/aac
  • OGG Vorbis – audio/ogg
  • FLAC - audio/flac

Technische Details zu Audioinhalten

Für Audioinhalte gelten in Gemini die folgenden Regeln:

  • Gemini stellt jede Audiosekunde mit 25 Tokens dar. Eine Minute Audio entspricht beispielsweise 1.500 Tokens.
  • Gemini kann nur Antworten auf englischsprachige Sprache ableiten.
  • Gemini kann auch nicht-sprachbezogene Komponenten wie Vogelgezwitscher oder Sirenen „verstehen“.
  • Die maximal unterstützte Länge von Audiodaten in einem einzelnen Prompt beträgt 9,5 Stunden. In Gemini ist die Anzahl der Audiodateien in einem einzelnen Prompt nicht begrenzt.Die Gesamtlänge aller Audiodateien in einem einzelnen Prompt darf jedoch 9,5 Stunden nicht überschreiten.
  • Gemini reduziert Audiodateien auf eine Datenauflösung von 16 kbit/s.
  • Wenn die Audioquelle mehrere Kanäle enthält, kombiniert Gemini diese Kanäle zu einem einzelnen Kanal.

Nächste Schritte

In dieser Anleitung wird gezeigt, wie Sie Audiodateien mit der File API hochladen und dann Textausgaben aus Audioinputs generieren. Weitere Informationen finden Sie in den folgenden Ressourcen:

  • Strategien für Prompts aus Dateien: Die Gemini API unterstützt Prompts mit Text-, Bild-, Audio- und Videodaten, auch als multimodale Prompts bezeichnet.
  • Systemanweisungen: Mit Systemanweisungen können Sie das Verhalten des Modells entsprechend Ihren spezifischen Anforderungen und Anwendungsfällen steuern.
  • Sicherheitshinweise: Manchmal liefern generative KI-Modelle unerwartete Ausgaben, z. B. ungenaue, voreingenommene oder anstößige Ausgaben. Eine Nachbearbeitung und eine menschliche Bewertung sind unerlässlich, um das Risiko von Schäden durch solche Ausgaben zu begrenzen.