Audiofunktionen mit der Gemini API entdecken

Gemini kann auf Prompts zu Audio antworten. Gemini kann beispielsweise:

  • Sie können Audioinhalte beschreiben, zusammenfassen oder Fragen dazu beantworten.
  • Transkribiert das Audio.
  • Liefert Antworten oder ein Transkript zu einem bestimmten Audiosegment.

In diesem Leitfaden werden verschiedene Möglichkeiten für Folgendes beschrieben:

  • Übergeben Sie Audiodaten an ein Gemini-Modell.
  • Geben Sie einen Prompt für das Gemini-Modell zum Audio ein.

Unterstützte Audioformate

Gemini unterstützt die folgenden MIME-Typen für Audioformate:

  • WAV – Audio/WAV
  • MP3 – Audio/MP3
  • AIFF – Audio/AIFF
  • AAC – Audio/AAC
  • OGG Vorbis – Audio/OGG
  • FLAC – Audio/FLAC

Technische Details zu Audioinhalten

Für Gemini gelten für Audioinhalte die folgenden Regeln:

  • Gemini stellt jede Sekunde Audio als 25 Tokens dar. Eine Minute Audio wird beispielsweise als 1.500 Tokens dargestellt.
  • Gemini kann nur Antworten in englischer Sprache ableiten.
  • Gemini kann nicht sprachliche Komponenten wie Vogelgesang oder Sirenen „verstehen“.
  • Die maximal unterstützte Länge von Audiodaten in einem einzelnen Prompt beträgt 9,5 Stunden. Gemini begrenzt die Anzahl von Audiodateien in einem einzelnen Prompt nicht.Die Gesamtlänge aller Audiodateien in einem einzelnen Prompt darf jedoch 9,5 Stunden nicht überschreiten.
  • Gemini wandelt Audiodateien auf eine Datenauflösung von 16 Kbit/s herunter.
  • Wenn die Audioquelle mehrere Kanäle enthält, kombiniert Gemini diese Kanäle zu einem einzigen Kanal.