Audiofunktionen mit der Gemini API entdecken

Gemini kann auf Prompts zu Audio antworten. Gemini kann beispielsweise:

  • Sie können Audioinhalte beschreiben, zusammenfassen oder Fragen dazu beantworten.
  • Transkribiert das Audio.
  • Liefert Antworten oder ein Transkript zu einem bestimmten Audiosegment.

In diesem Leitfaden werden verschiedene Möglichkeiten für Folgendes beschrieben:

  • Übergeben Sie Audiodaten an ein Gemini-Modell.
  • Geben Sie einen Prompt für das Gemini-Modell zum Audio ein.

Unterstützte Audioformate

Gemini unterstützt die folgenden MIME-Typen für Audioformate:

  • WAV – Audio/WAV
  • MP3 – Audio/MP3
  • AIFF – Audio/AIFF
  • AAC – Audio/AAC
  • OGG Vorbis – Audio/OGG
  • FLAC – Audio/FLAC

Technische Details zu Audioinhalten

Für Gemini gelten für Audioinhalte die folgenden Regeln:

  • Gemini stellt jede Audiosekunde als 25 Tokens dar. zum Beispiel eine Minute Audio wird als 1.500 Tokens dargestellt.
  • Gemini kann nur Antworten in englischer Sprache ableiten.
  • Gemini kann „verstehen“ nicht gesprochene Komponenten, z. B. Vogelgesang oder Sirenen.
  • Die maximal unterstützte Länge von Audiodaten in einem einzelnen Prompt beträgt 9,5 Stunden. Gemini schränkt die Anzahl der Audiodateien in einem einzelnen Prompt nicht ein. Allerdings Die Gesamtlänge aller Audiodateien in einem einzelnen Prompt darf nicht überschreiten 9,5 Stunden.
  • Gemini wandelt Audiodateien auf eine Datenauflösung von 16 Kbit/s herunter.
  • Wenn die Audioquelle mehrere Kanäle enthält, kombiniert Gemini diese Kanäle zusammen. auf einen einzelnen Kanal herunter.