Audiofunktionen mit der Gemini API entdecken

<ph type="x-smartling-placeholder"></ph>

Gemini kann auf Prompts zu Audio antworten. Gemini kann beispielsweise:

  • Sie können Audioinhalte beschreiben, zusammenfassen oder Fragen dazu beantworten.
  • Transkribiert das Audio.
  • Liefert Antworten oder ein Transkript zu einem bestimmten Audiosegment.

In diesem Leitfaden werden verschiedene Möglichkeiten für folgende Aktionen erläutert:

  • Übergeben Sie Audiodaten an ein Gemini-Modell.
  • Geben Sie einen Prompt für das Gemini-Modell zum Audio ein.

Unterstützte Audioformate

Gemini unterstützt die folgenden MIME-Typen für Audioformate:

  • WAV – Audio/WAV
  • MP3 – Audio/MP3
  • AIFF – Audio/AIFF
  • AAC – Audio/AAC
  • OGG Vorbis – Audio/OGG
  • FLAC – Audio/FLAC

Technische Details zu Audioinhalten

Für Gemini gelten für Audioinhalte die folgenden Regeln:

  • Gemini stellt jede Audiosekunde als 25 Tokens dar. zum Beispiel eine Minute Audio wird als 1.500 Tokens dargestellt.
  • Gemini kann nur Antworten auf englischsprachige Nutzer ableiten.
  • Gemini kann „verstehen“ nicht sprachliche Komponenten wie Vogelgesang oder Sirenen.
  • Die maximal unterstützte Länge von Audiodaten in einem einzelnen Prompt beträgt 9,5 Stunden. Gemini schränkt die Anzahl der Audiodateien in einem einzelnen Prompt nicht ein. Allerdings Die Gesamtlänge aller Audiodateien in einem einzelnen Prompt darf nicht überschreiten 9,5 Stunden.
  • Gemini wandelt Audiodateien auf eine Datenauflösung von 16 Kbit/s herunter.
  • Wenn die Audioquelle mehrere Kanäle enthält, kombiniert Gemini diese Kanäle. auf einen einzelnen Kanal herunter.