Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

AIAutoResearcher

Die neuesten Forschungsergebnisse zu KI in einem YouTube-Video zusammenfassen und erklären

Funktion

Die Anwendung sucht nach den neuesten Forschungsergebnissen zu KI auf Arxiv und analysiert sie mit der Gemini AI API. Es erstellt ein YouTube-Script mit Einführung, Analyse, Outro und einigen nützlichen Metadaten wie Videobeschreibung, Tags und Titel. Anschließend wird mit der lokalen TortoiseTTS-Version Audio erstellt. Anschließend wird mit der lokalen ComfyUI ein Avatar mit Lippensynchronisation erstellt. Anschließend werden die erstellten Artefakte zu einem YouTube-kompatiblen Video kombiniert und automatisch über die YouTube API auf YouTube hochgeladen. Auch die Metadaten (wie Titel, Beschreibung, Tags usw.) werden automatisch ausgefüllt.
Um das System robuster zu machen, habe ich mich entschieden, eine Kette von Prompts an den Gemini-LLM zu senden. Dieser Ansatz ermöglichte eine bessere Kontrolle über die Inhalte und machte die Antworten viel ansprechender und verständlicher. Ich habe mich entschieden, für alle Anfragen das JSON-Format (und die Validierung erforderlicher Felder) zu verwenden, damit das Modell die Anforderungen richtig interpretiert und im richtigen Format antwortet.
Das Ersetzen der lokalen und Open-Source-TortoiseTTS-Installation durch die kostenpflichtige Google TTS API führt zu einer höheren Audioqualität und einer kürzeren Verarbeitungszeit.

Basis

Web/Chrome
YouTube API

Team

Von

Paweł Szpyt

Von

Polen