AIAutoResearcher

Podsumuj i wyjaśnij najnowsze badania dotyczące AI w filmie w YouTube

Działanie

Aplikacja sprawdza najnowsze badania dotyczące AI na stronie Arxiv i analizuje je za pomocą interfejsu Gemini AI API. Tworzy ono scenariusz do filmu w YouTube zawierający wprowadzenie, analizę, outro i przydatne metadane (takie jak opis filmu, tagi, tytuł itp.). Następnie do wygenerowania dźwięku używa lokalnego TortoiseTTS. Następnie używa lokalnego ComfyUI do tworzenia awatara z synchronizacją warg. Następnie utworzone elementy są łączone w film zgodny z YouTube i automatycznie przesyłane do YouTube za pomocą interfejsu YouTube API. Metadane (np. tytuł, opis, tagi itp.) są również wypełniane automatycznie.
Aby zwiększyć niezawodność, zdecydowałem się użyć łańcucha promptów do Gemini LLM. Dzięki temu podejściu można było lepiej kontrolować treści, a odpowiedzi były bardziej angażujące i łatwiejsze do śledzenia. Postanowiłem użyć formatu JSON (i sprawdzenia wymaganych pól) dla wszystkich żądań, aby zapewnić prawidłowe interpretowanie wymagań przez model i odpowiednie formatowanie odpowiedzi.
Zastąpienie lokalnej instalacji TortoiseTTS o otwartym kodzie źródłowym płatnym interfejsem Google TTS API zapewni wyższą jakość dźwięku i szybszy czas przetwarzania.

Utworzone za pomocą

  • Wersja internetowa/Chrome
  • YouTube API

Zespół

Autor:

Paweł Szpyt

Od

Polska