AIAutoResearcher

Riassumere e spiegare le ultime ricerche sull'IA nel formato di un video di YouTube

Descrizione

L'applicazione controlla le ricerche più recenti sull'IA su Arxiv e le analizza utilizzando l'API Gemini AI. Produce uno script di YouTube contenente introduzione, analisi, chiusura e alcuni metadati utili (come descrizione, tag, titolo del video e così via). Poi utilizza TortoiseTTS locale per produrre l'audio. Poi utilizza ComfyUI locale per creare l'avatar con sincronizzazione labiale. Successivamente, gli elementi creati vengono combinati in un video compatibile con YouTube e caricati automaticamente su YouTube utilizzando l'API di YouTube. Anche i metadati (come titolo, descrizione, tag e così via) vengono compilati automaticamente.
Per renderlo solido, ho deciso di utilizzare una catena di prompt per il modello LLM di Gemini. Questo approccio ha consentito un maggiore controllo sui contenuti e ha reso le risposte molto più coinvolgenti e facili da seguire. Ho deciso di utilizzare il formato JSON (e la convalida dei campi obbligatori) per tutte le richieste per assicurarmi che il modello interpreti correttamente i requisiti e risponda con il formato corretto.
La sostituzione dell'installazione di TortoiseTTS locale e open source con l'API Google TTS a pagamento comporterà una qualità audio superiore e tempi di elaborazione più rapidi.

Realizzato con

  • Web/Chrome
  • API di YouTube

Team

Di

Paolo Szpyt

Da

Polonia