AIAutoResearcher

Meringkas dan menjelaskan riset AI terbaru dalam format video YouTube

Fungsinya

Aplikasi ini memeriksa riset terbaru tentang AI di Arxiv dan menganalisisnya menggunakan Gemini AI API. Alat ini menghasilkan skrip YouTube yang berisi pengantar, analisis, outro, dan beberapa metadata yang berguna (seperti deskripsi video, tag, judul, dll.). Kemudian, aplikasi ini menggunakan TortoiseTTS lokal untuk menghasilkan audio. Kemudian, aplikasi ini menggunakan ComfyUI lokal untuk membuat avatar yang disinkronkan dengan bibir. Setelah itu, artefak yang dibuat digabungkan menjadi video yang kompatibel dengan YouTube dan diupload ke YouTube secara otomatis menggunakan YouTube API. Metadata (seperti judul, deskripsi, tag, dll.) juga diisi secara otomatis.
Untuk membuatnya lebih andal, saya memutuskan untuk menggunakan rantai perintah ke LLM Gemini. Pendekatan ini memungkinkan kontrol yang lebih baik atas konten, dan membuat respons jauh lebih menarik dan mudah diikuti. Saya memutuskan untuk menggunakan format JSON (dan validasi kolom yang diperlukan) untuk semua permintaan guna memastikan bahwa model menafsirkan persyaratan dengan benar dan merespons dengan format yang tepat.
Mengganti penginstalan TortoiseTTS lokal dan open source dengan Google TTS API berbayar akan menghasilkan kualitas audio yang lebih tinggi dan waktu pemrosesan yang lebih cepat.

Dibuat dengan

  • Web/Chrome
  • YouTube API

Tim

Oleh

Paweł Szpyt

From

Polandia