AIAutoResearcher

Resume y explica la investigación de IA más reciente en formato de video de YouTube

Qué hace

La aplicación verifica la investigación más reciente sobre IA en Arxiv y la analiza con la API de Gemini AI. Produce un guion de YouTube que contiene una introducción, un análisis, un cierre y algunos metadatos útiles (como la descripción del video, las etiquetas, el título, etcétera). Luego, usa TortoiseTTS local para producir audio. Luego, usa ComfyUI local para crear un avatar con sincronización de labios. Después de eso, los artefactos creados se combinan en un video compatible con YouTube y se suben a la plataforma automáticamente con la API de YouTube. Los metadatos (como el título, la descripción, las etiquetas, etc.) también se completan automáticamente.
Para que sea más sólido, decidí usar una cadena de instrucciones para el LLM de Gemini. Este enfoque permitió un mejor control sobre el contenido y las respuestas fueron mucho más atractivas y fáciles de seguir. Decidí usar el formato JSON (y la validación de los campos obligatorios) para todas las solicitudes para garantizar que el modelo interprete correctamente los requisitos y responda con el formato adecuado.
Reemplazar la instalación local y de código abierto de TortoiseTTS por la API pagada de Google TTS generará una mejor calidad de audio y un tiempo de procesamiento más rápido.

Con la tecnología de

  • Web/Chrome
  • API de YouTube

Equipo

De

Paweł Szpyt

De

Polonia