AIAutoResearcher
Resumir e explicar as últimas pesquisas de IA no formato de vídeo do YouTube
O que faz?
O aplicativo verifica as pesquisas mais recentes sobre IA no Arxiv e as analisa usando a API Gemini AI. Ele produz um script do YouTube com introdução, análise, outros e alguns metadados úteis (como descrição do vídeo, tags, título etc.). Em seguida, ele usa o TortoiseTTS local para produzir áudio. Em seguida, ele usa a ComfyUI local para criar um avatar com sincronização labial. Depois disso, os artefatos criados são combinados em um vídeo compatível com o YouTube e enviados automaticamente usando a API do YouTube. Os metadados (como título, descrição, tags etc.) também são preenchidos automaticamente.
Para torná-lo robusto, decidi usar uma cadeia de comandos para o LLM do Gemini. Essa abordagem permitiu um melhor controle sobre o conteúdo e tornou as respostas muito mais interessantes e fáceis de acompanhar. Decidi usar o formato JSON (e a validação de campos obrigatórios) para todas as solicitações, para garantir que o modelo interprete os requisitos corretamente e responda com o formato adequado.
Substituir a instalação local e de código aberto do TortoiseTTS pela API paga do Google TTS vai resultar em áudio de maior qualidade e tempo de processamento mais rápido.
Desenvolvido com
- Web/Chrome
- API YouTube
Equipe
Por
Paweł Szpyt
De
Polônia