AIAutoResearcher
Résumer et expliquer les dernières recherches sur l'IA sous la forme d'une vidéo YouTube
Description
L'application examine les dernières recherches sur l'IA sur Arxiv et les analyse à l'aide de l'API Gemini AI. Il produit un script YouTube contenant une introduction, une analyse, une conclusion et des métadonnées utiles (comme la description, les tags et le titre de la vidéo). Il utilise ensuite TortoiseTTS local pour produire du contenu audio. Il utilise ensuite ComfyUI local pour créer un avatar synchronisé avec les lèvres. Les artefacts créés sont ensuite combinés dans une vidéo compatible avec YouTube et importés automatiquement sur YouTube à l'aide de l'API YouTube. Les métadonnées (titre, description, tags, etc.) sont également renseignées automatiquement.
Pour renforcer la robustesse, j'ai décidé d'utiliser une chaîne d'invites pour le LLM Gemini. Cette approche a permis de mieux contrôler le contenu, et de rendre les réponses beaucoup plus attrayantes et faciles à suivre. J'ai décidé d'utiliser le format JSON (et la validation des champs obligatoires) pour toutes les requêtes afin de m'assurer que le modèle interprète correctement les exigences et répond avec le format approprié.
Remplacer l'installation locale et Open Source de TortoiseTTS par l'API Google TTS payante permettra d'obtenir une meilleure qualité audio et un temps de traitement plus rapide.
Conçu avec
- Web/Chrome
- API YouTube
Équipe
Par
Paweł Szpyt
De
Pologne