AIAutoResearcher
最新の AI 研究を YouTube 動画の形式で要約し、説明する
機能
このアプリケーションは、Arxiv で AI に関する最新の研究を確認し、Gemini AI API を使用して分析します。導入、分析、結び、役立つメタデータ(動画の説明、タグ、タイトルなど)を含む YouTube のスクリプトを生成します。次に、ローカルの TortoiseTTS を使用して音声を生成します。次に、ローカルの ComfyUI を使用して、リップシンク アバターを作成します。その後、作成されたアーティファクトは YouTube 互換の動画に統合され、YouTube API を使用して YouTube に自動的にアップロードされます。メタデータ(タイトル、説明、タグなど)も自動的に入力されます。
堅牢性を確保するため、Gemini LLM へのプロンプトのチェーンを利用することにしました。このアプローチにより、コンテンツをより適切に管理できるようになり、回答がより魅力的でわかりやすくなりました。モデルが要件を適切に解釈し、適切な形式で応答するように、すべてのリクエストで JSON 形式(および必須フィールドの検証)を使用することにしました。
ローカルおよびオープンソースの TortoiseTTS インストールを有料の Google TTS API に置き換えることで、音声の品質が向上し、処理時間が短縮されます。
構成
- ウェブ/Chrome
- YouTube API
チーム
By
Paweł Szpyt
差出人
ポーランド