AIAutoResearcher

最新の AI 研究を YouTube 動画の形式で要約し、説明する

機能

このアプリケーションは、Arxiv で AI に関する最新の研究を確認し、Gemini AI API を使用して分析します。導入、分析、結び、役立つメタデータ(動画の説明、タグ、タイトルなど)を含む YouTube のスクリプトを生成します。次に、ローカルの TortoiseTTS を使用して音声を生成します。次に、ローカルの ComfyUI を使用して、リップシンク アバターを作成します。その後、作成されたアーティファクトは YouTube 互換の動画に統合され、YouTube API を使用して YouTube に自動的にアップロードされます。メタデータ(タイトル、説明、タグなど)も自動的に入力されます。
堅牢性を確保するため、Gemini LLM へのプロンプトのチェーンを利用することにしました。このアプローチにより、コンテンツをより適切に管理できるようになり、回答がより魅力的でわかりやすくなりました。モデルが要件を適切に解釈し、適切な形式で応答するように、すべてのリクエストで JSON 形式(および必須フィールドの検証)を使用することにしました。
ローカルおよびオープンソースの TortoiseTTS インストールを有料の Google TTS API に置き換えることで、音声の品質が向上し、処理時間が短縮されます。

構成

  • ウェブ/Chrome
  • YouTube API

チーム

By

Paweł Szpyt

差出人

ポーランド