AIAutoResearcher
以 YouTube 视频的形式总结和阐释最新的 AI 研究
作用
该应用会在 Arxiv 上查看有关 AI 的最新研究,并使用 Gemini AI API 对其进行分析。它会生成包含开场白、分析、结尾和一些实用元数据(例如视频说明、标签、标题等)的 YouTube 脚本。然后,它使用本地 TortoiseTTS 生成音频。然后,它使用本地 ComfyUI 创建口型同步的头像。之后,系统会将创建的工件合并为与 YouTube 兼容的视频,并使用 YouTube API 自动上传到 YouTube。系统还会自动填充元数据(例如标题、说明、标签等)。
为了使其更为稳健,我决定向 Gemini LLM 使用一系列提示。这种方法让他们能够更好地控制内容,并使回答更具吸引力且更易于理解。我决定为所有请求使用 JSON 格式(并对必填字段进行验证),以确保模型正确解读要求并以适当的格式做出响应。
将本地和开源 TortoiseTTS 安装替换为付费 Google TTS API 后,音频质量会更高,处理时间也会更短。
可采用以下设备打造
- Web/Chrome
- YouTube API
团队
更新者
Paweł Szpyt
发件人
波兰