AIAutoResearcher
YouTube 동영상 형식으로 최신 AI 연구를 요약하고 설명합니다.
기능
이 애플리케이션은 Arxiv에서 AI에 관한 최신 연구를 확인하고 Gemini AI API를 사용하여 분석합니다. 소개, 분석, 아우트로, 유용한 메타데이터 (예: 동영상 설명, 태그, 제목 등)가 포함된 YouTube 스크립트를 생성합니다. 그런 다음 로컬 TortoiseTTS를 사용하여 오디오를 생성합니다. 그런 다음 로컬 ComfyUI를 사용하여 립싱크 아바타를 만듭니다. 그런 다음 생성된 아티팩트가 YouTube 호환 동영상으로 결합되고 YouTube API를 사용하여 YouTube에 자동으로 업로드됩니다. 제목, 설명, 태그 등의 메타데이터도 자동으로 채워집니다.
안정성을 높이기 위해 Gemini LLM에 대한 프롬프트 체인을 활용하기로 했습니다. 이 접근 방식을 통해 콘텐츠를 더 효과적으로 제어하고 응답을 훨씬 더 매력적이고 쉽게 이해할 수 있도록 만들었습니다. 모델이 요구사항을 올바르게 해석하고 적절한 형식으로 응답할 수 있도록 모든 요청에 JSON 형식 (및 필수 입력란의 유효성 검사)을 사용하기로 결정했습니다.
로컬 및 오픈소스 TortoiseTTS 설치를 유료 Google TTS API로 대체하면 오디오 품질이 향상되고 처리 시간이 단축됩니다.
구성용 제품
- 웹/Chrome
- YouTube API
팀
작성자:
파벨 슈피트
From
폴란드