Visibl
Visibl でオーディオブックを動画ブックに変換する
機能
Visibl は、オーディオブックを没入型の動画ブックに変換し、視覚的な体験に変える iOS アプリです。リスニング中に Visibl が画像をリアルタイムで動的に生成するため、ユーザーは視聴しているオーディオブックの独自の視覚的解釈を確認できます。このアプリは静止画像を作成できるだけでなく、ユーザーがビジュアルに影響を与えてガイドできるため、書籍の各ページを高度にパーソナライズできます。
Visibl は、Gemini API の機能を 3 つの主要な方法で活用しています。
- 音声文字変換: アプリはオーディオブックの音声をテキストに変換し、コンテンツを正確に表現します。
- 名詞エンティティ認識(NER): アプリはテキスト内の主要なキャラクター、場所、オブジェクトを特定してフォーカスできます。これは、コンテキストに関連するビジュアルを生成するために重要です(Gemini 1.5 Pro)。
- 画像プロンプトの生成: 音声文字変換と NER から得られた分析情報を使用することで、アプリは詳細でパーソナライズされた画像プロンプトを生成します。このプロンプトは拡散モデルによって使用され、リアルタイムでビジュアルが作成されます。(Gemini 1.5 Pro)
Gemini API の機能を組み合わせることで、Visib はオーディオブックを新しい方法で提供するだけでなく、ユーザーごとにエクスペリエンスをカスタマイズできます。
構成
- Firebase
チーム
By
visibl
差出人
英国