Visibl

Visibl でオーディオブックを動画ブックに変換する

機能

Visibl は、オーディオブックを没入型の動画ブックに変換し、視覚的な体験に変える iOS アプリです。リスニング中に Visibl が画像をリアルタイムで動的に生成するため、ユーザーは視聴しているオーディオブックの独自の視覚的解釈を確認できます。このアプリは静止画像を作成できるだけでなく、ユーザーがビジュアルに影響を与えてガイドできるため、書籍の各ページを高度にパーソナライズできます。

Visibl は、Gemini API の機能を 3 つの主要な方法で活用しています。

- 音声文字変換: アプリはオーディオブックの音声をテキストに変換し、コンテンツを正確に表現します。

- 名詞エンティティ認識(NER): アプリはテキスト内の主要なキャラクター、場所、オブジェクトを特定してフォーカスできます。これは、コンテキストに関連するビジュアルを生成するために重要です(Gemini 1.5 Pro)。

- 画像プロンプトの生成: 音声文字変換と NER から得られた分析情報を使用することで、アプリは詳細でパーソナライズされた画像プロンプトを生成します。このプロンプトは拡散モデルによって使用され、リアルタイムでビジュアルが作成されます。(Gemini 1.5 Pro)

Gemini API の機能を組み合わせることで、Visib はオーディオブックを新しい方法で提供するだけでなく、ユーザーごとにエクスペリエンスをカスタマイズできます。

構成

  • Firebase

チーム

By

visibl

差出人

英国