SecondEye

インタラクティブで学習可能なビジュアル アシスタント

機能

SecondEye は、インタラクティブで学習可能なビジュアル アシスタントです。さまざまなビジョン関連のタスクやユースケースに使用できます。また、トレーニングやプログラミングなしで、パーソナライズされたビジョン タスクを実行するように学習させることもできます。すべてインタラクティブかつ反復的な方法で行うことができます。
SecondEye は、次のモデルの独自の機能があるため、現在は Gemini でのみ構築できます。
1. 正確な境界ボックスの位置を返すことができるオブジェクト検出
2。タイムスタンプ付きの情報を返すことができるネイティブ動画のサポート
3. 大規模なコンテキスト ウィンドウ
SecondEye はこれらの機能を活用して、次のような独自のまったく新しい AI エクスペリエンスを提供します。
• 画像の場合(機能 1 を使用):
◦ アノテーション付きのオブジェクトの定義
◦ 画像の特定の部分について質問する
◦ 拡張:
▪ オブジェクト検索
▪ 修理方法や組み立て方法に関する質問
▪ 視覚的なフィードバックのリクエスト
◦ 画像のアノテーション付き部分についてモデルに教える
• 動画の場合(機能 2 を使用):
◦ 動画検索の強化
• ライブカメラ動画の場合(機能 3 を使用):
◦ パーソナライズされたリアルタイム動画分析
◦ 動画でモデルに何かを教える
◦ 視覚障がいのあるユーザー向けのリアルタイムの視覚支援。顔、物体、場所を記憶して、将来の認識に役立てることができます。
• ライブ画面共有の場合(機能 3 を使用):
◦ モデルにワークフローを教える
◦ IT またはプログラミングのサポート
◦ 視覚障がいのあるユーザーのウェブブラウジングと一般的なパソコン操作を支援する

構成

  • ウェブ/Chrome
  • Firebase
  • Firebase Genkit
  • Google Speech-to-Text/Text-to-Speech

チーム

By

Zakaria KADDARI

差出人

モロッコ