ブラインド コンパニオン
視覚障がいのあるユーザー向けの支援技術
機能
アプリケーションは、ユーザーの音声コマンドから音声シグナルを受信し、Google Gemini API を使用して分析し、音声コマンドをアクションに変換します。これらのコマンドは異なる場合があります。たとえば、特定のアプリを開くコマンドや、インターネット上の特定のウェブサイトをブラウジングするコマンドなどです。私は、このアプリケーションがこれらの複雑なタスクをすべて効率的に処理できることを確認します。仕様について説明すると、これは高度な音声認識技術を統合して音声をキャプチャし、テキストに変換し、その逆のプロセスを行うテキスト読み上げ技術を統合することで実現されています。これにより、ユーザーはキーボードを使用することなく快適に操作できます。Google Gemini API を使用すると、アプリケーションは迅速かつ正確なレスポンスを提供できるため、ユーザー エクスペリエンスが向上します。次に、このアイデアを実現するために行った手順について説明します。アイデアが浮かんだら、使用するツールについて考え、プロジェクトの実装を開始しました。その後、その応用に取り組みました。最初に直面した問題は、Python プログラムのダウンロードに関する問題でした。調査した結果、Google でこの問題の解決策を見つけました。これは、オンラインのさまざまなライブラリから収集したコードです。各ライブラリのコードは特定の機能を実行します。ターミナルを開いて数秒待ってから「開く」と話しかけると、プログラムが開きます。
構成
- 音声認識
- テキスト読み上げ - TTS
チーム
By
世界アシスタント
差出人
エジプト