Blindbegleiter | Gemini API Developer Competition

Diese Seite wurde von der Cloud Translation API übersetzt.

Hilfstechnologien für blinde Nutzer

Funktion

Die Anwendung empfängt Sprachsignale über die Sprachbefehle des Nutzers und analysiert sie mit der Google Gemini API, um diese Sprachbefehle in Aktionen umzuwandeln. Diese Befehle können variieren. Es können Befehle sein, um eine bestimmte Anwendung zu öffnen und eine bestimmte Website im Internet aufzurufen. Ich bestätige, dass die Anwendung alle diese komplexen Aufgaben effizient bewältigen kann. Die Funktion wird durch die Integration einer erweiterten Spracherkennungstechnologie erreicht, die die Sprache erfasst und in Text umwandelt. Anschließend wird die Sprachausgabetechnologie integriert, die den umgekehrten Vorgang ausführt. So können Nutzer die Funktion ganz einfach nutzen, ohne eine Tastatur verwenden zu müssen. Mit der Google Gemini API kann die Anwendung schnelle und präzise Antworten liefern, was die Nutzerfreundlichkeit verbessert. Jetzt erkläre ich, wie ich die Idee umgesetzt habe. Nachdem ich die Idee hatte, habe ich mir überlegt, welche Tools ich wahrscheinlich verwenden würde, und dann mit der Implementierung des Projekts begonnen. Danach habe ich damit begonnen, sie anzuwenden. Das erste Problem, das ich hatte, war ein Problem beim Herunterladen des Python-Programms. Nach einiger Recherche habe ich bei Google eine Lösung für dieses Problem gefunden. Das ist der Code, den ich aus verschiedenen Online-Bibliotheken zusammengestellt habe. Der Code jeder Bibliothek führt eine bestimmte Funktion aus. Nachdem wir das Terminal geöffnet und einige Sekunden gewartet haben, sagen wir „Öffnen“. Das Programm wird dann geöffnet.

Basis

Spracherkennung
Text-to-Speech – TTS

Team

Von

World Assistants

Von

Ägypten

Blind Companion