Jalousienavigation | Gemini API Developer Competition

Diese Seite wurde von der Cloud Translation API übersetzt.

mich durchschauen

Funktion

Ich habe eine App entwickelt, die beeinträchtigten Personen hilft, sich in ihrer Umgebung zurechtzufinden. Die App hat drei Hauptmodi: den Navigationsmodus, der den Nutzer über seine Umgebung informiert, den Assistentenmodus, der dem Nutzer hilft, bestimmte Dinge über seine Umgebung zu fragen, und den Lesemodus, der dem Nutzer hilft, Dinge wie Bücher oder Schilder zu lesen.
Die Gemini-KI-API wurde in drei Dateien im Projekt verwendet und jeder Datei ist einer der oben genannten Modi zugewiesen.
Die Kamera des Smartphones des Nutzers erfasst die Live-Frames/Bilder und sendet sie an das Gemini-Eingabefeld. Gemini erstellt dann Prompts als Ausgabe, da die einzelnen Modelle trainiert werden. Die Ausgabeprompts werden dann auf dem Overlay angezeigt und mithilfe von TTS (Text to Speech) können sehbehinderte Personen diese Stimme hören und sich leicht zurechtfinden.

Basis

Android

Team

Von

Ahad's oder Blind Nav

Von

Pakistan