Blind Nav
mich durchschauen
Funktion
Ich habe eine App entwickelt, die beeinträchtigten Personen hilft, sich in ihrer Umgebung zurechtzufinden. Die App hat drei Hauptmodi: den Navigationsmodus, der den Nutzer über seine Umgebung informiert, den Assistentenmodus, der dem Nutzer hilft, bestimmte Dinge über seine Umgebung zu fragen, und den Lesemodus, der dem Nutzer hilft, Dinge wie Bücher oder Schilder zu lesen.
Die Gemini-KI-API wurde in drei Dateien im Projekt verwendet und jeder Datei ist einer der oben genannten Modi zugewiesen.
Die Kamera des Smartphones des Nutzers erfasst die Live-Frames/Bilder und sendet sie an das Gemini-Eingabefeld. Gemini erstellt dann Prompts als Ausgabe, da die einzelnen Modelle trainiert werden. Die Ausgabeprompts werden dann auf dem Overlay angezeigt und mithilfe von TTS (Text to Speech) können sehbehinderte Personen diese Stimme hören und sich leicht zurechtfinden.
Basis
- Android
Team
Von
Ahad's oder Blind Nav
Von
Pakistan