Anuj Sharma
Asystent głosowy, który widzi świat
Działanie
Uwielbiam interfejs API od Google (Gemini), ponieważ daje on świetne wyniki. Chcę stworzyć mały projekt z pomocą interfejsu Gemini API.
Tworzę aplikację w języku Python lub rodzaj oprogramowania z wizją stworzenia singularity AI lub asystenta głosowego. Obecnie istnieje wiele kodów lub projektów, w których asystenci głosowi przyjmują polecenia głosowe i zwracają wynik w formie głosowej, ale nie są w stanie zobaczyć naszego zapytania w postaci obrazu. Dlatego stworzyłem ten projekt z pomocą interfejsu Gemini API (pro i vision pro). Teraz mój asystent głosowy może też otrzymać dane wejściowe w postaci obrazu i odpowiedź w formie tekstu, a także głosu.
Utworzone za pomocą
- Brak
- Firebase
Zespół
Autor:
Kritrim
Od
Indie