SecondEye
Trợ lý hình ảnh có thể tương tác và dạy được
Ý nghĩa
SecondEye là một trợ lý hình ảnh có tính tương tác và có thể dạy được. Bạn có thể sử dụng API này cho nhiều tác vụ và trường hợp sử dụng liên quan đến thị giác. Bạn cũng có thể dạy cho AI này thực hiện các nhiệm vụ thị giác được cá nhân hoá mà không cần huấn luyện hoặc lập trình. Tất cả đều theo cách tương tác và lặp lại.
Hiện tại, bạn chỉ có thể tạo SecondEye bằng Gemini vì các khả năng độc đáo sau của mô hình này:
1. Tính năng phát hiện đối tượng có khả năng trả về vị trí hộp giới hạn chính xác
2. Hỗ trợ video gốc có khả năng trả về thông tin được gắn dấu thời gian
3. Cửa sổ ngữ cảnh lớn
SecondEye khai thác các khả năng này để mang đến những trải nghiệm AI độc đáo và hoàn toàn mới:
• Đối với hình ảnh (sử dụng khả năng số 1):
◦ Định nghĩa đối tượng được chú thích
◦ Đặt câu hỏi về một phần cụ thể của hình ảnh
◦ Cải thiện:
▪ Tìm kiếm đối tượng
▪ Cách sửa hoặc kết hợp câu hỏi
▪ Yêu cầu phản hồi trực quan
◦ Dạy mô hình về một phần được chú thích của hình ảnh
• Đối với video (sử dụng khả năng số 2):
◦ Trải nghiệm tìm kiếm video nâng cao
• Đối với video trực tiếp từ máy ảnh (sử dụng khả năng số 3):
◦ Phân tích video theo thời gian thực, phù hợp với từng người dùng
◦ Dạy mô hình một điều gì đó bằng video
◦ Hỗ trợ hình ảnh theo thời gian thực cho người khiếm thị, với khả năng ghi nhớ khuôn mặt, đối tượng và địa điểm để nhận dạng sau này.
• Đối với tính năng chia sẻ màn hình trực tiếp (sử dụng tính năng số 3):
◦ Hướng dẫn mô hình quy trình công việc
◦ Hỗ trợ CNTT hoặc lập trình.
◦ Cải thiện trải nghiệm duyệt web và trải nghiệm chung trên máy tính cho người khiếm thị
Được tạo bằng
- Web/Chrome
- Firebase
- Firebase Genkit
- Dịch vụ Chuyển lời nói thành văn bản/Chuyển văn bản sang lời nói của Google
Nhóm
Người cập nhật
Zakaria KADDARI
Từ
Morocco