Dịch vụ nhúng trong API Gemini tạo ra các tính năng nhúng hiện đại cho từ, cụm từ và câu. Sau đó, các nội dung nhúng thu được có thể được dùng cho các nhiệm vụ NLP, chẳng hạn như tìm kiếm ngữ nghĩa, phân loại văn bản và phân cụm và nhiều hoạt động khác. Trang này mô tả tính năng nhúng và nêu bật một số trường hợp sử dụng chính cho dịch vụ nhúng để giúp bạn bắt đầu.
Nhúng là gì?
Nhúng văn bản là một kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) giúp chuyển đổi văn bản thành các vectơ số. Hoạt động nhúng nắm bắt ý nghĩa ngữ nghĩa và ngữ cảnh, dẫn đến việc văn bản có ý nghĩa tương tự nhau và có các nhúng gần nhau hơn. Ví dụ: câu "Tôi đã đưa chó đến bác sĩ thú y" và "Tôi đã đưa mèo đến bác sĩ thú y" sẽ có các nội dung nhúng gần nhau trong không gian vectơ vì cả hai đều mô tả ngữ cảnh tương tự nhau.
Điều này rất quan trọng vì nó giúp mở khoá nhiều thuật toán có thể hoạt động trên vectơ nhưng không trực tiếp trên văn bản.
Bạn có thể sử dụng các phương thức nhúng hoặc vectơ này để so sánh các văn bản và tìm hiểu mối liên hệ giữa các văn bản đó. Ví dụ: nếu các lần nhúng văn bản "mèo" và "chó" ở gần nhau, bạn có thể suy luận rằng các từ này tương tự nhau về ý nghĩa hoặc ngữ cảnh hoặc cả hai. Khả năng này hỗ trợ nhiều trường hợp sử dụng được mô tả trong phần tiếp theo.
Trường hợp sử dụng
Tính năng nhúng văn bản hỗ trợ nhiều trường hợp sử dụng NLP. Ví dụ:
- Truy xuất thông tin: Mục tiêu là để truy xuất văn bản tương tự về mặt ngữ nghĩa cho một đoạn văn bản đầu vào. Một hệ thống truy xuất thông tin có thể hỗ trợ nhiều ứng dụng, chẳng hạn như tìm kiếm ngữ nghĩa, trả lời câu hỏi hoặc tóm tắt. Hãy tham khảo sổ tay tìm kiếm tài liệu để xem ví dụ.
- Phân loại: Bạn có thể sử dụng các phương thức nhúng để huấn luyện một mô hình phân loại tài liệu thành các danh mục. Ví dụ: nếu muốn phân loại nhận xét của người dùng là tiêu cực hay tích cực, bạn có thể sử dụng dịch vụ nhúng để lấy biểu diễn vectơ của từng nhận xét nhằm huấn luyện thuật toán phân loại. Tham khảo ví dụ về thuật toán phân loại Gemini để biết thêm thông tin chi tiết.
- Phân cụm: Việc so sánh các vectơ của văn bản có thể cho thấy mức độ giống nhau hoặc khác biệt của các vectơ đó. Tính năng này có thể được dùng để huấn luyện mô hình phân cụm giúp nhóm các văn bản hoặc tài liệu tương tự lại với nhau và để phát hiện các điểm bất thường trong dữ liệu.
- Vector DB: Bạn có thể lưu trữ các nội dung nhúng đã tạo trong cơ sở dữ liệu vectơ để cải thiện độ chính xác và hiệu quả của ứng dụng NLP. Hãy tham khảo trang này để tìm hiểu cách sử dụng DB vectơ để dịch lời nhắc văn bản thành vectơ số.
Nhúng co giãn
Mô hình Nhúng văn bản Gemini, bắt đầu bằng text-embedding-004
, cung cấp kích thước nhúng linh hoạt dưới 768. Bạn có thể sử dụng phương thức nhúng đàn hồi để tạo kích thước đầu ra nhỏ hơn và có thể tiết kiệm chi phí tính toán và lưu trữ mà chỉ mất một chút hiệu suất.
Bước tiếp theo
- Nếu đã sẵn sàng bắt đầu phát triển, bạn có thể tìm thấy mã hoàn chỉnh có thể chạy trong phần hướng dẫn bắt đầu nhanh dành cho Python, Go, Node.js và Dart (Flutter).