Przewodnik po umieszczaniu elementów

Usługa umieszczania w interfejsie Gemini API generuje najnowocześniejsze reprezentacje dla słów, wyrażeń i zdań. Uzyskane w ten sposób wektory dystrybucyjne mogą być wykorzystywane w zadaniach NLP, takich jak wyszukiwanie semantyczne, klasyfikacja tekstu czy grupowanie. Na tej stronie opisujemy, czym jest wektor dystrybucyjny, i wyróżniamy najważniejsze przypadki użycia usługi umieszczania, która ułatwia rozpoczęcie korzystania z tej usługi.

Co to są wektory dystrybucyjne?

Wektory dystrybucyjne tekstu to technika przetwarzania języka naturalnego (NLP), która konwertuje tekst na wektory liczbowe. Osadzone elementy przechwytują znaczenie semantyczne i kontekst, co sprawia, że tekst o podobnym znaczeniu ma bliższe reprezentacje. Na przykład zdania „Zabrałem psa do weterynarza” i „Zabrałem kota do weterynarza” zawierałyby blisko siebie w przestrzeni wektorowej, ponieważ oba opisują podobny kontekst.

To ważne, ponieważ odblokowuje wiele algorytmów, które mogą operować na wektorach, ale nie bezpośrednio na tekście.

Możesz korzystać z reprezentacji właściwościowych lub wektorów, aby porównywać różne teksty i interpretować ich powiązania. Jeśli np. miejsca osadzenia słów „kot” i „pies” znajdują się blisko siebie, możesz wnioskować, że mają one podobne znaczenie lub kontekst. Ta możliwość daje różne przypadki użycia opisane w następnej sekcji.

Przypadki użycia

Wektory dystrybucyjne tekstu obsługują różne przypadki użycia NLP. Na przykład:

  • Pobieranie informacji: celem jest pobranie tekstu podobnego semantycznie na podstawie fragmentu tekstu wejściowego. System pobierania informacji obsługuje różne aplikacje, takie jak wyszukiwanie semantyczne, odpowiadanie na pytania czy podsumowania. Przykład znajdziesz w notatniku do wyszukiwania dokumentów.
  • Klasyfikacja: za pomocą reprezentacji właściwościowych możesz wytrenować model do klasyfikowania dokumentów według kategorii. Jeśli na przykład chcesz klasyfikować komentarze użytkowników jako negatywne lub pozytywne, możesz użyć usługi reprezentacji właściwościowych, aby uzyskać wektorową reprezentację każdego komentarza w celu wytrenowania klasyfikatora. Więcej informacji znajdziesz w przykładzie klasyfikatora Gemini.
  • Grupowanie: porównywanie wektorów tekstu może pokazać, na ile są one podobne lub różne. Tej funkcji można używać do trenowania modelu grupowania, który grupuje podobny tekst lub dokumenty, oraz do wykrywania anomalii w danych.
  • Baza danych wektorów: wygenerowane reprezentacje właściwościowe możesz przechowywać w bazie danych wektorów, aby zwiększyć dokładność i wydajność aplikacji NLP. Na tej stronie dowiesz się, jak używać bazy danych wektorów do translacji promptów tekstowych na wektory liczbowe.

Elastyczne wektory dystrybucyjne

Model umieszczania tekstu Gemini (zaczynający się od text-embedding-004) oferuje elastyczne rozmiary mniejsze niż 768. Stosowanie elastycznych reprezentacji właściwościowych pozwala generować mniejsze wymiary wyjściowe i potencjalnie obniżyć koszty przetwarzania danych i przechowywania danych przy niedużej utracie wydajności.

Co dalej?