سرویس جاسازی در Gemini API جاسازی های پیشرفته ای را برای کلمات، عبارات و جملات ایجاد می کند. تعبیههای حاصل میتوانند برای کارهای NLP مانند جستجوی معنایی، طبقهبندی متن و خوشهبندی در میان بسیاری دیگر استفاده شوند. این صفحه توضیح میدهد که جاسازیها چیست و برخی موارد استفاده کلیدی برای سرویس جاسازی را برجسته میکند تا به شما در شروع کار کمک کند.
تعبیه ها چیست؟
جاسازی متن یک تکنیک پردازش زبان طبیعی (NLP) است که متن را به بردارهای عددی تبدیل می کند. تعبیهها معنا و بافت معنایی را در بر میگیرند که در نتیجه متنی با معانی مشابه دارای تعبیههای نزدیکتر است. به عنوان مثال، جمله "من سگم را به دامپزشک بردم" و "گربه ام را به دامپزشک بردم" دارای جاسازی هایی هستند که در فضای برداری نزدیک به یکدیگر هستند زیرا هر دو زمینه مشابهی را توصیف می کنند.
این مهم است زیرا بسیاری از الگوریتمها را باز میکند که میتوانند روی بردارها کار کنند اما مستقیماً روی متن نیستند.
می توانید از این جاسازی ها یا بردارها برای مقایسه متون مختلف و درک نحوه ارتباط آنها استفاده کنید. به عنوان مثال، اگر تعبیههای متن «گربه» و «سگ» نزدیک به هم باشند، میتوانید استنباط کنید که این کلمات از نظر معنا یا بافت یا هر دو مشابه هستند. این توانایی امکان استفاده از موارد مختلفی را فراهم می کند که در بخش بعدی توضیح داده شده است.
موارد استفاده کنید
جاسازیهای متن به انواع موارد استفاده NLP کمک میکند. مثلا:
- بازیابی اطلاعات: هدف بازیابی متن مشابه معنایی با توجه به یک متن ورودی است. انواع برنامه ها را می توان توسط یک سیستم بازیابی اطلاعات مانند جستجوی معنایی، پاسخ به سؤالات یا خلاصه سازی پشتیبانی کرد. برای مثال به دفترچه جستجوی اسناد مراجعه کنید.
- طبقه بندی: می توانید از جاسازی ها برای آموزش یک مدل برای طبقه بندی اسناد به دسته ها استفاده کنید. به عنوان مثال، اگر می خواهید نظرات کاربران را به عنوان منفی یا مثبت طبقه بندی کنید، می توانید از سرویس embeddings برای دریافت نمایش برداری هر نظر برای آموزش طبقه بندی کننده استفاده کنید. برای جزئیات بیشتر به مثال طبقه بندی کننده Gemini مراجعه کنید.
- خوشه بندی: مقایسه بردارهای متن می تواند نشان دهد که چقدر شبیه یا متفاوت هستند. از این ویژگی می توان برای آموزش یک مدل خوشه بندی که متن یا اسناد مشابه را با هم گروه بندی می کند و برای تشخیص ناهنجاری ها در داده های شما استفاده کرد.
- Vector DB: می توانید جاسازی های ایجاد شده خود را در یک DB برداری ذخیره کنید تا دقت و کارایی برنامه NLP خود را بهبود بخشد. به این صفحه مراجعه کنید تا نحوه استفاده از یک DB برداری برای ترجمه پیام های متنی به بردارهای عددی را بیاموزید.
تعبیه های الاستیک
مدل Gemini Text Embedding، که با text-embedding-004
شروع میشود، اندازههای جاسازی الاستیک را زیر 768 ارائه میکند. میتوانید از جاسازیهای الاستیک برای تولید ابعاد خروجی کوچکتر استفاده کنید و به طور بالقوه در هزینههای محاسباتی و ذخیرهسازی با کاهش عملکرد جزئی صرفهجویی کنید.
بعدش چی
- اگر آماده شروع توسعه هستید، می توانید کدهای قابل اجرا کامل را در Quickstart برای Python ، Go ، Node.js و Dart (Flutter) بیابید.