توکن ها را بفهمید و بشمارید


Gemini و سایر مدل‌های هوش مصنوعی مولد ورودی و خروجی را با یک دانه‌بندی به نام توکن پردازش می‌کنند.

این راهنما نحوه دریافت پنجره‌های زمینه مدل‌های خاص و همچنین نحوه شمارش نشانه‌ها برای موارد استفاده مانند ورودی متن، چت، ورودی چندوجهی و دستورالعمل‌ها و ابزارهای سیستم را توضیح می‌دهد.

در مورد توکن ها

توکن ها می توانند نویسه های تکی مانند z یا کلمات کامل مانند cat باشند. کلمات طولانی به چندین نشانه تقسیم می شوند. مجموعه تمام نشانه های استفاده شده توسط مدل، واژگان نامیده می شود، و فرآیند تقسیم متن به نشانه ها، توکن سازی نامیده می شود.

برای مدل های Gemini، یک توکن معادل حدود 4 کاراکتر است. 100 توکن برابر با 60-80 کلمه انگلیسی است.

وقتی صورت‌حساب فعال است، هزینه تماس با Gemini API تا حدی با تعداد نشانه‌های ورودی و خروجی تعیین می‌شود، بنابراین دانستن نحوه شمارش نشانه‌ها می‌تواند مفید باشد.

،


جمینی و سایر مدل های AI تولید کننده ، ورودی و خروجی را در یک دانه بندی به نام یک توکن انجام می دهند.

این راهنما نحوه به دست آوردن ویندوزهای زمینه از مدل های خاص و همچنین نحوه شمارش نشانه ها برای مواردی مانند ورودی متن ، گپ ، ورودی چند حالته و دستورالعمل ها و ابزارهای سیستم را توضیح می دهد.

درباره توکن ها

توکن ها می توانند شخصیت های مجرد مانند z یا کلمات کامل مانند cat باشند. کلمات طولانی به چندین نشانه تقسیم می شوند. مجموعه ای از نشانه های مورد استفاده توسط مدل ، واژگان نامیده می شود و روند تقسیم متن به نشانه ها نامیده می شود.

برای مدل های جمینی ، یک نشانه معادل 4 کاراکتر است. 100 توکن برابر با حدود 60-80 کلمه انگلیسی است.

در صورت فعال شدن صورتحساب ، هزینه تماس با API Gemini تا حدودی با تعداد نشانه های ورودی و خروجی تعیین می شود ، بنابراین دانستن چگونگی شمارش نشانه ها می تواند مفید باشد.

،


Gemini and other generative AI models process input and output at a granularity called a token .

This guide explains how to get the context windows of specific models , as well as how to count tokens for use cases like text input, chat, multimodal input, and system instructions and tools.

About tokens

Tokens can be single characters like z or whole words like cat . Long words are broken up into several tokens. The set of all tokens used by the model is called the vocabulary, and the process of splitting text into tokens is called tokenization .

For Gemini models, a token is equivalent to about 4 characters. 100 tokens is equal to about 60-80 English words.

When billing is enabled, the cost of a call to the Gemini API is determined in part by the number of input and output tokens, so knowing how to count tokens can be helpful.