مدلهای هوش مصنوعی (AI) خانواده Gemini برای مدیریت انواع دادههای ورودی از جمله متن، تصویر و صدا ساخته شدهاند. از آنجایی که این مدلها میتوانند بیش از یک نوع یا حالت داده را مدیریت کنند، مدلهای جمینی مدلهای چندوجهی نامیده میشوند یا به عنوان دارای قابلیتهای چندوجهی توضیح داده میشوند.
این صفحه راهنمایی و بهترین روشها را برای استفاده از فایلهای رسانهای با درخواستهای Gemini API ارائه میدهد. برای اطلاعات در مورد استفاده از Gemini Files API برای آپلود فایلهای رسانهای و گنجاندن آنها در فرمانهای خود، به راهنمای پردازش سند چشمانداز ، صوتی و سند مراجعه کنید.
استفاده از فایل های رسانه ای با درخواست
توانایی استفاده از انواع مختلف داده ها در درخواست های خود به شما انعطاف پذیری بیشتری از نظر کارهایی که می توانید با Gemini API انجام دهید، می دهد. به عنوان مثال، می توانید عکس یک غذای خوشمزه را برای مدل ارسال کنید و از او بخواهید که یک وبلاگ کوتاه درباره غذا بنویسد.
اعلان | پاسخ |
بر اساس این تصویر یک پست وبلاگ کوتاه و جذاب بنویسید. این باید شامل توضیحاتی در مورد غذا در عکس باشد و در مورد تهیه غذای سفر من صحبت کند. | تهیه غذا یک راه عالی برای صرفه جویی در زمان و هزینه است و همچنین می تواند به شما کمک کند که غذای سالم تری داشته باشید. این غذا نمونه ای عالی از یک غذای سالم و خوشمزه است که به راحتی می توان آن را زودتر از موعد آماده کرد. این غذا شامل برنج قهوه ای، سبزیجات بوداده و تریاکی مرغ است. برنج قهوه ای یک کربوهیدرات سالم و پیچیده است که به شما انرژی پایدار می دهد. سبزیجات برشته یک راه عالی برای دریافت دوز روزانه ویتامین ها و مواد معدنی هستند و تریاکی مرغ یک گزینه خوشمزه و غنی از پروتئین است. تهیه این غذا نیز بسیار آسان است. به سادگی برنج قهوه ای را بپزید، سبزیجات را تفت دهید و مرغ تریاکی را بپزید. وقتی همه چیز پخته شد، آن را در ظرف های آماده غذا تقسیم کنید و در یخچال نگهداری کنید. سپس می توانید یک ظرف بردارید و صبح های شلوغ بروید! اگر به دنبال یک غذای سالم و لذیذ هستید که به راحتی بتوان آن را زودتر از موعد آماده کرد، این غذا گزینه بسیار خوبی است. این مملو از مواد مغذی و طعم است و مطمئناً احساس سیری و رضایت شما را حفظ می کند. در اینجا آماده کردن یک وعده غذایی سالم و خوشمزه است! |
استراتژی هایی برای تشویق با رسانه ها
اگر در دریافت خروجی مورد نظر از اعلانهایی که از فایلهای رسانهای استفاده میکنند مشکل دارید، چند استراتژی وجود دارد که میتواند به شما کمک کند به نتایج دلخواه خود برسید. بخشهای زیر رویکردهای طراحی و نکات عیبیابی را برای بهبود اعلانهایی که از ورودی چندوجهی استفاده میکنند، ارائه میکند.
میتوانید با پیروی از بهترین روشها، درخواستهای چندوجهی خود را بهبود بخشید:
اصول اولیه طراحی
- دستورالعملهای خود را مشخص کنید : دستورالعملهای واضح و مختصر بسازید که کمترین فضایی را برای تفسیر نادرست باقی میگذارد.
- چند مثال به درخواست خود اضافه کنید: از مثال های واقعی چند شات برای نشان دادن آنچه می خواهید به دست آورید استفاده کنید.
- گام به گام آن را تجزیه کنید : وظایف پیچیده را به اهداف فرعی قابل مدیریت تقسیم کنید و مدل را در طول فرآیند هدایت کنید.
- فرمت خروجی را مشخص کنید : در درخواست خود، بخواهید خروجی به فرمتی که میخواهید باشد، مانند markdown، JSON، HTML و موارد دیگر.
- تصویر خود را در ابتدا برای اعلانهای تک تصویری قرار دهید : در حالی که Gemini میتواند ورودیهای تصویر و متن را به هر ترتیبی مدیریت کند، برای درخواستهایی که حاوی یک تصویر واحد هستند، اگر آن تصویر قبل از درخواست متن قرار گیرد، عملکرد بهتری دارد.
عیب یابی درخواست چند وجهی شما
- اگر مدل اطلاعاتی را از قسمت مربوط به تصویر نمیکشد: رها کردن به شما نشان میدهد که میخواهید اعلان اطلاعات را از کدام جنبههای تصویر بگیرد.
- اگر خروجی مدل خیلی عمومی است (به اندازه کافی متناسب با تصویر نیست): در ابتدای دستور، سعی کنید قبل از ارائه دستورالعمل کار، از مدل بخواهید تصویر(ها) را توصیف کند، یا سعی کنید از مدل بخواهید به آنچه در آن است اشاره کند. تصویر
اصول اولیه طراحی
این بخش بهترین شیوه های ذکر شده در بخش قبل را گسترش می دهد.
توجه: نتایج مدل از مثالهای Gemini زیر میتواند از اجرا به اجرا متفاوت باشد.
در دستورالعمل های خود مشخص باشید
دستورات زمانی بیشترین موفقیت را دارند که واضح و با جزئیات باشند. اگر خروجی خاصی در ذهن دارید، بهتر است آن نیاز را در اعلان قرار دهید تا مطمئن شوید که خروجی مورد نظرتان را دریافت می کنید.
گاهی اوقات، هدف یک درخواست ممکن است برای شخصی که آن را نوشته است واضح به نظر برسد، اما در واقع مشخص نشده است. برای سفارشی کردن رفتار مدل، در نظر بگیرید که چگونه درخواست شما ممکن است (اشتباه) تفسیر شود و اطمینان حاصل کنید که دستورالعملهایی که میدهید مشخص و واضح هستند. به یاد داشته باشید که حداقل فضایی را برای تفسیر نادرست بگذارید
برای این تصویر از تابلوی فرودگاه، درخواست از مدل برای "توصیف این تصویر" می تواند یک توصیف کلی ایجاد کند. اگر به مدل برای تجزیه زمان و شهر از تصویر نیاز دارید، میتوانید آن درخواست را مستقیماً در درخواست خود وارد کنید.
اعلان | پاسخ مدل |
---|---|
این تصویر را توصیف کنید. | تصویر تابلوی ورود و خروج فرودگاه را نشان می دهد. |
درخواست به روز شد | پاسخ بهبود یافته |
---|---|
زمان و شهر را از تابلوی فرودگاه نشان داده شده در این تصویر در لیستی تجزیه کنید. |
چند مثال اضافه کنید
مدل Gemini می تواند ورودی های متعددی را بپذیرد که می تواند از آنها به عنوان مثال برای درک خروجی مورد نظر شما استفاده کند. افزودن این مثالها میتواند به مدل کمک کند تا الگوها را شناسایی کند و رابطه بین تصاویر داده شده و پاسخها را به مثال جدید اعمال کند. به این یادگیری «چند شات» نیز می گویند.
در مثال زیر، خروجی اولیه به صورت جمله نوشته شده است و همچنین شامل کشور (برزیل) است. فرض کنید خروجی را در قالب یا سبک دیگری میخواهید و فقط شهر را میخواهید، نه کشور را. افزودن چند نمونه به اعلان شما می تواند مدل را به گونه ای که شما می خواهید پاسخ دهد.
اعلان | پاسخ مدل |
---|---|
شهر را به همراه نقطه عطف تعیین کنید. | نقطه عطفی مجسمه مسیح نجات دهنده در ریودوژانیرو، برزیل است. |
درخواست به روز شد | پاسخ بهبود یافته |
---|---|
شهر را به همراه نقطه عطف تعیین کنید. | شهر: رم، نقطه عطف: کولوسئوم. |
شهر: پکن، نقطه عطف: شهر ممنوعه | |
شهر: ریودوژانیرو، نقطه عطف: مجسمه مسیح نجات دهنده |
آن را مرحله به مرحله تجزیه کنید
برای کارهای پیچیده مانند کارهایی که به درک بصری و استدلال نیاز دارند، تقسیم کار به مراحل کوچکتر و ساده تر می تواند مفید باشد. از طرف دیگر، اگر مستقیماً از مدل بخواهید در درخواست شما "گام به گام فکر کند" نیز می تواند موثر باشد.
اعلان | پاسخ مدل |
---|---|
کی دستمال توالت تمام می شود؟ | به زودی، فقط 3 رول باقی مانده است. |
درخواست به روز شد | پاسخ بهبود یافته |
---|---|
|
|
مسائل ریاضی یا انواع دیگر مسائل کلمه کاندیدای عالی برای درخواست از مدل برای فکر کردن مرحله به مرحله هستند.
اعلان | پاسخ |
---|---|
ترم 4 در دنباله چیست؟ | -135 |
پاسخ مدل نادرست است. برخی از راههای بهبود این امر این است که از مدل بخواهید قبل از پاسخ دادن به درخواست، مسئله را تجزیه کند.
اعلان | پاسخ |
---|---|
ابتدا فرمول موجود در تصویر را تجزیه کنید. سپس بر اساس فرمول، به عبارت "چهارمین جمله در دنباله چیست؟" پاسخ دهید. | برای گسترش نتیجه کلیک کنید$$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ بنابراین، جمله 4 در دنباله -405 است. |
این پاسخ مدل صحیح است - اکنون برای سادهتر کردن پاسخ، میتوانید از مدل بخواهید گام به گام فکر کند.
درخواست به روز شد | پاسخ بهبود یافته |
---|---|
ترم 4 در دنباله چیست؟ قدم به قدم فکر کنید. | ترم اول 15 است. جمله دوم b(1) * (-3) = 15 * (-3) = -45 است. جمله سوم b(2) * (-3) = -45 * (-3) = 135 است. جمله چهارم b(3) * (-3) = 135 * (-3) = -405 است. |
سعی کنید فرمت خروجی را مشخص کنید
یک مشکل رایج نیاز به خروجی مدل در یک فرمت خاص است (به عنوان مثال markdown، JSON، HTML)، به خصوص اگر خروجی مدل باید توسط یک کار پایین دستی وارد شود. می توانید با دستور دادن به مدل برای انجام این کار در اعلان، خروجی را در آن فرمت تولید کنید. در زیر دو نمونه آورده شده است:
اعلان | پاسخ مدل |
---|---|
جدول موجود در این تصویر را با فرمت علامت گذاری تجزیه کنید | | موضوع | وضعیت | زمان | تاریخ شروع | سررسید در | | ------- | ------ | ---- | --------- | ------ | | ریاضی | انجام شد | 1.5 ساعت | 2023/11/29 | 12/1/2023 | | جغرافیا | انجام شد | 30 دقیقه | 2023/12/2 | 2023/12/4 | | فیزیک | در حال انجام | 2 ساعت | 12/3/2023 | 2023/12/5 | | زیست شناسی | شروع نشده | 6 ساعت | 1395/11/2 | 2023/12/6 | |
اعلان | پاسخ مدل |
---|---|
فهرستی از تمام ویژگی های زیر ارائه دهید: مواد تشکیل دهنده، نوع غذا، گیاهی یا غیر گیاهی، با فرمت JSON | ``json`` { "مواد تشکیل دهنده": [ "برنج"، "میگو"، "صدف ها"، "صدف"، "نخود فرنگی"، "گوجه فرنگی"، "پیاز"، "سیر"، "روغن زیتون"، "پاپریکا"، "نمک"، "فلفل" ]، "نوع آشپزی": "اسپانیایی"، «گیاهی»: نادرست |
ابتدا تصویر خود را برای درخواست های تک تصویری قرار دهید
در حالی که Gemini می تواند تصویر و متن را به هر ترتیبی در یک اعلان تفسیر کند، قرار دادن یک تصویر واحد قبل از اعلان متن ممکن است به نتایج بهتری منجر شود. در نمونه های زیر، متوجه خواهید شد که تصویر در ابتدا قبل از متن در هر فرمان قرار می گیرد.
عیب یابی درخواست چند وجهی شما
اگر پاسخ مفیدی دریافت نکردید، ممکن است لازم باشد درخواست خود را عیب یابی کنید. در اینجا چند استراتژی وجود دارد که می توانید امتحان کنید.
اگر مدل اطلاعاتی از قسمت مربوطه تصویر نمی کشد
برای دریافت پاسخ دقیقتر، میتوانید به این نکته اشاره کنید که میخواهید اعلان از کدام جنبههای تصویر اطلاعاتی را برای اطلاع از پاسخ آن بگیرد.
اعلان | پاسخ مدل |
---|---|
این پوشک ها برای نوزاد چند روز دوام می آورند؟ | پوشک ها قبل از تمام شدن 198 روز دوام خواهند داشت. |
درخواست به روز شد | پاسخ بهبود یافته |
---|---|
این پوشک ها چقدر طول می کشد تا من تمام شود؟ برای تعیین سن کودک از وزن نشان داده شده روی جعبه استفاده کنید و از تعداد کل پوشک های داخل جعبه استفاده کنید. تعداد کل را بر تعداد پوشک کودک در روز تقسیم کنید. | جعبه شامل 198 پوشک است. در جعبه نوشته شده است که پوشک برای کودکی با وزن 22 تا 37 پوند است. متوسط کودکان در این محدوده وزنی احتمالاً بین 1 تا 2 سال سن دارند. یک کودک 2 ساله به طور معمول روزانه 6 پوشک می زند، بنابراین، پوشک حدود 33 روز دوام می آورد (198/6). |
اگر خروجی مدل خیلی عمومی باشد و به اندازه کافی برای ورودی تصویر مناسب نباشد
برای کمک به مدل در تنظیم پاسخ خود به تصویر(ها)، سعی کنید قبل از انجام وظیفه استدلالی از آن بخواهید که تصاویر را توصیف کند.
اعلان | پاسخ مدل |
---|---|
وجه اشتراک این تصاویر چیست؟ | هر چهار تصویر نمونه هایی از عکاسی منظره هستند. |
درخواست به روز شد | پاسخ بهبود یافته |
---|---|
ابتدا آنچه در هر تصویر وجود دارد را با جزئیات شرح دهید. چه چیزی بین این تصاویر مشترک است؟ | تصویر اول شخصی را در حال بستن چمدان نشان می دهد. تصویر دوم یک راهرو خالی در یک مرکز خرید را نشان می دهد. تصویر سوم یک رول دستمال توالت را نشان می دهد. تصویر چهارم، دریای تاریک و طوفانی را نشان می دهد. وجه اشتراک این تصاویر این است که همگی نمونه هایی از فضاهای حاشیه ای هستند. فضاهای لیمینال مکان ها یا موقعیت هایی هستند که بین دو مکان یا موقعیت دیگر قرار دارند. آنها اغلب با احساس عدم اطمینان یا ابهام مشخص می شوند. تصویر اول فرد را بین حضور در خانه و سفر نشان می دهد. تصویر دوم راهروی بین دو فروشگاه را نشان می دهد. تصویر سوم مربوط به دستمال توالت است که می تواند نمایانگر حمام باشد. حمام یک فضای انتقالی بین قلمرو خصوصی و عمومی است. جایی است که ما خود را برای ورود یا خروج از دنیای بیرون آماده می کنیم. تصویر چهارم دریا را در بین آرام و طوفانی نشان می دهد. فضاهای لیمینال می توانند هم هیجان انگیز و هم ناراحت کننده باشند. آنها می توانند مکانی برای شروع جدید یا مکانی برای پایان باشند. آنها می توانند محل تأمل یا مکان عمل باشند. |
همچنین میتوانید صریحاً از مدل بخواهید به آنچه در تصویر است اشاره کند.
درخواست به روز شد | پاسخ بهبود یافته |
---|---|
وجه اشتراک این تصاویر چیست؟ در پاسخ خود به آنچه در تصاویر موجود است مراجعه کنید. | تمامی تصاویر مربوط به سفر هستند. تصویر اول شخصی را در حال بستن چمدان نشان می دهد، تصویر دوم راهروی خالی در یک مرکز خرید، تصویر سوم دسته ای از دستمال توالت و تصویر چهارم دریای تاریک و طوفانی را نشان می دهد. این تصاویر همگی مربوط به سفر هستند زیرا همه چیزهایی هستند که افراد در سفر به آنها نیاز دارند یا از آنها استفاده می کنند. تصویر اول شخصی را در حال بستن چمدان نشان می دهد، کاری که مردم هنگام رفتن به سفر انجام می دهند. تصویر دوم یک راهرو خالی در یک مرکز خرید را نشان می دهد، جایی که مردم اغلب برای خرید وسایل سفر خود به آنجا می روند. تصویر سوم یک دسته کاغذ توالت را نشان می دهد، چیزی که مردم اغلب در سفر از آن استفاده می کنند. تصویر چهارم، دریای تاریک و طوفانی را نشان می دهد، چیزی که مردم اغلب هنگام سفر با آن مواجه می شوند. |
همین نکات برای خروجی خلاقانه از تصاویر کار می کنند. در مثال زیر با خرگوش، درخواست صریح از مدل برای گنجاندن جنبههایی از تصویر میتواند خروجی را بهبود بخشد.
اعلان | پاسخ مدل |
---|---|
میشه یه شعر در مورد این عکس برام بنویسی؟ | خرگوش کوچولو، خیلی نرم و قهوه ای، تو چمن ها را می خوری، آنقدر سبز و شیرین، |
درخواست به روز شد | پاسخ بهبود یافته |
---|---|
می توانید یک شعر توصیفی و دراماتیک در مورد این تصویر برای من بنویسید و مکان آن را درج کنید؟ | اسم حیوان دست اموز کوچک روی سبز، آیا آبی اقیانوس است، خرگوش کوچولو، راستش را بگو، شاید این وسعت همه چیز باشد، خرگوش کوچولو، من تعجب می کنم که چه خوابی می بینید، هر چه که باشد، خرگوش کوچولو، |
عیب یابی کدام قسمت از درخواست انجام نشد
تشخیص اینکه آیا یک اعلان شکست خورده است زیرا مدل در ابتدا تصویر را درک نکرده است یا اینکه آیا تصویر را درک کرده است اما مراحل استدلال صحیح را بعد از آن انجام نداده است.
برای رفع ابهام بین این دلایل، از مدل بخواهید آنچه را که در تصویر است توضیح دهد.
در این مثال زیر، اگر مدل با میان وعده ای پاسخ می دهد که هنگام جفت شدن با چای شگفت انگیز به نظر می رسد (مثلاً پاپ کورن)، می توانید ابتدا عیب یابی کنید تا مشخص شود که آیا مدل به درستی تشخیص داده است که تصویر حاوی چای است یا خیر.
اعلان | درخواست عیب یابی |
---|---|
چه میان وعده ای می توانم در 1 دقیقه درست کنم که با آن خوب باشد؟ | آنچه در این تصویر وجود دارد را توصیف کنید. |
استراتژی دیگر این است که از مدل بخواهیم استدلال خود را توضیح دهد. این می تواند به شما کمک کند تا مشخص کنید کدام قسمت از استدلال شکسته است، در صورت وجود.
اعلان | درخواست عیب یابی |
---|---|
چه میان وعده ای می توانم در 1 دقیقه درست کنم که با آن خوب باشد؟ | چه میان وعده ای می توانم در 1 دقیقه درست کنم که با آن خوب باشد؟ لطفا توضیح دهید چرا |
تنظیم پارامترهای نمونه برداری
در هر درخواست، شما نه تنها اعلان چندوجهی بلکه مجموعه ای از پارامترهای نمونه برداری را به مدل ارسال می کنید. مدل می تواند نتایج متفاوتی را برای مقادیر پارامترهای مختلف ایجاد کند. برای بدست آوردن بهترین مقادیر برای کار، پارامترهای مختلف را آزمایش کنید. متداول ترین پارامترهای تنظیم شده عبارتند از:
- دما
- top-P
- top-K
دما
دما برای نمونه برداری در طول تولید پاسخ استفاده می شود، که زمانی اتفاق می افتد که top-P و top-K اعمال می شود. دما درجه تصادفی بودن انتخاب نشانه را کنترل می کند. دماهای پایینتر برای اعلانهایی که نیاز به پاسخ قطعیتر و خلاقانهتر دارند، خوب است، در حالی که دمای بالاتر میتواند منجر به نتایج متنوعتر یا خلاقانهتر شود. دمای 0 قطعی است، به این معنی که بالاترین پاسخ احتمال همیشه انتخاب می شود.
برای بیشتر موارد استفاده، سعی کنید با دمای 0.4 شروع کنید. اگر به نتایج خلاقانه تری نیاز دارید، سعی کنید دما را افزایش دهید. در صورت مشاهده توهمات واضح، سعی کنید دما را کاهش دهید.
Top-K
Top-K نحوه انتخاب توکن ها را برای خروجی توسط مدل تغییر می دهد. top-K از 1 به این معنی است که نشانه انتخابی بعدی محتمل ترین نشانه در واژگان مدل است (که رمزگشایی حریص نیز نامیده می شود)، در حالی که بالا-K از 3 به این معنی است که نشانه بعدی از بین سه نشانه محتمل ترین انتخاب شده است. با استفاده از دما
برای هر مرحله انتخاب توکن، توکن های top-K با بیشترین احتمال نمونه برداری می شوند. سپس توکنها بر اساس top-P فیلتر میشوند و نشانه نهایی با استفاده از نمونهگیری دما انتخاب میشود.
مقدار کمتری را برای پاسخهای تصادفی کمتر و مقدار بالاتر را برای پاسخهای تصادفی بیشتر تعیین کنید. مقدار پیش فرض top-K 32 است.
Top-P
Top-P نحوه انتخاب توکن ها را برای خروجی توسط مدل تغییر می دهد. توکن ها از بیشترین (به top-K) تا کمترین احتمال انتخاب می شوند تا زمانی که مجموع احتمالات آنها با مقدار top-P برابر شود. به عنوان مثال، اگر نشانه های A، B، و C دارای احتمال 0.6، 0.3، 0.1 و مقدار top-P 0.9 باشد، مدل A یا B را به عنوان نشانه بعدی با استفاده از دما انتخاب می کند و C را به عنوان یک علامت حذف می کند. نامزد
مقدار کمتری را برای پاسخهای تصادفی کمتر و مقدار بالاتر را برای پاسخهای تصادفی بیشتر تعیین کنید. مقدار پیش فرض top-P 1.0 است.
مراحل بعدی
- سعی کنید درخواستهای چندوجهی خود را با استفاده از Google AI Studio بنویسید.
- برای راهنمایی بیشتر در مورد طراحی سریع، به صفحه استراتژی های اعلان مراجعه کنید.