Стратегии запроса файлов

Семейство моделей искусственного интеллекта (ИИ) Gemini создано для обработки различных типов входных данных, включая текст, изображения и аудио. Поскольку эти модели могут обрабатывать более одного типа или режима данных, модели Gemini называются мультимодальными моделями или объясняются как обладающие мультимодальными возможностями .

На этой странице представлены рекомендации и рекомендации по использованию медиафайлов с подсказками для API Gemini. Информацию об использовании Gemini Files API для загрузки медиафайлов и включения их в запросы см. в руководствах по обработке Vision , Audio и Document .

Использование медиафайлов с подсказками

Возможность использовать различные типы данных в ваших подсказках дает вам больше гибкости с точки зрения задач, которые вы можете решать с помощью Gemini API. Например, вы можете отправить модели фотографию вкусной еды и попросить ее написать о ней небольшой блог.

Быстрый Ответ

Напишите короткий интересный пост в блоге на основе этой картинки. Он должен включать описание еды на фотографии и рассказ о том, как я готовлю еду в путешествии.


Файлы cookie

Приготовление еды — отличный способ сэкономить время и деньги, а также поможет вам питаться здоровее. Это блюдо — отличный пример полезной и вкусной еды, которую можно легко приготовить заранее.

В состав этого блюда входит коричневый рис, жареные овощи и курица терияки. Коричневый рис — это полезный и сложный углевод, который даст вам постоянную энергию. Жареные овощи — отличный способ получить суточную дозу витаминов и минералов, а курица терияки — вкусный и богатый белком вариант.

Это блюдо тоже очень легко приготовить. Просто приготовьте коричневый рис, поджарьте овощи и приготовьте курицу терияки. Когда все будет готово, разложите его по контейнерам для приготовления еды и храните в холодильнике. Затем вы можете взять контейнер и отправиться в занятое утро!

Если вы ищете здоровую и вкусную еду, которую можно легко приготовить заранее, эта еда — отличный вариант. Он наполнен питательными веществами и вкусом, и он обязательно подарит вам чувство сытости и удовлетворения.

Вот и готовьте здоровую и вкусную еду!

Стратегии продвижения через СМИ

Если у вас возникли проблемы с получением нужного результата из подсказок, использующих медиафайлы, существует несколько стратегий, которые могут помочь вам получить желаемые результаты. В следующих разделах представлены подходы к проектированию и советы по устранению неполадок для улучшения подсказок, использующих мультимодальный ввод.

Вы можете улучшить свои мультимодальные подсказки, следуя этим рекомендациям:

  • Быстрые основы проектирования

    • Будьте конкретны в своих инструкциях . Разработайте четкие и краткие инструкции, которые оставляют минимум места для неправильного толкования.
    • Добавьте к подсказке несколько примеров: используйте реалистичные примеры из нескольких кадров, чтобы проиллюстрировать, чего вы хотите достичь.
    • Разбейте это шаг за шагом : разделите сложные задачи на выполнимые подцели, направляя модель на протяжении всего процесса.
    • Укажите формат вывода . В приглашении попросите, чтобы вывод был в нужном формате, например уценке, JSON, HTML и т. д.
    • Размещайте изображение первым для подсказок с одним изображением . Хотя Gemini может обрабатывать ввод изображений и текста в любом порядке, для подсказок, содержащих одно изображение, может быть лучше, если это изображение будет размещено перед текстовой подсказкой.
  • Устранение неполадок с мультимодальным приглашением

    • Если модель не извлекает информацию из соответствующей части изображения: добавьте подсказки, из которых вы хотите, чтобы подсказка извлекала информацию из каких аспектов изображения.
    • Если выходные данные модели слишком общие (недостаточно адаптированы к изображению): в начале подсказки попробуйте попросить модель описать изображение(я) перед предоставлением инструкций по выполнению задачи или попробуйте попросить модель сослаться на то, что находится в изображение.

Быстрые основы проектирования

В этом разделе подробно рассматриваются лучшие практики, перечисленные в предыдущем разделе.

Примечание. Результаты модели из следующих примеров Gemini могут различаться от запуска к запуску.

Будьте конкретны в своих инструкциях

Подсказки имеют наибольший успех, когда они ясны и подробны. Если вы имеете в виду конкретный результат, лучше включить это требование в приглашение, чтобы гарантировать получение желаемого результата.

Иногда цель подсказки может показаться ясной тому, кто ее написал, но на самом деле она недостаточно конкретизирована. Чтобы настроить поведение модели, подумайте, как ваше приглашение может быть (неправильно) истолковано, и убедитесь, что инструкции, которые вы даете, конкретны и ясны. Не забывайте оставлять минимум места для неправильного толкования.

Для этого изображения табло аэропорта, если попросить модель просто «описать это изображение», можно получить общее описание. Если вам нужна модель для анализа времени и города на изображении, вы можете включить этот запрос непосредственно в приглашение.

Быстрый Ответ модели

Опишите этот образ.

На изображении показано табло прилета и вылета аэропорта.

Обновленная подсказка Улучшенный ответ
Расписание путешествий

Преобразуйте время и город с табло аэропорта, показанного на этом изображении, в список.

  • 10:50 Москва
  • 11:05 Эдинбург
  • 11:05 Лондон
  • 11:10 Бухарест
  • 11:30 Киев
  • 11:35 Дублин
  • 11:45 Ист-Мидлендс
  • 12:15 София
  • 12:30 Лондон
  • 12:30 Ньюкасл
  • 12:40 Санкт-Петербург
  • 12:40 Лондон
  • 12:45 Манчестер
  • Добавьте несколько примеров

    Модель Gemini может принимать несколько входных данных, которые можно использовать в качестве примеров для понимания желаемого результата. Добавление этих примеров может помочь модели выявить закономерности и применить взаимосвязь между данными изображениями и ответами к новому примеру. Это также называется «многократным» обучением.

    В приведенном ниже примере исходные выходные данные записаны в форме предложения и также содержат страну (Бразилия). Предположим, вам нужен вывод в другом формате или стиле, и вам нужен только город, а не страна. Добавление в подсказку примеров из нескольких кадров может заставить модель реагировать так, как вы хотите.

    Быстрый Ответ модели
    Расписание путешествий

    Определите город по ориентиру.

    Ориентиром является статуя Христа-Искупителя в Рио-де-Жанейро, Бразилия.

    Обновленная подсказка Улучшенный ответ

    Определите город по ориентиру.

    Колизей

    город: Рим, достопримечательность: Колизей.

    Запретный город

    город: Пекин, ориентир: Запретный город

    Запретный город

    город: Рио-де-Жанейро, достопримечательность: статуя Христа-Искупителя

    Разбейте это шаг за шагом

    Для сложных задач, например тех, которые требуют как визуального понимания, так и рассуждений, может быть полезно разделить задачу на более мелкие и простые шаги. В качестве альтернативы также может быть эффективно, если вы прямо попросите модель «думать шаг за шагом» в своем подсказке.

    Быстрый Ответ модели

    Когда у меня закончится туалетная бумага?

    Вскоре у вас останется всего 3 рулона.

    Обновленная подсказка Улучшенный ответ

      1. Сначала посчитайте, сколько рулонов туалетной бумаги на этой картинке.
      2. Затем определите, сколько туалетной бумаги использует среднестатистический человек в день.
      3. Подсчитайте, на сколько хватит этих рулонов туалетной бумаги.

      1. На этой картинке 3 рулона туалетной бумаги.
      2. Среднестатистический человек использует около 20 листов туалетной бумаги в день.
      3. Если в каждом рулоне 200 листов, то одного рулона хватит примерно на 10 дней. Таким образом, 3-х рулонов хватит примерно на месяц.

    Математические задачи или другие типы текстовых задач — отличные кандидаты для того, чтобы попросить модель думать шаг за шагом.

    Быстрый Ответ

    Какой член последовательности является четвертым?

    -135

    Ответ модели неверен. Некоторые способы улучшить эту ситуацию — попросить модель проанализировать проблему, прежде чем отвечать на подсказку.

    Быстрый Ответ

    Сначала разберите формулу на изображении.

    Затем на основании формулы ответьте: «Какой четвертый член последовательности?».

    Нажмите, чтобы развернуть результат

    $$ b(n) = b(n-1) * (-3) $$

    $$ b(1) = 15 $$

    1. Подставим n = 4 в формулу:
    2. $$ b(4) = b(4-1) * (-3) $$

      $$ b(4) = b(3) * (-3) $$

    3. Мы не знаем значение b(3), поэтому подставляем n = 3 в формулу:
    4. $$ b(3) = b(3-1) * (-3) $$

      $$ b(3) = b(2) * (-3) $$

    5. Мы не знаем значение b(2), поэтому подставляем n = 2 в формулу:
    6. $$ b(2) = b(2-1) * (-3) $$

      $$ b(2) = b(1) * (-3) $$

    7. Мы знаем, что значение b(1) равно 15, поэтому подставим его в формулу:
    8. $$ b(2) = 15 * (-3) $$

      $$ b(2) = -45 $$

    9. Теперь, когда мы знаем значение b(2), подставим его в формулу для b(3):
    10. $$ b(3) = b(2) * (-3) $$

      $$ b(3) = -45 * (-3) $$

      $$ b(3) = 135 $$

    11. Теперь, когда мы знаем значение b(3), подставим его в формулу для b(4):
    12. $$ b(4) = b(3) * (-3) $$

      $$ b(4) = 135 * (-3) $$

      $$ b(4) = -405 $$

    Следовательно, 4-й член последовательности равен -405.

    Этот ответ модели правильный — теперь, чтобы сделать ответ еще более упорядоченным, вы можете попросить модель думать шаг за шагом.

    Обновленная подсказка Улучшенный ответ

    Какой член последовательности является четвертым? Думайте шаг за шагом.

    Первый срок – 15.

    Второе слагаемое: b(1) * (-3) = 15 * (-3) = -45.

    Третий член: b(2) * (-3) = -45 * (-3) = 135.

    Четвертый член: b(3) * (-3) = 135 * (-3) = -405.

    Попробуйте указать выходной формат

    Распространенной проблемой является необходимость предоставления выходных данных модели в определенном формате (например, уценка, JSON, HTML), особенно если выходные данные модели должны быть обработаны последующей задачей. Вы можете попытаться создать выходные данные в этом формате, указав модели сделать это в командной строке. Ниже приведены два примера:

    Быстрый Ответ модели

    Разберите таблицу на этом изображении в формате уценки.

    | Тема | Статус | Время | Дата начала | Срок погашения |

    | ------- | ------ | ---- | --------- | ------ |

    | Математика | Готово | 1,5 часа | 29.11.2023 | 01.12.2023 |

    | География | Готово | 30 мин | 02.12.2023 | 04.12.2023 |

    | Физика | В процессе | 2 часа | 03.12.2023 | 05.12.2023 |

    | Биология | Не запущено | 6 часов | 02.11.2016 | 06.12.2023 |

    Быстрый Ответ модели

    Предоставьте список всех следующих атрибутов:

    ингредиенты, тип кухни, вегетарианская или нет, в формате JSON

    ```json```

    {

    "ингредиенты": [

    "рис",

    "креветка",

    "моллюски",

    "моллюски",

    "горох",

    «помидоры»,

    «лук»,

    "чеснок",

    "оливковое масло",

    "паприка",

    "соль",

    "перец"

    ],

    "тип кухни": "Испанская",

    «вегетарианец»: ложь

    Поместите свое изображение первым для подсказок с одним изображением.

    Хотя Gemini могут интерпретировать изображения и текст в подсказке в любом порядке, размещение одного изображения перед текстовой подсказкой может привести к лучшим результатам. В следующих примерах вы заметите, что в каждом приглашении изображение идет первым перед текстом.

    Устранение неполадок с мультимодальным приглашением

    Возможно, вам придется устранить неполадки с подсказкой, если вы не получили полезного ответа. Вот несколько стратегий, которые вы можете попробовать.

    Если модель не извлекает информацию из соответствующей части изображения

    Чтобы получить более конкретный ответ, вы можете указать, из каких аспектов изображения вы хотите, чтобы подсказка извлекала информацию для информирования о своем ответе.

    Быстрый Ответ модели

    На сколько дней ребенку хватит этих подгузников?

    Подгузников хватит на 198 дней, прежде чем они закончатся.

    Обновленная подсказка Улучшенный ответ

    Как долго прослужат эти подгузники, прежде чем они закончатся?

    Используйте вес, указанный на коробке, чтобы определить возраст ребенка, и используйте общее количество подгузников в коробке.

    Разделите общее количество на количество подгузников, которые ребенок использует в день.

    В коробке 198 подгузников. На упаковке указано, что подгузники рассчитаны на ребенка весом 22–37 фунтов.

    Среднестатистическому ребенку в этом диапазоне веса, вероятно, от 1 до 2 лет.

    Двухлетний ребенок обычно использует 6 подгузников в день, следовательно, подгузников хватит примерно на 33 дня (198/6).

    Если выходные данные модели слишком общие и недостаточно адаптированы к входным изображениям

    Чтобы помочь модели адаптировать свою реакцию на изображения, попробуйте попросить ее описать изображения, прежде чем приступать к рассуждению.

    Быстрый Ответ модели

    Что общего между этими изображениями?

    Все четыре изображения являются примерами пейзажной фотографии.

    Обновленная подсказка Улучшенный ответ

    Сначала подробно опишите, что изображено на каждом изображении. Что общего между этими изображениями?

    На первом изображении изображен человек, собирающий чемодан. На втором изображении показан пустой коридор торгового центра. На третьем изображении показан рулон туалетной бумаги. Четвертое изображение показывает темное и бурное море.

    Общим между этими изображениями является то, что все они являются примерами лиминальных пространств. Лиминальные пространства — это места или ситуации, которые находятся между двумя другими местами или ситуациями. Для них часто характерно чувство неопределённости или двусмысленности.

    На первом изображении изображен человек, который находится между пребыванием дома и поездкой. На втором изображении показан коридор между двумя магазинами. Третье изображение — туалетная бумага, которая может изображать ванную комнату. Ванная комната – это переходное пространство между частной и общественной сферой. Это место, где мы готовимся войти во внешний мир или покинуть его.

    Четвертое изображение показывает море между штилем и штормом.

    Пограничное пространство может быть как захватывающим, так и тревожным. Они могут быть местом нового начала или местом окончания. Они могут быть местом размышлений или местом действия.

    Вы также можете попробовать явно попросить модель сослаться на то, что изображено на изображении.

    Обновленная подсказка Улучшенный ответ

    Что общего между этими изображениями? Обратитесь к изображениям в вашем ответе.

    Все изображения связаны с путешествиями. На первом изображении изображен человек, собирающий чемодан, на втором — пустой коридор в торговом центре, на третьем — стопка туалетной бумаги, а на четвертом — темное и бурное море.

    Все эти изображения связаны с путешествиями, потому что это все, что людям нужно или используется во время путешествий. На первом изображении изображен человек, собирающий чемодан, что люди и делают, отправляясь в путешествие. На втором изображении показан пустой коридор торгового центра, куда люди часто ходят за покупками для поездок. На третьем изображении изображена стопка туалетной бумаги, которой люди часто пользуются во время путешествий. Четвертое изображение показывает темное и бурное море, с которым люди часто сталкиваются во время путешествий.

    Те же советы применимы и для творческого вывода изображений. В следующем примере с кроликом явная просьба к модели включить аспекты изображения может улучшить результат.

    Быстрый Ответ модели

    Можете ли вы написать мне стихотворение об этом образе?

    Маленький зайчик, такой мягкий и коричневый,
    Прыгаем по полю вверх и вниз.
    Твои уши такие длинные, твой хвост такой маленький,
    Ты самое милое создание из всех.

    Ты грызешь траву, такую ​​зеленую и сладкую,
    И убегай, когда увидишь меня.
    Но я всегда буду твоим другом,
    Маленький зайчик, до самого конца.

    Обновленная подсказка Улучшенный ответ

    Можете ли вы написать мне описательное и драматическое стихотворение об этом изображении и указать его местонахождение?

    Маленький зайчик на зелени,
    Уши такие длинные, такие острые.
    Что ты видишь там,
    Вдалеке, куда ты смотришь?

    Это океан синий,
    Сверкает в лучах солнца?
    Или волны, которые разбиваются и ревут,
    Ритм, который вы обожаете?

    Зайка, скажи мне правду,
    Что так привлекает ваше внимание?
    Это соленый ветерок,
    Или крики чаек, которые нравятся?

    Возможно, дело в необъятности всего этого,
    Мир такой большой и маленький.
    Место, где могут бродить мечты,
    И приключения можно сеять.

    Зайка, интересно, о чем ты мечтаешь,
    Как сидишь на траве, так безмятежно.
    Вы жаждете исследовать глубины,
    Или остаться на суше, где можно прыгнуть?

    Что бы это ни было, зайчонок,
    Пусть эта искра чуда горит ярко.
    Ибо в твоих мечтах и ​​стремлениях,
    Лежит мир, ожидающий вашего творения.

    Устранение неполадок, какая часть запроса не удалась

    Может быть трудно определить, не удалось ли выполнить подсказку из-за того, что модель изначально не поняла изображение , или же она поняла изображение, но впоследствии не выполнила правильные шаги рассуждения .

    Чтобы устранить неоднозначность между этими причинами, попросите модель описать то, что изображено на изображении.

    В приведенном ниже примере, если модель отвечает закуской, которая кажется неожиданной в сочетании с чаем (например, попкорном), вы можете сначала устранить неполадку, чтобы определить, правильно ли модель распознала, что на изображении содержится чай.

    Быстрый Подскажите по устранению неполадок

    Какую закуску я могу приготовить за 1 минуту, которая подойдет к этому?

    Опишите, что изображено на этом изображении.

    Другая стратегия — попросить модель объяснить свои доводы. Это может помочь вам определить, какая часть рассуждений не удалась, если таковая имеется.

    Быстрый Подскажите по устранению неполадок

    Какую закуску я могу приготовить за 1 минуту, которая подойдет к этому?

    Какую закуску я могу приготовить за 1 минуту, которая подойдет к этому? Пожалуйста, объясните, почему.

    Настройка параметров выборки

    В каждом запросе вы отправляете в модель не только мультимодальное приглашение, но и набор параметров выборки. Модель может генерировать разные результаты для разных значений параметров. Поэкспериментируйте с различными параметрами, чтобы получить наилучшие значения для задачи. Наиболее часто настраиваемыми параметрами являются следующие:

    • Температура
    • топ-П
    • топ-К

    Температура

    Температура используется для выборки во время генерации ответа, что происходит при применении top-P и top-K. Температура контролирует степень случайности при выборе токенов. Более низкие температуры хороши для подсказок, требующих более детерминированного и менее открытого или творческого ответа, в то время как более высокие температуры могут привести к более разнообразным и творческим результатам. Температура 0 является детерминированной, что означает, что всегда выбирается ответ с наибольшей вероятностью.

    В большинстве случаев попробуйте начать с температуры 0,4. Если вам нужны более творческие результаты, попробуйте увеличить температуру. Если вы наблюдаете явные галлюцинации, попробуйте снизить температуру.

    Топ-К

    Top-K меняет способ выбора токенов моделью для вывода. Значение top-K, равное 1, означает, что следующий выбранный токен является наиболее вероятным среди всех токенов в словаре модели (также называемое жадным декодированием), а значение top-K, равное 3, означает, что следующий токен выбирается из трех наиболее вероятных токенов. с помощью температуры.

    На каждом этапе выбора токенов отбираются топ-K токенов с наибольшей вероятностью. Затем токены дополнительно фильтруются на основе top-P, причем последний токен выбирается с использованием температурной выборки.

    Укажите меньшее значение для менее случайных ответов и более высокое значение для более случайных ответов. Значение top-K по умолчанию — 32.

    Топ-П

    Top-P меняет способ выбора токенов моделью для вывода. Токены выбираются от наиболее (см. top-K) до наименее вероятных до тех пор, пока сумма их вероятностей не станет равна значению top-P. Например, если токены A, B и C имеют вероятность 0,6, 0,3, 0,1, а значение top-P равно 0,9, то модель выберет либо A, либо B в качестве следующего токена, используя температуру, и исключит C как кандидат.

    Укажите меньшее значение для менее случайных ответов и более высокое значение для более случайных ответов. Значение по умолчанию для top-P — 1,0.

    Следующие шаги

    • Попробуйте написать собственные мультимодальные подсказки с помощью Google AI Studio .
    • Дополнительные рекомендации по созданию подсказок см. на странице «Стратегии подсказок» .