Знакомство с Gemini 2.5 Flash, Veo 2 и обновлениями Live API. Подробнее ,Знакомство с Gemini 2.5 Flash, Veo 2 и обновлениями Live API. Подробнее ,Знакомство с Gemini 2.5 Flash, Veo 2 и обновлениями Live API. Подробнее ,Знакомство с Gemini 2.5 Flash, Veo 2 и обновлениями Live API. Узнайте больше.

Эта страница переведена с помощью Cloud Translation API.

Файловый API

Семейство моделей искусственного интеллекта (ИИ) Gemini создано для обработки различных типов входных данных, включая текст, изображения и аудио. Поскольку эти модели могут обрабатывать более одного типа или режима данных, модели Gemini называются мультимодальными моделями или объясняются наличием мультимодальных возможностей .

В этом руководстве показано, как работать с медиафайлами с помощью Files API. Основные операции одинаковы для аудиофайлов, изображений, видео, документов и других поддерживаемых типов файлов.

Инструкции по подсказкам для файлов см. в разделе «Руководство по подсказкам для файлов» .

Загрузить файл

Вы можете использовать Files API для загрузки медиафайла. Всегда используйте Files API, если общий размер запроса (включая файлы, текстовую подсказку, системные инструкции и т. д.) превышает 20 МБ.

Следующий код загружает файл, а затем использует его при вызове generateContent .

Питон

from google import genai

client = genai.Client(api_key="GOOGLE_API_KEY")

myfile = client.files.upload(file="path/to/sample.mp3")

response = client.models.generate_content(
    model="gemini-2.0-flash", contents=["Describe this audio clip", myfile]
)

print(response.text)

JavaScript

import {
  GoogleGenAI,
  createUserContent,
  createPartFromUri,
} from "@google/genai";

const ai = new GoogleGenAI({ apiKey: "GOOGLE_API_KEY" });

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/sample.mp3",
    config: { mimeType: "audio/mpeg" },
  });

  const response = await ai.models.generateContent({
    model: "gemini-2.0-flash",
    contents: createUserContent([
      createPartFromUri(myfile.uri, myfile.mimeType),
      "Describe this audio clip",
    ]),
  });
  console.log(response.text);
}

await main();

Идти

file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}
defer client.DeleteFile(ctx, file.Name)

model := client.GenerativeModel("gemini-2.0-flash")
resp, err := model.GenerateContent(ctx,
    genai.FileData{URI: file.URI},
    genai.Text("Describe this audio clip"))
if err != nil {
    log.Fatal(err)
}

printResponse(resp)

ОТДЫХ

AUDIO_PATH="path/to/sample.mp3"
MIME_TYPE=$(file -b --mime-type "${AUDIO_PATH}")
NUM_BYTES=$(wc -c < "${AUDIO_PATH}")
DISPLAY_NAME=AUDIO

tmp_header_file=upload-header.tmp

# Initial resumable request defining metadata.
# The upload url is in the response headers dump them to a file.
curl "${BASE_URL}/upload/v1beta/files?key=${GOOGLE_API_KEY}" \
  -D upload-header.tmp \
  -H "X-Goog-Upload-Protocol: resumable" \
  -H "X-Goog-Upload-Command: start" \
  -H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
  -H "Content-Type: application/json" \
  -d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null

upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"

# Upload the actual bytes.
curl "${upload_url}" \
  -H "Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Offset: 0" \
  -H "X-Goog-Upload-Command: upload, finalize" \
  --data-binary "@${AUDIO_PATH}" 2> /dev/null > file_info.json

file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri

# Now generate content using that file
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent?key=$GOOGLE_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
          {"text": "Describe this audio clip"},
          {"file_data":{"mime_type": "${MIME_TYPE}", "file_uri": '$file_uri'}}]
        }]
      }' 2> /dev/null > response.json

cat response.json
echo

jq ".candidates[].content.parts[].text" response.json

Получить метаданные для файла

Вы можете убедиться, что API успешно сохранил загруженный файл, и получить его метаданные, вызвав files.get .

Питон

myfile = client.files.upload(file='path/to/sample.mp3')
file_name = myfile.name
myfile = client.files.get(name=file_name)
print(myfile)

JavaScript

const myfile = await ai.files.upload({
  file: "path/to/sample.mp3",
  config: { mimeType: "audio/mpeg" },
});

const fileName = myfile.name;
const fetchedFile = await ai.files.get({ name: fileName });
console.log(fetchedFile);

Идти

file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}

gotFile, err := client.GetFile(ctx, file.Name)
if err != nil {
    log.Fatal(err)
}
fmt.Println("Got file:", gotFile.Name)

ОТДЫХ

# file_info.json was created in the upload example
name=$(jq ".file.name" file_info.json)
# Get the file of interest to check state
curl https://generativelanguage.googleapis.com/v1beta/files/$name > file_info.json
# Print some information about the file you got
name=$(jq ".file.name" file_info.json)
echo name=$name
file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri

Список загруженных файлов

Вы можете загрузить несколько файлов с помощью Files API. Следующий код получает список всех загруженных файлов:

Питон

print('My files:')
for f in client.files.list():
    print(' ', f.name)

JavaScript

const listResponse = await ai.files.list({ config: { pageSize: 10 } });
for await (const file of listResponse) {
  console.log(file.name);
}

Идти

iter := client.ListFiles(ctx)
for {
    ifile, err := iter.Next()
    if err == iterator.Done {
        break
    }
    if err != nil {
        log.Fatal(err)
    }
    fmt.Println(ifile.Name)
}

ОТДЫХ

echo "My files: "

curl "https://generativelanguage.googleapis.com/v1beta/files?key=$GOOGLE_API_KEY"

Удалить загруженные файлы

Файлы автоматически удаляются через 48 часов. Вы также можете вручную удалить загруженный файл:

Питон

myfile = client.files.upload(file='path/to/sample.mp3')
client.files.delete(name=myfile.name)

JavaScript

const myfile = await ai.files.upload({
  file: "path/to/sample.mp3",
  config: { mimeType: "audio/mpeg" },
});

const fileName = myfile.name;
await ai.files.delete({ name: fileName });

Идти

file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}
client.DeleteFile(ctx, file.Name)

ОТДЫХ

curl --request "DELETE" https://generativelanguage.googleapis.com/v1beta/files/$name?key=$GOOGLE_API_KEY

Информация об использовании

Вы можете использовать Files API для загрузки медиафайлов и взаимодействия с ними. Files API позволяет хранить до 20 ГБ файлов на проект, при этом максимальный размер каждого файла составляет 2 ГБ. Файлы хранятся 48 часов. В течение этого времени вы можете использовать API для получения метаданных о файлах, но не сможете загружать файлы. API Files доступен бесплатно во всех регионах, где доступен API Gemini.

Стратегии запроса файлов

В этом разделе представлены рекомендации и рекомендации по использованию медиафайлов с подсказками для API Gemini.

Возможность использовать различные типы данных в ваших подсказках дает вам больше гибкости с точки зрения задач, которые вы можете решать с помощью Gemini API. Например, вы можете отправить модели фотографию вкусной еды и попросить ее написать о ней небольшой блог.

Быстрый

Ответ

Напишите короткий интересный пост в блоге на основе этой картинки. Он должен включать описание еды на фотографии и рассказ о том, как я готовлю еду в путешествии.

Приготовление еды — отличный способ сэкономить время и деньги, а также поможет вам питаться здоровее. Это блюдо — отличный пример полезной и вкусной еды, которую можно легко приготовить заранее.

В состав этого блюда входит коричневый рис, жареные овощи и курица терияки. Коричневый рис — это полезный и сложный углевод, который даст вам постоянную энергию. Жареные овощи — отличный способ получить суточную дозу витаминов и минералов, а курица терияки — вкусный и богатый белком вариант.

Это блюдо тоже очень легко приготовить. Просто приготовьте коричневый рис, поджарьте овощи и приготовьте курицу терияки. Когда все будет готово, разложите его по контейнерам для приготовления еды и храните в холодильнике. Затем вы можете взять контейнер и отправиться в занятое утро!

Если вы ищете здоровую и вкусную еду, которую можно легко приготовить заранее, эта еда — отличный вариант. Он наполнен питательными веществами и вкусом, и он обязательно подарит вам чувство сытости и удовлетворения.

Вот и готовьте здоровую и вкусную еду!

Если у вас возникли проблемы с получением нужного результата из подсказок, использующих медиафайлы, существует несколько стратегий, которые могут помочь вам получить желаемые результаты. В следующих разделах представлены подходы к проектированию и советы по устранению неполадок для улучшения подсказок, использующих мультимодальный ввод.

Вы можете улучшить свои мультимодальные подсказки, следуя этим рекомендациям:

Быстрые основы проектирования
- Будьте конкретны в своих инструкциях . Разработайте четкие и краткие инструкции, которые оставляют минимум места для неправильного толкования.
- Добавьте к подсказке несколько примеров: используйте реалистичные примеры из нескольких кадров, чтобы проиллюстрировать, чего вы хотите достичь.
- Разбейте это шаг за шагом : разделите сложные задачи на выполнимые подцели, направляя модель на протяжении всего процесса.
- Укажите формат вывода . В приглашении попросите, чтобы вывод был в нужном формате, например уценке, JSON, HTML и т. д.
- Поместите изображение первым для подсказок с одним изображением . Хотя Gemini может обрабатывать ввод изображений и текста в любом порядке, для подсказок, содержащих одно изображение, может быть лучше, если это изображение (или видео) будет размещено перед текстовой подсказкой. Однако для подсказок, которые требуют, чтобы изображения сильно чередовались с текстом, чтобы иметь смысл, используйте тот порядок, который является наиболее естественным.
Устранение неполадок с мультимодальным приглашением
- Если модель не извлекает информацию из соответствующей части изображения: добавьте подсказки, из которых вы хотите, чтобы подсказка извлекала информацию из каких аспектов изображения.
- Если выходные данные модели слишком общие (недостаточно адаптированы к входному изображению/видео): в начале подсказки попробуйте попросить модель описать изображение(я) или видео, прежде чем предоставлять инструкции по выполнению задачи, или попробуйте попросить модель сослаться на то, что находится на изображении.
- Чтобы устранить неполадку, какая часть не удалась: попросите модель описать изображение или попросите модель объяснить свои рассуждения, чтобы оценить первоначальное понимание модели.
- Если ваша подсказка приводит к галлюцинациям: попробуйте уменьшить настройку температуры или попросить модель дать более короткие описания, чтобы она с меньшей вероятностью экстраполировала дополнительные детали.
- Настройка параметров выборки. Поэкспериментируйте с различными настройками температуры и параметрами top-k, чтобы настроить креативность модели.

Будьте конкретны в своих инструкциях

Подсказки имеют наибольший успех, когда они ясны и подробны. Если вы имеете в виду конкретный результат, лучше включить это требование в приглашение, чтобы гарантировать получение желаемого результата.

Для этого изображения табло аэропорта, если попросить модель просто «описать это изображение», можно создать общее описание. Если вам нужна модель для анализа времени и города на изображении, вы можете включить этот запрос непосредственно в приглашение.

Быстрый	Ответ модели
Опишите этот образ.	На изображении показано табло прилета и вылета аэропорта.

Обновленная подсказка	Улучшенный ответ
Преобразуйте время и город с табло аэропорта, показанного на этом изображении, в список.	10:50 Москва 11:05 Эдинбург 11:05 Лондон 11:10 Бухарест 11:30 Киев 11:35 Дублин 11:45 Ист-Мидлендс 12:15 София 12:30 Лондон 12:30 Ньюкасл 12:40 Санкт-Петербург 12:40 Лондон 12:45 Манчестер

Обновленная подсказка

Улучшенный ответ

Преобразуйте время и город с табло аэропорта, показанного на этом изображении, в список.

10:50 Москва

11:05 Эдинбург

11:05 Лондон

11:10 Бухарест

11:30 Киев

11:35 Дублин

11:45 Ист-Мидлендс

12:15 София

12:30 Лондон

12:30 Ньюкасл

12:40 Санкт-Петербург

12:40 Лондон

12:45 Манчестер

Добавьте несколько примеров

Модель Gemini может принимать несколько входных данных, которые можно использовать в качестве примеров для понимания желаемого результата. Добавление этих примеров может помочь модели выявить закономерности и применить взаимосвязь между данными изображениями и ответами к новому примеру. Это также называется «многократным» обучением.

В приведенном ниже примере исходные выходные данные записаны в форме предложения и также содержат страну (Бразилия). Предположим, вам нужен вывод в другом формате или стиле, и вам нужен только город, а не страна. Добавление в подсказку примеров из нескольких кадров может заставить модель реагировать так, как вы хотите.

Быстрый	Ответ модели
Определите город по ориентиру.	Ориентиром является статуя Христа-Искупителя в Рио-де-Жанейро, Бразилия.

Обновленная подсказка	Улучшенный ответ
Определите город по ориентиру.	город: Рим, достопримечательность: Колизей.
	город: Пекин, ориентир: Запретный город
	город: Рио-де-Жанейро, достопримечательность: статуя Христа-Искупителя

Разбейте это шаг за шагом

Для сложных задач, например тех, которые требуют как визуального понимания, так и рассуждений, может быть полезно разделить задачу на более мелкие и простые шаги. В качестве альтернативы также может быть эффективно, если вы прямо попросите модель «думать шаг за шагом» в своем подсказке.

Быстрый	Ответ модели
Когда у меня закончится туалетная бумага?	Вскоре у вас останется всего 3 рулона.

Обновленная подсказка	Улучшенный ответ
1. Сначала посчитайте, сколько рулонов туалетной бумаги на этой картинке. 2. Затем определите, сколько туалетной бумаги использует среднестатистический человек в день. 3. Подсчитайте, на сколько хватит этих рулонов туалетной бумаги.	1. На этой картинке 3 рулона туалетной бумаги. 2. Среднестатистический человек использует около 20 листов туалетной бумаги в день. 3. Если в каждом рулоне 200 листов, то одного рулона хватит примерно на 10 дней. Таким образом, 3-х рулонов хватит примерно на месяц.

Обновленная подсказка

Улучшенный ответ

1. Сначала посчитайте, сколько рулонов туалетной бумаги на этой картинке.

2. Затем определите, сколько туалетной бумаги использует среднестатистический человек в день.

3. Подсчитайте, на сколько хватит этих рулонов туалетной бумаги.

1. На этой картинке 3 рулона туалетной бумаги.

2. Среднестатистический человек использует около 20 листов туалетной бумаги в день.

3. Если в каждом рулоне 200 листов, то одного рулона хватит примерно на 10 дней. Таким образом, 3-х рулонов хватит примерно на месяц.

Математические задачи или другие типы текстовых задач — отличные кандидаты для того, чтобы попросить модель думать шаг за шагом.

Быстрый	Ответ
Какой член последовательности является четвертым?	-135

Быстрый

Ответ

Какой член последовательности является четвертым?

-135

Ответ модели неверен. Некоторые способы улучшить эту ситуацию — попросить модель проанализировать проблему, прежде чем отвечать на подсказку.

Быстрый	Ответ
Сначала разберите формулу на изображении. Затем на основании формулы ответьте: «Какой четвертый член последовательности?».	Нажмите, чтобы развернуть результат \( b(n) = b(n-1) * (-3) \) \( b(1) = 15 \) Подставим n = 4 в формулу: \( b(4) = b(4-1) * (-3) \) \( b(4) = b(3) * (-3) \) Мы не знаем значение b(3), поэтому подставляем n = 3 в формулу: \( b(3) = b(3-1) * (-3) \) \( b(3) = b(2) * (-3) \) Мы не знаем значение b(2), поэтому подставляем n = 2 в формулу: \( b(2) = b(2-1) * (-3) \) \( b(2) = b(1) * (-3) \) Мы знаем, что значение b(1) равно 15, поэтому подставим его в формулу: \( b(2) = 15 * (-3) \) \( b(2) = -45 \) Теперь, когда мы знаем значение b(2), подставим его в формулу для b(3): \( b(3) = b(2) * (-3) \) \( b(3) = -45 * (-3) \) \( b(3) = 135 \) Теперь, когда мы знаем значение b(3), подставим его в формулу для b(4): \( b(4) = b(3) * (-3) \) \( b(4) = 135 * (-3) \) \( b(4) = -405 \) Следовательно, 4-й член последовательности равен -405.

Быстрый

Ответ

Сначала разберите формулу на изображении.

Затем на основании формулы ответьте: «Какой четвертый член последовательности?».

Нажмите, чтобы развернуть результат

\( b(n) = b(n-1) * (-3) \)

\( b(1) = 15 \)

Подставим n = 4 в формулу:

\( b(4) = b(4-1) * (-3) \)

\( b(4) = b(3) * (-3) \)

Мы не знаем значение b(3), поэтому подставляем n = 3 в формулу:

\( b(3) = b(3-1) * (-3) \)

\( b(3) = b(2) * (-3) \)

Мы не знаем значение b(2), поэтому подставляем n = 2 в формулу:

\( b(2) = b(2-1) * (-3) \)

\( b(2) = b(1) * (-3) \)

Мы знаем, что значение b(1) равно 15, поэтому подставим его в формулу:

\( b(2) = 15 * (-3) \)

\( b(2) = -45 \)

Теперь, когда мы знаем значение b(2), подставим его в формулу для b(3):

\( b(3) = b(2) * (-3) \)

\( b(3) = -45 * (-3) \)

\( b(3) = 135 \)

Теперь, когда мы знаем значение b(3), подставим его в формулу для b(4):

\( b(4) = b(3) * (-3) \)

\( b(4) = 135 * (-3) \)

\( b(4) = -405 \)

Следовательно, 4-й член последовательности равен -405.

Этот ответ модели правильный — теперь, чтобы сделать ответ еще более упорядоченным, вы можете попросить модель думать шаг за шагом.

Обновленная подсказка	Улучшенный ответ
Какой член последовательности является четвертым? Думайте шаг за шагом.	Первый срок – 15. Второе слагаемое: b(1) * (-3) = 15 * (-3) = -45. Третий член: b(2) * (-3) = -45 * (-3) = 135. Четвертый член: b(3) * (-3) = 135 * (-3) = -405.

Обновленная подсказка

Улучшенный ответ

Какой член последовательности является четвертым? Думайте шаг за шагом.

Первый срок – 15.

Второе слагаемое: b(1) * (-3) = 15 * (-3) = -45.

Третий член: b(2) * (-3) = -45 * (-3) = 135.

Четвертый член: b(3) * (-3) = 135 * (-3) = -405.

Укажите выходной формат

Распространенной проблемой является необходимость предоставления выходных данных модели в определенном формате (например, уценка, JSON, HTML), особенно если выходные данные модели должны быть обработаны последующей задачей. Вы можете попытаться создать выходные данные в этом формате, указав модели сделать это в командной строке. Ниже приведены два примера:

Быстрый	Ответ модели
Разберите таблицу на этом изображении в формате уценки.	\| Тема \| Статус \| Время \| Дата начала \| Срок погашения \| \| ------- \| ------ \| ---- \| --------- \| ------ \| \| Математика \| Готово \| 1,5 часа \| 29.11.2023 \| 01.12.2023 \| \| География \| Готово \| 30 мин \| 02.12.2023 \| 04.12.2023 \| \| Физика \| В процессе \| 2 часа \| 03.12.2023 \| 05.12.2023 \| \| Биология \| Не запущено \| 6 часов \| 02.11.2016 \| 06.12.2023 \|

Быстрый

Ответ модели

Разберите таблицу на этом изображении в формате уценки.

| ------- | ------ | ---- | --------- | ------ |

| География | Готово | 30 мин | 02.12.2023 | 04.12.2023 |

Быстрый	Ответ модели
Предоставьте список всех следующих атрибутов: ингредиенты, тип кухни, вегетарианская или нет, в формате JSON	```json``` { "ингредиенты": [ "рис", "креветка", "моллюски", "моллюски", "горох", «помидоры», «лук», "чеснок", "оливковое масло", "паприка", "соль", "перец" ], "тип кухни": "Испанская", «вегетарианец»: ложь

Быстрый

Ответ модели

Предоставьте список всех следующих атрибутов:

ингредиенты, тип кухни, вегетарианская или нет, в формате JSON

```json```

{

"ингредиенты": [

"рис",

"креветка",

"моллюски",

"горох",

«помидоры»,

«лук»,

"чеснок",

"оливковое масло",

"паприка",

"соль",

"перец"

"тип кухни": "Испанская",

«вегетарианец»: ложь

Поместите свое изображение первым для подсказок с одним изображением.

Хотя Gemini могут интерпретировать изображения и текст в любом порядке внутри подсказки, размещение одного изображения перед текстовой подсказкой может привести к лучшим результатам. В следующих примерах вы заметите, что в каждом приглашении изображение идет первым перед текстом.

Устранение неполадок с мультимодальным приглашением

Возможно, вам придется устранить неполадки с подсказкой, если вы не получили полезного ответа. Вот несколько стратегий, которые вы можете попробовать.

Если модель не извлекает информацию из соответствующей части изображения

Чтобы получить более конкретный ответ, вы можете указать, из каких аспектов изображения вы хотите, чтобы подсказка извлекала информацию для информирования о своем ответе.

Быстрый	Ответ модели
На сколько дней ребенку хватит этих подгузников?	Подгузников хватит на 198 дней, прежде чем они закончатся.

Обновленная подсказка	Улучшенный ответ
Как долго прослужат эти подгузники, прежде чем они закончатся? Используйте вес, указанный на коробке, чтобы определить возраст ребенка, и используйте общее количество подгузников в коробке. Разделите общее количество на количество подгузников, которые ребенок использует в день.	В коробке 198 подгузников. На упаковке указано, что подгузники рассчитаны на ребенка весом 22–37 фунтов. Среднестатистическому ребенку в этом диапазоне веса, вероятно, от 1 до 2 лет. Двухлетний ребенок обычно использует 6 подгузников в день, следовательно, подгузников хватит примерно на 33 дня (198/6).

Обновленная подсказка

Улучшенный ответ

Как долго прослужат эти подгузники, прежде чем они закончатся?

Используйте вес, указанный на коробке, чтобы определить возраст ребенка, и используйте общее количество подгузников в коробке.

Разделите общее количество на количество подгузников, которые ребенок использует в день.

В коробке 198 подгузников. На упаковке указано, что подгузники рассчитаны на ребенка весом 22–37 фунтов.

Среднестатистическому ребенку в этом диапазоне веса, вероятно, от 1 до 2 лет.

Двухлетний ребенок обычно использует 6 подгузников в день, следовательно, подгузников хватит примерно на 33 дня (198/6).

Если выходные данные модели слишком общие и недостаточно адаптированы к входным изображениям

Чтобы помочь модели адаптировать свою реакцию на изображения, попробуйте попросить ее описать изображения, прежде чем приступать к рассуждению.

Быстрый	Ответ модели
Что общего между этими изображениями?	Все четыре изображения являются примерами пейзажной фотографии.

Обновленная подсказка	Улучшенный ответ
Сначала подробно опишите, что изображено на каждом изображении. Что общего между этими изображениями?	На первом изображении изображен человек, собирающий чемодан. На втором изображении показан пустой коридор торгового центра. На третьем изображении показан рулон туалетной бумаги. Четвертое изображение показывает темное и бурное море. Общим между этими изображениями является то, что все они являются примерами лиминальных пространств. Лиминальные пространства — это места или ситуации, которые находятся между двумя другими местами или ситуациями. Для них часто характерно чувство неопределённости или двусмысленности. На первом изображении изображен человек, который находится между пребыванием дома и поездкой. На втором изображении показан коридор между двумя магазинами. Третье изображение — туалетная бумага, которая может изображать ванную комнату. Ванная комната – это переходное пространство между частной и общественной сферой. Это место, где мы готовимся войти во внешний мир или покинуть его. Четвертое изображение показывает море между штилем и штормом. Пограничное пространство может быть как захватывающим, так и тревожным. Они могут быть местом нового начала или местом окончания. Они могут быть местом размышлений или местом действия.

Обновленная подсказка

Улучшенный ответ

Сначала подробно опишите, что изображено на каждом изображении. Что общего между этими изображениями?

На первом изображении изображен человек, собирающий чемодан. На втором изображении показан пустой коридор торгового центра. На третьем изображении показан рулон туалетной бумаги. Четвертое изображение показывает темное и бурное море.

Общим между этими изображениями является то, что все они являются примерами лиминальных пространств. Лиминальные пространства — это места или ситуации, которые находятся между двумя другими местами или ситуациями. Для них часто характерно чувство неопределённости или двусмысленности.

На первом изображении изображен человек, который находится между пребыванием дома и поездкой. На втором изображении показан коридор между двумя магазинами. Третье изображение — туалетная бумага, которая может изображать ванную комнату. Ванная комната – это переходное пространство между частной и общественной сферой. Это место, где мы готовимся войти во внешний мир или покинуть его.

Четвертое изображение показывает море между штилем и штормом.

Пограничное пространство может быть как захватывающим, так и тревожным. Они могут быть местом нового начала или местом окончания. Они могут быть местом размышлений или местом действия.

Вы также можете попробовать явно попросить модель сослаться на то, что изображено на изображении.

Обновленная подсказка	Улучшенный ответ
Что общего между этими изображениями? Обратитесь к изображениям в вашем ответе.	Все изображения связаны с путешествиями. На первом изображении изображен человек, упаковывающий чемодан, на втором — пустой коридор в торговом центре, на третьем — стопка туалетной бумаги, а на четвертом — темное и бурное море. Все эти изображения связаны с путешествиями, потому что это все, что людям нужно или используется во время путешествий. На первом изображении изображен человек, собирающий чемодан, что люди и делают, когда собираются в путешествие. На втором изображении показан пустой коридор торгового центра, куда люди часто ходят за покупками для поездок. На третьем изображении изображена стопка туалетной бумаги, которой люди часто пользуются во время путешествий. Четвертое изображение показывает темное и бурное море, с которым люди часто сталкиваются во время путешествий.

Обновленная подсказка

Улучшенный ответ

Что общего между этими изображениями? Обратитесь к изображениям в вашем ответе.

Все изображения связаны с путешествиями. На первом изображении изображен человек, упаковывающий чемодан, на втором — пустой коридор в торговом центре, на третьем — стопка туалетной бумаги, а на четвертом — темное и бурное море.

Все эти изображения связаны с путешествиями, потому что это все, что людям нужно или используется во время путешествий. На первом изображении изображен человек, собирающий чемодан, что люди и делают, когда собираются в путешествие. На втором изображении показан пустой коридор торгового центра, куда люди часто ходят за покупками для поездок. На третьем изображении изображена стопка туалетной бумаги, которой люди часто пользуются во время путешествий. Четвертое изображение показывает темное и бурное море, с которым люди часто сталкиваются во время путешествий.

Те же советы применимы и для творческого вывода изображений. В следующем примере с кроликом явная просьба к модели включить аспекты изображения может улучшить результат.

Быстрый	Ответ модели
Можете ли вы написать мне стихотворение об этом образе?	Маленький зайчик, такой мягкий и коричневый, Прыгаем по полю вверх и вниз. Твои уши такие длинные, твой хвост такой маленький, Ты самое милое создание из всех. Ты грызешь траву, такую зеленую и сладкую, И убегай, когда увидишь меня. Но я всегда буду твоим другом, Маленький зайчик, до самого конца.

Быстрый

Ответ модели

Можете ли вы написать мне стихотворение об этом образе?

Маленький зайчик, такой мягкий и коричневый,
Прыгаем по полю вверх и вниз.
Твои уши такие длинные, твой хвост такой маленький,
Ты самое милое создание из всех.

Ты грызешь траву, такую зеленую и сладкую,
И убегай, когда увидишь меня.
Но я всегда буду твоим другом,
Маленький зайчик, до самого конца.

Обновленная подсказка	Улучшенный ответ
Можете ли вы написать мне описательное и драматическое стихотворение об этом изображении и указать его местонахождение?	Маленький зайчик на зелени, Уши такие длинные, такие острые. Что ты видишь там, Вдалеке, куда ты смотришь? Это океан синий, Сверкает в лучах солнца? Или волны, которые разбиваются и ревут, Ритм, который вы обожаете? Зайка, скажи мне правду, Что так привлекает ваше внимание? Это соленый ветерок, Или крики чаек, которые нравятся? Возможно, дело в необъятности всего этого, Мир такой большой и маленький. Место, где могут бродить мечты, И приключения можно сеять. Зайка, интересно, о чем ты мечтаешь, Как сидишь на траве, так безмятежно. Вы жаждете исследовать глубины, Или остаться на суше, где можно прыгнуть? Что бы это ни было, зайчонок, Пусть эта искра чуда горит ярко. Ибо в твоих мечтах и стремлениях, Лежит мир, ожидающий вашего творения.

Обновленная подсказка

Улучшенный ответ

Можете ли вы написать мне описательное и драматическое стихотворение об этом изображении и указать его местонахождение?

Маленький зайчик на зелени,
Уши такие длинные, такие острые.
Что ты видишь там,
Вдалеке, куда ты смотришь?

Это океан синий,
Сверкает в лучах солнца?
Или волны, которые разбиваются и ревут,
Ритм, который вы обожаете?

Зайка, скажи мне правду,
Что так привлекает ваше внимание?
Это соленый ветерок,
Или крики чаек, которые нравятся?

Возможно, дело в необъятности всего этого,
Мир такой большой и маленький.
Место, где могут бродить мечты,
И приключения можно сеять.

Зайка, интересно, о чем ты мечтаешь,
Как сидишь на траве, так безмятежно.
Вы жаждете исследовать глубины,
Или остаться на суше, где можно прыгнуть?

Что бы это ни было, зайчонок,
Пусть эта искра чуда горит ярко.
Ибо в твоих мечтах и стремлениях,
Лежит мир, ожидающий вашего творения.

Устранение неполадок, какая часть запроса не удалась

Может быть трудно определить, не удалось ли выполнить подсказку из-за того, что модель изначально не поняла изображение , или же она поняла изображение, но впоследствии не выполнила правильные шаги рассуждения . Чтобы устранить неоднозначность между этими причинами, попросите модель описать то, что изображено на изображении.

В следующем примере, если модель отвечает закуской, которая кажется неожиданной в сочетании с чаем (например, попкорном), вы можете сначала устранить неполадку, чтобы определить, правильно ли модель распознала, что изображение содержит чай.

Быстрый	Подскажите по устранению неполадок
Какую закуску я могу приготовить за 1 минуту, которая подойдет к этому?	Опишите, что изображено на этом изображении.

Другая стратегия — попросить модель объяснить свои доводы. Это может помочь вам определить, какая часть рассуждений не удалась, если таковая имеется.

Быстрый	Подскажите по устранению неполадок
Какую закуску я могу приготовить за 1 минуту, которая подойдет к этому?	Какую закуску я могу приготовить за 1 минуту, которая подойдет к этому? Пожалуйста, объясните, почему.

Что дальше

Попробуйте написать собственные мультимодальные подсказки с помощью Google AI Studio .
Информацию об использовании Gemini Files API для загрузки медиафайлов и включения их в запросы см. в руководствах по обработке Vision , Audio и Document .
Дополнительные рекомендации по разработке подсказок, например по настройке параметров выборки, см. на странице «Стратегии подсказок» .

Файловый API

Загрузить файл

Питон

JavaScript

Идти

ОТДЫХ

Получить метаданные для файла

Питон

JavaScript

Идти

ОТДЫХ

Список загруженных файлов

Питон

JavaScript

Идти

ОТДЫХ

Удалить загруженные файлы

Питон

JavaScript

Идти

ОТДЫХ

Информация об использовании

Стратегии запроса файлов

Быстрые основы проектирования

Устранение неполадок с мультимодальным приглашением

Будьте конкретны в своих инструкциях

Добавьте несколько примеров

Разбейте это шаг за шагом

Укажите выходной формат

Поместите свое изображение первым для подсказок с одним изображением.

Устранение неполадок с мультимодальным приглашением

Если модель не извлекает информацию из соответствующей части изображения

Если выходные данные модели слишком общие и недостаточно адаптированы к входным изображениям

Устранение неполадок, какая часть запроса не удалась

Что дальше