Что нового в Gemini 3.5 Flash?
Gemini 3.5 Flash — это общедоступная (GA) стабильная и готовая к масштабируемому использованию в производственных условиях версия. Как наша самая интеллектуальная модель Flash, она обеспечивает стабильно высокую производительность при выполнении агентских операций, программировании и решении долгосрочных задач в масштабе предприятия.
В этом руководстве представлен обзор улучшений, изменений API и рекомендации по миграции для Gemini 3.5 Flash.
Новая модель
| Модель | Идентификатор модели | Описание |
|---|---|---|
| Вспышка Gemini 3.5 | gemini-3.5-flash | Наша наиболее интеллектуальная модель для достижения устойчиво высоких результатов в задачах, связанных с агентным программированием и кодированием. |
Gemini 3.5 Flash поддерживает контекстное окно с 1 миллионом токенов, максимальное количество выходных токенов — 65 тысяч, функцию "мышления", а также тот же набор инструментов и функций платформы, что и Gemini 3 Flash. Использование на компьютере в данный момент не поддерживается.
Полные технические характеристики см. в обзоре моделей . Цены указаны на странице с ценами .
Быстрый старт
Все примеры в этом руководстве используют API взаимодействия. API генерации контента также поддерживается; применяются те же параметры конфигурации и рекомендации.
Python
from google import genai
client = genai.Client()
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Explain how parallel agentic execution works in three sentences."
)
print(interaction.output_text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const client = new GoogleGenAI({});
async function main() {
const interaction = await client.interactions.create({
model: "gemini-3.5-flash",
input: "Explain how parallel agentic execution works in three sentences.",
});
console.log(interaction.output_text);
}
main();
ОТДЫХ
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"input": "Explain how parallel agentic execution works in three sentences."
}'
Что нового
- Устойчивая производительность на переднем крае технологий: наша самая интеллектуальная модель Flash, оптимизированная для масштабируемых задач агентного управления и программирования.
- Выполнение действий агентами: развертывание суб-агентов, решение проблем и быстрые циклы работы агентов в масштабе предприятия.
- Программирование: итеративные циклы кодирования, быстрое исследование и прототипирование для проверки альтернативных путей и динамического поиска решений.
- Долгосрочная перспектива: многоэтапные рабочие процессы и использование инструментов в масштабе предприятия.
- Сохранение хода мыслей: модель автоматически поддерживает промежуточные рассуждения на протяжении многоходовых диалогов. Изменения в API не требуются.
- Новый уровень усилий по умолчанию: Уровень мыслительных усилий по умолчанию изменен с
highнаmedium. Подробнее см. Новый уровень усилий по умолчанию . - Улучшенное
lowмышление: теперь значительно улучшенlowк низкоуровневому программированию и задачам, требующим меньшего количества шагов, что обеспечивает высокое качество при меньшей задержке и стоимости. - Выпуск GA: Стабильная модель для масштабируемого использования в производственных условиях.
Изменения в поведении
Новый уровень сложности по умолчанию: medium
Уровень мыслительной нагрузки по умолчанию теперь medium , в отличие от high который был в Gemini 3 Flash Preview. medium обеспечивает очень хорошие результаты в широком диапазоне задач, при этом работа модели выполняется быстрее и экономичнее. Для сложных проблем high побуждает модель к более глубокому осмыслению.
| Уровень усилий | Когда использовать |
|---|---|
minimal | Оптимизировано для скорости ответа. Варианты использования, аналогичные чату, быстрые и точные ответы, упрощенные вызовы инструментов. |
low | Задачи, требующие написания кода и работы с агентами, предполагают меньшую задержку и меньшее количество шагов. Также хорошо подходит для задач анализа и написания текстов, требующих некоторого размышления. |
medium (по умолчанию) | Наилучшее качество для большинства задач. Рекомендуется для сложных сценариев использования кода и агентных систем. |
high | Максимально раскрывает потенциал модели в мышлении и использовании инструментов. Лучше всего подходит для сложных рассуждений, сложных математических вычислений и самых трудных задач, связанных с кодом или агентом. Позволяет развивать развернутые мыслительные процессы и вызывать функции. |
Чтобы изменить значение по умолчанию, установите thinking_level в вашем файле конфигурации:
Python
from google import genai
client = genai.Client()
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Prove that the square root of 2 is irrational.",
generation_config={"thinking_level": "high"},
)
print(interaction.output_text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const client = new GoogleGenAI({});
async function main() {
const interaction = await client.interactions.create({
model: "gemini-3.5-flash",
input: "Prove that the square root of 2 is irrational.",
generationConfig: { thinkingLevel: "high" },
});
console.log(interaction.output_text);
}
main();
ОТДЫХ
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"input": "Prove that the square root of 2 is irrational.",
"generation_config": {"thinking_level": "high"}
}'
сохранение мыслей
Модель автоматически поддерживает промежуточные рассуждения на протяжении многоэтапных диалогов. Если контекст рассуждений присутствует в истории диалога, он сохраняется, что повышает производительность при выполнении сложных многоэтапных задач, таких как итеративная отладка и рефакторинг кода. Изменения в API не требуются:
- API для взаимодействия : Мысли уже автоматически сохраняются. Изменения в поведении отсутствуют.
- API GenerateContent : Начиная с Gemini 3.5 Flash, модель использует контекст рассуждений из всех предыдущих ходов, если в истории разговора присутствуют сигнатуры мыслей. Чтобы включить это, передайте полную, неизмененную историю разговора (включая сигнатуры мыслей ) в
contents. SDK обрабатывает это автоматически.
Обновление параметров и лучшие практики в Gemini 3.x
Следующие положения относятся ко всем моделям Gemini 3.x , включая Gemini 3.5 Flash.
-
temperature,top_p,top_k: мы настоятельно рекомендуем не изменять значения по умолчанию. Возможности анализа данных Gemini 3 оптимизированы для настроек по умолчанию. - Используйте
thinking_levelвместоthinking_budget. - Функция, вызывающая функцию сопоставления ответов :
id,nameи количество ответов должны совпадать с предыдущими вызовами. - Мультимодальные функциональные ответы : включают мультимодальное содержимое внутри функционального ответа, а не за его пределами.
- Встроенные инструкции в ответах на функции : добавляются к тексту ответа на функцию, а не представляют собой отдельные части.
- Сократите количество ненужных обращений к инструментам : используйте более низкие уровни мышления или экспериментируйте с инструкциями системы, чтобы сократить количество обращений к инструментам в рабочих процессах агентов.
Инструкции по обновлению кода см. в разделах ниже.
Параметры отбора проб (больше не рекомендуются)
temperature , top_p и top_k больше не рекомендуются для всех моделей Gemini 3.x. Возможности анализа Gemini 3 оптимизированы для настроек по умолчанию. Удалите эти параметры из всех запросов.
# ⚠️ Remove these parameters (not recommended)
generation_config = {
"temperature": 0.7,
"top_p": 0.9,
"top_k": 40,
}
Для обеспечения детерминизма мы рекомендуем определить системную инструкцию с четко определенными правилами для вашего конкретного случая использования.
thinking_budget (больше не рекомендуется)
Использование необработанного числового параметра thinking_budget больше не рекомендуется во всех моделях Gemini 3.x. Вместо него используйте строковое перечисление thinking_level .
# ⚠️ Before (not recommended)
generation_config = {
"thinking": {"thinking_budget": 7500},
}
# ✅ After
generation_config = {
"thinking": {"thinking_level": "medium"},
}
Доступные значения: minimal , low , medium (по умолчанию) и high .
Вызов функции: строгое соответствие ответа
API для взаимодействия уже выдает ошибки при несоответствии ответов функций. API для генерации контента пока не выдает ошибок, но несоответствие ответов в большинстве случаев приводит к тому, что модель возвращает пустые ответы с finish_reason: STOP . Всегда следуйте этим соглашениям:
| Требование | Подробности |
|---|---|
Укажите id | Каждый FunctionResponse должен содержать id из соответствующего FunctionCall |
name матча | name в ответе должно совпадать с name в вызове. |
| Матчи учитываются | Возвращает ровно один FunctionResponse для каждого полученного FunctionCall |
Python
# ✅ Include matching call_id and name in the function_result
final_interaction = client.interactions.create(
model="gemini-3.5-flash",
previous_interaction_id=interaction.id,
tools=[my_tool],
input=[{
"type": "function_result",
"name": fc_step.name,
"call_id": fc_step.id,
"result": [{"type": "text", "text": json.dumps(result)}],
}],
)
JavaScript
// ✅ Include matching call_id and name in the function_result
const finalInteraction = await client.interactions.create({
model: "gemini-3.5-flash",
previousInteractionId: interaction.id,
tools: [myTool],
input: [{
type: "function_result",
name: fcStep.name,
call_id: fcStep.id,
result: [{ type: "text", text: JSON.stringify(result) }],
}],
});
ОТДЫХ
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3.5-flash",
"previous_interaction_id": "<INTERACTION_ID>",
"tools": [...],
"input": [{
"type": "function_result",
"name": "my_function",
"call_id": "<CALL_ID>",
"result": [{"type": "text", "text": "..."}]
}]
}'
Мультимодальные функциональные ответы
Мы часто видим, как клиенты предоставляют изображения вне ответа функции. Это может привести к неожиданному поведению модели (например, утечке мыслей) и снижению качества выходных данных. Вместо этого следуйте рекомендациям в документации API для многомодальных ответов функций и включайте многомодальный контент в части ответа функции, которые вы отправляете модели. Модель сможет обработать этот многомодальный контент на следующем этапе, чтобы выдать более обоснованный ответ.
Python
# ✅ Include multimodal content in the function response
final_interaction = client.interactions.create(
model="gemini-3.5-flash",
previous_interaction_id=interaction.id,
input=[
{
"type": "function_result",
"name": tool_call.name,
"call_id": tool_call.id,
"result": [
{"type": "text", "text": "instrument.jpg"},
{
"type": "image",
"mime_type": "image/jpeg",
"data": base64_image_data,
},
],
}
],
)
JavaScript
// ✅ Include multimodal content in the function response
const finalInteraction = await client.interactions.create({
model: "gemini-3.5-flash",
previousInteractionId: interaction.id,
input: [{
type: "function_result",
name: toolCall.name,
call_id: toolCall.id,
result: [
{ type: "text", text: "instrument.jpg" },
{
type: "image",
mime_type: "image/jpeg",
data: base64ImageData,
},
],
}],
});
Встроенные инструкции в ответах функций
Мы часто видим, как клиенты предоставляют дополнительные инструкции вместе с ответами функций в качестве последующих Parts . Это может привести к неожиданному поведению модели (например, утечке мыслей) и снижению качества результатов. Вместо этого, добавляйте любые дополнительные инструкции в конец текста ответа функции, разделяя их двумя переносами строки.
Python
# ✅ Append inline instructions to the end of the function response separated by two newlines
result_text = f"{json.dumps(result)}\n\n<your inline instructions>"
final_interaction = client.interactions.create(
model="gemini-3.5-flash",
previous_interaction_id=interaction.id,
tools=[my_tool],
input=[{
"type": "function_result",
"name": fc_step.name,
"call_id": fc_step.id,
"result": [{"type": "text", "text": result_text}],
}],
)
JavaScript
// ✅ Append inline instructions to the end of the function response separated by two newlines
const resultText = `${JSON.stringify(result)}\n\n<your inline instructions>`;
const finalInteraction = await client.interactions.create({
model: "gemini-3.5-flash",
previousInteractionId: interaction.id,
tools: [myTool],
input: [{
type: "function_result",
name: fcStep.name,
call_id: fcStep.id,
result: [{ type: "text", text: resultText }],
}],
});
Сокращение количества ненужных обращений к инструментам.
Если вы сталкиваетесь с чрезмерным использованием вызовов инструментов, два метода помогут свести их к минимуму:
Начните с понижения уровня мышления (
medium,lowилиminimal): более высокие уровни мышления побуждают модель использовать больше инструментов для исследования и проверки, поэтому снижение уровня может уменьшить количество обращений к инструментам.Добавьте системную инструкцию: если чрезмерное использование инструмента сохраняется после корректировки уровня мышления, рассмотрите возможность добавления подсказки, ограничивающей его использование. Например:
You have a limited action budget of <n> tool calls. Use them efficiently.
Контрольный список миграции
Мы настоятельно рекомендуем обновить SDK google-genai до версии 2.0.0 или более поздней. В этой версии внесены существенные изменения в API взаимодействий. Подробности см. в руководстве по миграции, посвященном существенным изменениям .
Переход с Gemini 3 Flash Preview
- Обновить название модели:
gemini-3-flash-preview→gemini-3.5-flash - Ознакомьтесь с ценами. Gemini 3.5 Flash дороже, чем Gemini 3 Flash Preview. Подробности смотрите на странице с ценами .
- Удалите
temperature,top_pиtop_kиз вашего конфигурационного файла (больше не рекомендуется). - Замените
thinking_budgetнаthinking_level. - Добавьте
idи соответствующееnameко всем частямFunctionResponse. - Проверьте свои запросы. Уровень сложности по умолчанию изменен с
highнаmedium; проверьте качество, скорость и стоимость. - Сохранение мыслей теперь включено по умолчанию. Контекст рассуждений сохраняется между ходами, что повышает производительность, но может увеличить расход жетонов.
- Сократите количество ненужных обращений к инструментам: начните с уменьшения уровня сложности (
medium,lowилиminimal); добавьте системную инструкцию для ограничения использования инструментов, если чрезмерное их использование сохраняется. - В данный момент использование компьютера в Gemini 3.5 Flash не поддерживается. Для рабочих нагрузок, требующих использования компьютера, продолжайте использовать Gemini 3 Flash Preview.
Перейти с Gemini 2.5
Всё вышеперечисленное, плюс:
- Упростите подсказки. Если вы использовали метод построения логической цепочки подсказок для принудительного логического мышления, попробуйте
thinking_level: "medium"или"high"с более простыми подсказками. - Протестируйте обработку PDF-файлов и медиафайлов. Если вы полагались на определенное поведение при разборе документов с большим объемом данных, протестируйте параметр
media_resolution_high, чтобы обеспечить сохранение точности. Переход к настройкам Gemini 3 по умолчанию может также увеличить использование токенов для PDF-файлов, но уменьшить его для видео; если запросы превышают контекстное окно, явно уменьшите значениеmedia_resolution. Подробности см. в документации по разрешению медиафайлов . - Используйте комбинированные инструменты . Поиск в Google, контекст URL, выполнение кода и пользовательские функции могут быть использованы в одном запросе.
- При использовании мультимодальных функциональных ответов перемещайте мультимодальный контент внутрь частей функционального ответа, а не рядом с ними.
- При использовании встроенных инструкций с ответами функций, добавляйте их к тексту ответа функции, разделяя двумя переносами строки, а не как отдельные части.
- Сегментация изображений не поддерживается в Gemini 3.x. Для задач сегментации продолжайте использовать Gemini 2.5 Flash с отключенной функцией thinking off или Gemini Robotics-ER 1.6 .
Особенности семейства Gemini 3
Флэш-память Gemini 3.5 унаследовала все возможности семейства Gemini 3, за исключением использования в режиме «Компьютер». Функции, представленные в Gemini 3, сохранились и в последующих версиях:
- Мышление : Зашифрованный контекст рассуждений сохраняется между вызовами API. Автоматически в API взаимодействий; неявно в GenerateContent.
- Структурированный вывод с использованием инструментов : объединение режима JSON со встроенными инструментами (поиск, контекст URL, выполнение кода, вызов функций).
- Многомодальные ответы функций : возвращают изображения, аудио и другие медиафайлы в результатах вызова функции.
- Выполнение кода с изображениями : выполнение кода, который обрабатывает и генерирует изображения.
- Комбинированное использование инструментов : использование встроенных инструментов и вызов пользовательских функций в одном запросе.
Следующие шаги
- Подробнее о семействе Gemini 3 можно узнать в руководстве разработчика Gemini 3.
- Подробнее о стратегиях оперативного проектирования можно узнать в руководстве по оперативному проектированию .
- Начните с поваренной книги Gemini 3.
- Узнайте об оптимизации и выводе данных API Gemini.