Interactions API 现已正式发布。我们建议使用此 API 来访问所有最新功能和模型。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

模型

本指南将介绍可通过 Gemini API 使用的所有模型。

Gemini 3

稳定

Gemini 3.5 Flash

最智能的模型，可在智能体任务和编码任务中持续提供前沿性能。

稳定

Gemini 3.1 Flash-Lite

以远低于大型模型的成本，实现可与 Frontier 级模型相媲美的性能。

稳定

Nano Banana 2

功能强大、高效的图片生成和编辑，专为极致速度与大规模量产场景而优化。

稳定

Nano Banana 2 Lite

超低延迟且经济实惠的图片生成和编辑功能，专为大批量互动应用场景而设计。

稳定

Nano Banana Pro

前沿图片生成和编辑模型，可用于创建高度情境化的原生图片。

稳定

预览

Gemini 3.1 Pro

具备高级智能、复杂问题解决能力，以及强大的智能体和氛围编程 (vibe coding) 能力。

预览

Gemini 3 Flash

以远低于大型模型的成本，实现可与 Frontier 级模型相媲美的性能。

预览

Gemini 3.5 实时翻译

低延迟的实时语音转语音翻译模型，支持 70 多种语言。

新预览

Gemini 3.1 Flash Live

高品质、低延迟的 Live API 模型，适用于实时对话和语音优先 AI 应用。

新预览

Gemini 3.1 Flash TTS

强大的低延迟语音生成功能。

新预览

Gemini Omni Flash

快速生成和编辑视频，并支持对话式操作。将文字和图片转换为视频，并通过自然语言优化结果。

新预览

Gemini 2.5 Flash

在性价比方面表现出色的模型，适合需要推理的低延迟、高数据量任务。

Nano Banana

前沿的原生图片生成和编辑功能，旨在实现快速创意工作流。

Gemini 2.5 Flash Live 预览版

经过优化，可用于亚秒级原生音频流式传输的实时对话代理。

Gemini 2.5 Flash TTS 预览版

可控的文字转语音音频生成，可精细控制风格和语速。

Gemini 2.5 Flash-Lite

2.5 系列中最快且最经济实惠的多模态模型。

Gemini 2.5 Pro

Google 旗下最先进的模型，可用于处理复杂任务，具有深度推理和编码功能。

Gemini 2.5 Pro TTS 预览版

高保真语音合成，针对播客和有声读物等结构化工作流程中的质量进行了优化。

音频模型

此部分包含所有音频模型，包括可能已在其他部分列出的模型

Gemini 3.1 Flash Live 预览版

Google 的高品质低延迟音频转音频 (A2A) 模型，专为实时对话和语音优先 AI 应用而设计。

Gemini 3.1 Flash TTS 预览版

强大的低延迟语音生成能力，语音输出更自然，提示引导也更易实现，还新增了富有表现力的音频标记，可实现精准的旁白控制。

Gemini 2.5 Flash Live 预览版

我们的旗舰版 Live API 模型，适用于低延迟、双向语音和视频代理，具有原生音频推理功能。

Gemini 2.5 Flash TTS 预览版

快速且可控的文字转语音功能，适用于低延迟、经济实惠的应用和实时助理。

Gemini 2.5 Pro TTS 预览版

高保真语音合成，针对播客和有声读物等结构化工作流程中的质量进行了优化。

生成式媒体模型

此部分包含所有生成式媒体模型，包括可能已在其他部分列出的模型

Nano Banana 2

高效的生产级视觉内容创作，将 Gemini 3 系列的智能与极快的生成速度相结合。

Nano Banana 2 Lite

作为图像生成系列中的效率专家，可提供超低延迟且经济实惠的图像生成和编辑功能。

Veo 3.1 预览版

前沿电影级视频生成功能，支持高级创意控制和原生同步音频。

Nano Banana Pro

一款专业的设计引擎，具有推理核心，可实现录音室品质的 4K 视觉效果、复杂的布局和精准的文字渲染。

Veo 3.1 Lite 预览版

Veo 3.1 系列提供高效、低成本、开发者优先的视频生成、编辑和电影级控制功能。

Gemini Omni Flash 预览版

快速生成和编辑视频，并支持对话式操作。将文字和图片转换为视频，并通过自然语言优化结果。

Nano Banana

前沿的原生图片生成和编辑功能，专为快速创意工作流而设计。

Imagen 4 已弃用

文生图模型，具有快速和超快速生成功能，可生成清晰度高达 2K 的图片。

音乐创作模型

此部分包含所有音乐创作模型，包括可能已在其他部分中列出的模型

Lyria 3 Pro 预览版

Google 的旗舰版音乐创作模型，经过优化，可生成结构连贯复杂的完整歌曲。

Lyria 3 Clip 预览版

经过优化，可生成时长不超过 30 秒的短音乐片段、循环播放片段和预览片段。

Lyria RealTime 实验性

高保真音乐生成模型，可提供精细的创作控制和实时流式传输功能。

工具和代理模型

Computer Use 预览版

一种可以“看到”数字屏幕并执行点击、输入和导航等界面操作的专用模型，可自动执行复杂的浏览器任务。

Gemini Deep Research 预览版

一种智能体模型，可自主规划和执行跨数百个来源的多步研究，以生成注明引用来源的交互式报告。

Gemini Deep Research Max 预览版

可自动从数百个来源收集和整合上下文信息，实现最全面的信息覆盖。

Antigravity 智能体预览版

一种通用型托管式智能体，可在安全、隔离的 Linux 沙盒中自主规划、推理、运行代码、管理文件和浏览网页。

专业任务模型

Gemini Embedding 2

Google 的首款多模态嵌入模型，可将文本、图片、视频、音频和 PDF 映射到统一的嵌入空间中，以用于高级语义搜索和 RAG 系统。

Gemini Embedding

高维向量表示法，适用于高级语义搜索、文本分类和 RAG 系统。

Gemini Robotics-ER 1.6预览版

先进的具身推理模型，可理解物理空间并为机器人代理规划多步任务，还具备读取仪器、改进空间和物理推理等新功能。

之前的模型

Gemini 2.0 Flash 关机

我们的第二代主力模型，具备新一代特性和改进功能，包括卓越的速度、原生工具使用和 100 万个 token 的上下文窗口。

Gemini 2.0 Flash-Lite 关机

Google 速度最快的第二代模型，经过优化，提高了成本效益并缩短了延迟时间。

Gemini 3.1 Flash-Lite 预览版关闭

Google 最具成本效益的多模态模型，可为高频轻量级任务提供最快的性能。

Gemini 3 Pro 预览版关闭

我们前沿的推理模型，具有先进的多模态理解能力。

模型版本名称模式

Gemini 模型有稳定版、预览版、最新版或实验版。

稳定

指向特定的稳定模型。稳定模型通常不会发生变化。大多数正式版应用都应使用特定的稳定模型。

例如：gemini-3.5-flash。

预览

指向可用于生产的预览版模型。预览版模型通常会启用结算功能，可能具有更严格的速率限制，并且会在至少提前 2 周通知的情况下被弃用。

例如：gemini-2.5-flash-preview-09-2025。

实验性

指向实验性模型，该模型通常不适合用于生产环境，并且具有更严格的速率限制。我们会发布实验性模型，以便收集反馈并快速将最新更新提供给开发者。

实验性模型不稳定，模型端点的可用性可能会发生变化。

模型弃用

如需了解模型弃用，请访问 Gemini 弃用页面。