探索 Gemini API 的视觉功能

在 ai.google.dev 上查看 在 Google Colab 中运行 在 GitHub 上查看源代码

Gemini API 可以对传递给它的图片和视频进行推理。向 Gemini 传递图片、一系列图片或视频后,可以:

  • 描述或回答与内容相关的问题
  • 总结内容
  • 根据内容推断

本教程演示了向 Gemini API 发出图片和视频输入提示的一些可能方法。所有输出均为纯文本。

后续步骤

本指南介绍了如何使用 generateContent 以及如何根据图片和视频输入生成文本输出。如需了解详情,请参阅以下资源:

  • 使用媒体文件进行提示:Gemini API 支持使用文本、图片、音频和视频数据进行提示,也称为多模态提示。
  • 系统指令:借助系统指令,您可以根据自己的特定需求和用例来引导模型的行为。
  • 安全指南:有时,生成式 AI 模型会生成意外输出,例如不准确、有偏差或令人反感的输出。后期处理和人工评估对于限制此类输出造成伤害的风险至关重要。