探索 Gemini API 的视觉功能

<ph type="x-smartling-placeholder"></ph>

Gemini API 可以对传递给它的图片和视频进行推理。通过后 图片、一系列图片或视频,Gemini 可以:

  • 描述或回答与内容相关的问题
  • 总结内容
  • 根据内容推断

本教程演示了向 Gemini API 提示的一些可能方式, 图片和视频输入。所有输出均为纯文本。

后续步骤

本指南介绍了如何使用 generateContent和 根据图片和视频输入生成文本输出。如需了解详情, 请参阅以下资源:

  • 提示使用媒体文件: Gemini API 支持根据文本、图片、音频和视频数据生成提示,还支持 称为多模态提示。
  • 系统说明:系统 可让您根据自己的具体使用偏好, 需求和用例。
  • 安全指南:有时是生成式 AI 模型会产生意外的输出,例如不准确、 有偏见或令人反感的内容。后期处理和人工评估对于 以限制此类输出造成伤害的风险。