“依托 Google 搜索进行接地”功能现已推出!
了解详情
探索 Gemini API 的视觉功能
Gemini API 能够处理图片和视频,支持开发者实现各种令人兴奋的用例。Gemini 的视觉功能包括:
- 为图片添加文字说明并回答有关图片的问题
- 转写和推理 PDF,包括长文档(上下文窗口高达 200 万个 token)
- 描述、细分和提取视频中的信息,包括长达 90 分钟的视频画面和音频
- 检测图片中的对象并返回其边界框坐标
本教程演示了使用图片和视频输入向 Gemini API 提示的一些可能方法,提供了代码示例,并简要介绍了使用多模态视觉功能提示的最佳实践。所有输出均为文本。
后续步骤
本指南介绍了如何使用 File API 上传图片和视频文件,然后根据图片和视频输入生成文本输出。如需了解详情,请参阅以下资源:
- 文件提示策略:Gemini API 支持使用文本、图片、音频和视频数据进行提示,也称为多模式提示。
- 系统说明:借助系统说明,您可以根据自己的特定需求和使用情形来控制模型的行为。
- 安全指南:生成式 AI 模型有时会生成意外的输出,例如不准确、有偏见或令人反感的输出。后处理和人工评估对于限制此类输出造成伤害的风险至关重要。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2024-11-28。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2024-11-28。"],[],[]]