API Gemini может генерировать текстовый вывод, если в качестве входных данных предоставляются текст, изображения, видео и аудио.
В этом руководстве показано, как генерировать текст с помощью generateContent
streamGenerateContent
. Чтобы узнать о работе с видео- и аудиовозможностями Gemini, обратитесь к руководствам Vision и Audio .
Генерировать текст из текстового ввода
Самый простой способ сгенерировать текст с помощью API Gemini — предоставить модели один текстовый ввод, как показано в этом примере:
import google.generativeai as genai
genai.configure(api_key="GEMINI_API_KEY")
model = genai.GenerativeModel("gemini-1.5-flash")
response = model.generate_content("How does AI work?")
print(response.text)
В этом случае подсказка («Объясните, как работает искусственный интеллект») не содержит примеров вывода, системных инструкций или информации о форматировании. Это беспроигрышный подход. В некоторых случаях использование одноразового или нескольких подсказок может привести к выводу, который в большей степени соответствует ожиданиям пользователя. В некоторых случаях вам также может потребоваться предоставить системные инструкции , которые помогут модели понять задачу или следовать конкретным рекомендациям.
Генерация текста из ввода текста и изображения
API Gemini поддерживает мультимодальные входные данные, объединяющие текстовые и мультимедийные файлы. В следующем примере показано, как генерировать текст из ввода текста и изображения:
import google.generativeai as genai
import PIL.Image
genai.configure(api_key="GEMINI_API_KEY")
model = genai.GenerativeModel("gemini-1.5-flash")
organ = PIL.Image.open("/path/to/organ.png")
response = model.generate_content(["Tell me about this instrument", organ])
print(response.text)
Создать текстовый поток
По умолчанию модель возвращает ответ после завершения всего процесса генерации текста. Вы можете добиться более быстрого взаимодействия, не дожидаясь получения всего результата и вместо этого используя потоковую передачу для обработки частичных результатов.
В следующем примере показано, как реализовать потоковую передачу с помощью streamGenerateContent
для создания текста из приглашения для ввода только текста.
import google.generativeai as genai
genai.configure(api_key="GEMINI_API_KEY")
model = genai.GenerativeModel("gemini-1.5-flash")
response = model.generate_content("Explain how AI works", stream=True)
for chunk in response:
print(chunk.text, end="")
Создать беседу в чате
Gemini SDK позволяет собирать несколько раундов вопросов и ответов, позволяя пользователям постепенно приближаться к ответам или получать помощь при решении сложных проблем. Эта функция SDK предоставляет интерфейс для отслеживания истории разговоров, но «за кулисами» используется тот же generateContent
для создания ответа.
В следующем примере кода показана базовая реализация чата:
import google.generativeai as genai
genai.configure(api_key="GEMINI_API_KEY")
model = genai.GenerativeModel("gemini-1.5-flash")
chat = model.start_chat(
history=[
{"role": "user", "parts": "Hello"},
{"role": "model", "parts": "Great to meet you. What would you like to know?"},
]
)
response = chat.send_message("I have 2 dogs in my house.")
print(response.text)
response2 = chat.send_message("How many paws are in my house?")
print(response2.text)
Вы также можете использовать потоковую передачу с чатом, как показано в следующем примере:
import google.generativeai as genai
genai.configure(api_key="GEMINI_API_KEY")
model = genai.GenerativeModel("gemini-1.5-flash")
chat = model.start_chat(
history=[
{"role": "user", "parts": "Hello"},
{"role": "model", "parts": "Great to meet you. What would you like to know?"},
]
)
response = chat.send_message("I have 2 dogs in my house.", stream=True)
for chunk in response:
print(chunk.text, end="")
response2 = chat.send_message("How many paws are in my house?", stream=True)
for chunk in response2:
print(chunk.text, end="")
print(chat.history)
Настроить генерацию текста
Каждое приглашение, которое вы отправляете модели, включает параметры, управляющие тем, как модель генерирует ответы. Вы можете использовать GenerationConfig
для настройки этих параметров. Если вы не настраиваете параметры, модель использует параметры по умолчанию, которые могут различаться в зависимости от модели.
В следующем примере показано, как настроить несколько доступных параметров.
import google.generativeai as genai
genai.configure(api_key="GEMINI_API_KEY")
model = genai.GenerativeModel("gemini-1.5-flash")
response = model.generate_content(
"Explain how AI works",
generation_config = genai.GenerationConfig(
max_output_tokens=1000,
temperature=0.1,
)
)
print(response.text)
Что дальше
Теперь, когда вы изучили основы API Gemini, вы можете попробовать:
- Понимание зрения : узнайте, как использовать встроенное понимание зрения Gemini для обработки изображений и видео.
- Распознавание звука : узнайте, как использовать встроенную функцию распознавания звука Gemini для обработки аудиофайлов.