Gemini API สามารถสร้างเอาต์พุตข้อความได้เมื่อระบุข้อความ รูปภาพ วิดีโอ และเสียงเป็นอินพุต
คู่มือนี้จะแสดงวิธีสร้างข้อความโดยใช้เมธอด generateContent
และ streamGenerateContent
หากต้องการดูข้อมูลเกี่ยวกับความสามารถในการทำงานกับภาพและเสียงของ Gemini ให้อ่านคู่มือVisionและเสียง
สร้างข้อความจากการป้อนข้อความเท่านั้น
วิธีที่ง่ายที่สุดในการสร้างข้อความโดยใช้ Gemini API คือการให้อินพุตแบบข้อความเท่านั้นรายการเดียวแก่โมเดล ดังที่แสดงในตัวอย่างต่อไปนี้
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash",
contents=["How does AI work?"])
print(response.text)
ในกรณีนี้พรอมต์ ("อธิบายวิธีการทำงานของ AI") จะไม่มีตัวอย่างเอาต์พุต วิธีการของระบบ หรือข้อมูลการจัดรูปแบบ การถ่ายภาพแบบไม่มีตัวอย่าง สําหรับ Use Case บางรายการ พรอมต์แบบคำเดียวหรือแบบไม่กี่คำอาจให้ผลลัพธ์ที่สอดคล้องกับความคาดหวังของผู้ใช้มากกว่า ในบางกรณี คุณอาจต้องระบุคำสั่งของระบบด้วย เพื่อช่วยให้โมเดลเข้าใจงานหรือทำตามหลักเกณฑ์ที่เฉพาะเจาะจง
สร้างข้อความจากอินพุตข้อความและรูปภาพ
Gemini API รองรับอินพุตแบบหลายรูปแบบที่รวมไฟล์ข้อความและสื่อ ตัวอย่างต่อไปนี้แสดงวิธีสร้างข้อความจากอินพุตข้อความและรูปภาพ
from PIL import Image
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
image = Image.open("/path/to/organ.png")
response = client.models.generate_content(
model="gemini-2.0-flash",
contents=[image, "Tell me about this instrument"])
print(response.text)
สร้างสตรีมข้อความ
โดยค่าเริ่มต้น โมเดลจะแสดงคำตอบหลังจากดำเนินการสร้างข้อความทั้งหมดเสร็จสมบูรณ์ คุณสามารถโต้ตอบได้เร็วขึ้นโดยไม่ต้องรอผลลัพธ์ทั้งหมด และใช้การสตรีมเพื่อจัดการผลลัพธ์บางส่วนแทน
ตัวอย่างต่อไปนี้แสดงวิธีใช้การสตรีมโดยใช้เมธอด streamGenerateContent
เพื่อสร้างข้อความจากพรอมต์การป้อนข้อความเท่านั้น
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content_stream(
model="gemini-2.0-flash",
contents=["Explain how AI works"])
for chunk in response:
print(chunk.text, end="")
สร้างการสนทนาใน Chat
Gemini SDK ช่วยให้คุณรวบรวมคำถามและคำตอบได้หลายรอบ ซึ่งช่วยให้ผู้ใช้สามารถค้นหาคำตอบหรือรับความช่วยเหลือเกี่ยวกับปัญหาแบบหลายส่วนได้ ฟีเจอร์ SDK นี้มีอินเทอร์เฟซสำหรับติดตามประวัติการสนทนา แต่เบื้องหลังจะใช้generateContent
วิธีเดียวกันในการสร้างคำตอบ
ตัวอย่างโค้ดต่อไปนี้แสดงการใช้งานแชทพื้นฐาน
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
chat = client.chats.create(model="gemini-2.0-flash")
response = chat.send_message("I have 2 dogs in my house.")
print(response.text)
response = chat.send_message("How many paws are in my house?")
print(response.text)
for message in chat._curated_history:
print(f'role - ', message.role, end=": ")
print(message.parts[0].text)
นอกจากนี้ คุณยังใช้การสตรีมร่วมกับแชทได้ด้วย ดังที่แสดงในตัวอย่างต่อไปนี้
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
chat = client.chats.create(model="gemini-2.0-flash")
response = chat.send_message_stream("I have 2 dogs in my house.")
for chunk in response:
print(chunk.text, end="")
response = chat.send_message_stream("How many paws are in my house?")
for chunk in response:
print(chunk.text, end="")
for message in chat._curated_history:
print(f'role - ', message.role, end=": ")
print(message.parts[0].text)
กำหนดค่าการสร้างข้อความ
พรอมต์ทุกรายการที่คุณส่งไปยังโมเดลจะมีพารามิเตอร์ที่ควบคุมวิธีที่โมเดลสร้างคำตอบ คุณใช้ GenerationConfig
เพื่อกําหนดค่าพารามิเตอร์เหล่านี้ได้ หากคุณไม่ได้กําหนดค่าพารามิเตอร์ โมเดลจะใช้ตัวเลือกเริ่มต้น ซึ่งอาจแตกต่างกันไปตามโมเดล
ตัวอย่างต่อไปนี้แสดงวิธีกำหนดค่าตัวเลือกที่มีหลายรายการ
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash",
contents=["Explain how AI works"],
config=types.GenerateContentConfig(
max_output_tokens=500,
temperature=0.1
)
)
print(response.text)
เพิ่มวิธีการของระบบ
คำสั่งของระบบช่วยให้คุณควบคุมลักษณะการทํางานของโมเดลตามความต้องการและกรณีการใช้งานที่เฉพาะเจาะจง
การให้คําแนะนําระบบโมเดลเป็นการให้บริบทเพิ่มเติมแก่โมเดลเพื่อให้เข้าใจงาน สร้างคําตอบที่กําหนดเองมากขึ้น และปฏิบัติตามหลักเกณฑ์ที่เฉพาะเจาะจงตลอดการโต้ตอบของผู้ใช้กับโมเดล นอกจากนี้ คุณยังระบุลักษณะการทํางานระดับผลิตภัณฑ์ได้ด้วยการตั้งค่าวิธีการของระบบแยกจากพรอมต์ที่ผู้ใช้ปลายทางระบุ
คุณตั้งค่าคำสั่งของระบบได้เมื่อเริ่มต้นโมเดล ดังนี้
sys_instruct="You are a cat. Your name is Neko."
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash",
config=types.GenerateContentConfig(
system_instruction=sys_instruct),
contents=["your prompt here"]
)
จากนั้นคุณจะส่งคำขอไปยังโมเดลได้ตามปกติ
ดูตัวอย่างแบบอินเทอร์แอกทีฟจากต้นทางถึงปลายทางของการใช้วิธีการของระบบได้ที่ system instructions colab
ขั้นตอนถัดไป
เมื่อได้สำรวจข้อมูลเบื้องต้นเกี่ยวกับ Gemini API แล้ว คุณอาจลองทำสิ่งต่อไปนี้
- การทำความเข้าใจภาพ: ดูวิธีใช้การทำความเข้าใจภาพแบบเนทีฟของ Gemini เพื่อประมวลผลรูปภาพและวิดีโอ
- การทำความเข้าใจเสียง: ดูวิธีใช้การทำความเข้าใจเสียงในตัวของ Gemini เพื่อประมวลผลไฟล์เสียง