API Gemini có thể tạo đầu ra văn bản khi được cung cấp văn bản, hình ảnh, video và âm thanh làm dữ liệu đầu vào.
Hướng dẫn này cho bạn biết cách tạo văn bản bằng các phương thức generateContent
và streamGenerateContent
. Để tìm hiểu về cách sử dụng các tính năng hình ảnh và âm thanh của Gemini, hãy tham khảo hướng dẫn về Vision và Âm thanh.
Tạo văn bản từ dữ liệu đầu vào chỉ văn bản
Cách đơn giản nhất để tạo văn bản bằng API Gemini là cung cấp cho mô hình một đầu vào chỉ văn bản, như trong ví dụ sau:
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-1.5-flash:generateContent?key=$GOOGLE_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [{
"parts":[{"text": "Write a story about a magic backpack."}]
}]
}' 2> /dev/null
Trong trường hợp này, câu lệnh ("Giải thích cách hoạt động của AI") không bao gồm bất kỳ ví dụ đầu ra, hướng dẫn hệ thống hoặc thông tin định dạng nào. Đây là phương pháp không cần chụp ảnh. Đối với một số trường hợp sử dụng, lời nhắc một lần hoặc vài lần có thể tạo ra kết quả phù hợp hơn với kỳ vọng của người dùng. Trong một số trường hợp, bạn cũng nên cung cấp hướng dẫn hệ thống để giúp mô hình hiểu được nhiệm vụ hoặc tuân theo các nguyên tắc cụ thể.
Tạo văn bản từ dữ liệu đầu vào là văn bản và hình ảnh
API Gemini hỗ trợ phương thức nhập đa phương thức kết hợp văn bản với tệp phương tiện. Ví dụ sau đây cho biết cách tạo văn bản từ dữ liệu đầu vào văn bản và hình ảnh:
# Use a temporary file to hold the base64 encoded image data
TEMP_B64=$(mktemp)
trap 'rm -f "$TEMP_B64"' EXIT
base64 $B64FLAGS $IMG_PATH > "$TEMP_B64"
# Use a temporary file to hold the JSON payload
TEMP_JSON=$(mktemp)
trap 'rm -f "$TEMP_JSON"' EXIT
cat > "$TEMP_JSON" << EOF
{
"contents": [{
"parts":[
{"text": "Tell me about this instrument"},
{
"inline_data": {
"mime_type":"image/jpeg",
"data": "$(cat "$TEMP_B64")"
}
}
]
}]
}
EOF
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-1.5-flash:generateContent?key=$GOOGLE_API_KEY" \
-H 'Content-Type: application/json' \
-X POST \
-d "@$TEMP_JSON" 2> /dev/null
Giống như lời nhắc chỉ bằng văn bản, lời nhắc đa phương thức có thể bao gồm nhiều phương pháp và cách tinh chỉnh. Tuỳ thuộc vào kết quả của ví dụ này, bạn có thể muốn thêm các bước vào lời nhắc hoặc đưa ra hướng dẫn cụ thể hơn. Để tìm hiểu thêm, hãy xem phần Chiến lược nhắc nhập tệp.
Tạo luồng văn bản
Theo mặc định, mô hình sẽ trả về một phản hồi sau khi hoàn tất toàn bộ quá trình tạo văn bản. Bạn có thể đạt được các lượt tương tác nhanh hơn bằng cách không chờ toàn bộ kết quả mà thay vào đó, hãy sử dụng tính năng truyền trực tuyến để xử lý một phần kết quả.
Ví dụ sau đây cho biết cách triển khai tính năng truyền trực tuyến bằng phương thức streamGenerateContent
để tạo văn bản từ lời nhắc nhập chỉ văn bản.
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-1.5-flash:streamGenerateContent?alt=sse&key=${GOOGLE_API_KEY}" \
-H 'Content-Type: application/json' \
--no-buffer \
-d '{ "contents":[{"parts":[{"text": "Write a story about a magic backpack."}]}]}'
Xây dựng cuộc trò chuyện tương tác
SDK Gemini cho phép bạn thu thập nhiều vòng câu hỏi và câu trả lời, cho phép người dùng từng bước tìm ra câu trả lời hoặc yêu cầu trợ giúp về các vấn đề gồm nhiều phần. Tính năng SDK này cung cấp một giao diện để theo dõi nhật ký trò chuyện, nhưng ở hậu trường, tính năng này sử dụng cùng một phương thức generateContent
để tạo phản hồi.
Ví dụ về mã sau đây cho thấy cách triển khai tính năng trò chuyện cơ bản:
curl https://generativelanguage.googleapis.com/v1beta/models/gemini-1.5-flash:generateContent?key=$GOOGLE_API_KEY \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [
{"role":"user",
"parts":[{
"text": "Hello"}]},
{"role": "model",
"parts":[{
"text": "Great to meet you. What would you like to know?"}]},
{"role":"user",
"parts":[{
"text": "I have two dogs in my house. How many paws are in my house?"}]},
]
}' 2> /dev/null | grep "text"
Bật tính năng truyền trực tiếp cuộc trò chuyện
Bạn cũng có thể sử dụng tính năng phát trực tiếp kèm theo tính năng trò chuyện, như trong ví dụ sau:
curl https://generativelanguage.googleapis.com/v1beta/models/gemini-1.5-flash:streamGenerateContent?alt=sse&key=$GOOGLE_API_KEY \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [
{"role":"user",
"parts":[{
"text": "Hello"}]},
{"role": "model",
"parts":[{
"text": "Great to meet you. What would you like to know?"}]},
{"role":"user",
"parts":[{
"text": "I have two dogs in my house. How many paws are in my house?"}]},
]
}' 2> /dev/null | grep "text"
Định cấu hình tính năng tạo văn bản
Mỗi câu lệnh mà bạn gửi đến mô hình đều bao gồm các thông số kiểm soát cách mô hình tạo câu trả lời. Bạn có thể sử dụng GenerationConfig
để định cấu hình các tham số này. Nếu bạn không định cấu hình các tham số, mô hình sẽ sử dụng các tuỳ chọn mặc định, tuỳ theo mô hình.
Ví dụ sau đây cho thấy cách định cấu hình một số tuỳ chọn có sẵn.
curl https://generativelanguage.googleapis.com/v1beta/models/gemini-1.5-flash:generateContent?key=$GOOGLE_API_KEY \
-H 'Content-Type: application/json' \
-X POST \
-d '{
"contents": [{
"parts":[
{"text": "Write a story about a magic backpack."}
]
}],
"safetySettings": [
{
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_ONLY_HIGH"
}
],
"generationConfig": {
"stopSequences": [
"Title"
],
"temperature": 1.0,
"maxOutputTokens": 800,
"topP": 0.8,
"topK": 10
}
}' 2> /dev/null | grep "text"
stopSequences
chỉ định tập hợp các trình tự ký tự (tối đa 5) sẽ ngừng tạo đầu ra. Nếu được chỉ định, API sẽ dừng tại lần xuất hiện đầu tiên của stop_sequence
. Trình tự dừng sẽ không được đưa vào phản hồi.
temperature
kiểm soát tính ngẫu nhiên của kết quả. Sử dụng các giá trị cao hơn để có nhiều phản hồi sáng tạo hơn và các giá trị thấp hơn để có nhiều phản hồi có thể xác định hơn. Giá trị có thể nằm trong khoảng [0,0, 2,0].
maxOutputTokens
đặt số lượng mã thông báo tối đa để đưa vào một đề xuất.
topP
thay đổi cách mô hình chọn mã thông báo cho đầu ra. Các mã thông báo được chọn từ khả năng cao nhất đến khả năng thấp nhất cho đến khi tổng xác suất của các mã thông báo bằng giá trị topP
. Giá trị topP
mặc định là 0,95.
topK
thay đổi cách mô hình chọn mã thông báo cho đầu ra. topK
bằng 1 có nghĩa là mã thông báo được chọn là mã thông báo có nhiều khả năng nhất trong số tất cả các mã thông báo trong từ vựng của mô hình, trong khi topK
bằng 3 có nghĩa là mã thông báo tiếp theo được chọn trong số 3 mã thông báo có nhiều khả năng nhất bằng cách sử dụng nhiệt độ. Các mã thông báo được lọc thêm dựa trên topP
, trong đó mã thông báo cuối cùng được chọn bằng cách lấy mẫu nhiệt độ.
Thêm hướng dẫn hệ thống
Hướng dẫn hệ thống cho phép bạn điều hướng hành vi của một mô hình dựa trên các nhu cầu và trường hợp sử dụng cụ thể của bạn.
Bằng cách đưa ra hướng dẫn cho hệ thống mô hình, bạn cung cấp thêm ngữ cảnh cho mô hình để hiểu được nhiệm vụ, tạo ra các phản hồi được tuỳ chỉnh hơn và tuân thủ các nguyên tắc cụ thể trong toàn bộ quá trình tương tác của người dùng với mô hình. Bạn cũng có thể chỉ định hành vi cấp sản phẩm bằng cách đặt hướng dẫn hệ thống, tách biệt với lời nhắc do người dùng cuối cung cấp.
Bạn có thể đặt hướng dẫn hệ thống khi khởi chạy mô hình:
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-1.5-flash:generateContent?key=$GOOGLE_API_KEY" \
-H 'Content-Type: application/json' \
-d '{ "system_instruction": {
"parts":
{ "text": "You are a cat. Your name is Neko."}},
"contents": {
"parts": {
"text": "Hello there"}}}'
Để xem ví dụ tương tác toàn diện về cách sử dụng hướng dẫn hệ thống, hãy xem hướng dẫn hệ thống Colab.
Bước tiếp theo
Giờ đây, khi đã tìm hiểu thông tin cơ bản về API Gemini, bạn có thể thử:
- Tìm hiểu thị giác: Tìm hiểu cách sử dụng tính năng tìm hiểu thị giác gốc của Gemini để xử lý hình ảnh và video.
- Tìm hiểu âm thanh: Tìm hiểu cách sử dụng tính năng tìm hiểu âm thanh gốc của Gemini để xử lý tệp âm thanh.