Nhóm mô hình trí tuệ nhân tạo (AI) Gemini được xây dựng để xử lý nhiều loại dữ liệu đầu vào, bao gồm văn bản, hình ảnh và âm thanh. Vì những các mô hình có thể xử lý nhiều loại hoặc chế độ dữ liệu, thì mô hình Gemini được gọi là mô hình đa phương thức hay được giải thích là có khả năng đa phương thức.
Trang này cung cấp hướng dẫn và các phương pháp hay nhất để sử dụng tệp đa phương tiện với các câu lệnh cho Gemini API. Để biết thông tin về cách sử dụng Gemini Files API cho tải các tệp đa phương tiện lên và đưa chúng vào câu lệnh của bạn, hãy xem Tầm nhìn, Âm thanh và Hướng dẫn Xử lý tài liệu.
Dùng tệp nội dung nghe nhìn với câu lệnh
Việc có thể sử dụng nhiều loại dữ liệu trong câu lệnh sẽ giúp bạn tính linh hoạt trong những công việc mà bạn có thể giải quyết bằng Gemini API. Cho ví dụ: bạn có thể gửi cho mô hình ảnh chụp một bữa ăn ngon và yêu cầu mô hình đó viết một blog ngắn về bữa ăn.
Câu lệnh | Đáp |
Viết một bài đăng ngắn và hấp dẫn trên blog dựa trên bức ảnh này. Phải thêm nội dung mô tả về bữa ăn trong ảnh và nói về hành trình của tôi chuẩn bị bữa ăn. |
Chuẩn bị bữa ăn là một cách tuyệt vời để tiết kiệm thời gian và tiền bạc, đồng thời nó cũng có thể giúp bạn ăn uống lành mạnh hơn. Bữa ăn này là ví dụ tuyệt vời về một bữa ăn lành mạnh và ngon miệng có thể dễ dàng được chuẩn bị trước. Bữa ăn này có cơm lứt, rau củ nướng và sốt teriyaki gà. Gạo lứt là một loại carbohydrate lành mạnh và phức tạp sẽ cung cấp cho bạn năng lượng bền vững. Rau củ nướng là cách tuyệt vời để bạn ăn uống mỗi ngày vitamin và khoáng chất, và sốt teriyaki gà là một món ăn ngon thức ăn giàu protein. Món này cũng rất dễ chế biến. Chỉ cần nấu gạo lứt, rang rau củ và nấu món sốt teriyaki gà. Sau khi nấu xong mọi thứ, chia thành các hộp đựng thức ăn chuẩn bị sẵn rồi bảo quản trong tủ lạnh. Sau đó, bạn có thể lấy một chiếc hộp đựng và bắt đầu những buổi sáng bận rộn! Nếu bạn đang tìm kiếm một bữa ăn lành mạnh, ngon lành có thể dễ dàng được chuẩn bị trước, bữa ăn này là một lựa chọn tuyệt vời. Trong đó có rất nhiều chất dinh dưỡng và hương vị và món ăn này chắc chắn sẽ giúp bạn cảm thấy đầy đủ và hài lòng. Sau đây là phần chuẩn bị bữa ăn lành mạnh và ngon lành! |
Chiến lược nhắc bằng nội dung nghe nhìn
Nếu bạn gặp khó khăn trong việc nhận kết quả mong muốn từ những câu lệnh sử dụng tệp đa phương tiện, có một số chiến lược có thể giúp bạn đạt được kết quả mong muốn muốn. Các phần sau đây cung cấp phương pháp thiết kế và cách khắc phục sự cố các mẹo cải thiện những câu lệnh sử dụng phương thức nhập đa phương thức.
Bạn có thể cải thiện các câu lệnh đa phương thức bằng cách làm theo các phương pháp hay nhất sau đây:
-
Kiến thức cơ bản về thiết kế câu lệnh
- Trình bày cụ thể trong chỉ dẫn: Soạn hướng dẫn rõ ràng và súc tích, không để người dùng hiểu sai.
- Thêm một vài ví dụ vào câu lệnh của bạn: Sử dụng các ví dụ thực tế chỉ dựa trên thực tế để minh hoạ mục tiêu bạn muốn đạt được.
- Chia nhỏ từng bước: Chia các công việc phức tạp thành các mục tiêu phụ dễ quản lý nhằm hướng dẫn mô hình xuyên suốt quy trình này.
- Chỉ định định dạng đầu ra: Trong câu lệnh của bạn, hãy yêu cầu đầu ra ở định dạng bạn muốn, chẳng hạn như Markdown, JSON, HTML, v.v.
- Đặt hình ảnh lên trước cho những câu lệnh chỉ có một hình ảnh: Mặc dù Gemini có thể xử lý các câu lệnh dạng hình ảnh và văn bản theo bất kỳ thứ tự nào, nhưng đối với những câu lệnh chứa một hình ảnh duy nhất, Gemini có thể hoạt động hiệu quả hơn nếu bạn đặt hình ảnh đó trước câu lệnh dạng văn bản.
-
Khắc phục sự cố cho câu lệnh đa phương thức
- Nếu mô hình không vẽ thông tin từ phần có liên quan của hình ảnh: Hãy thả gợi ý về các khía cạnh của hình ảnh mà bạn muốn câu lệnh lấy thông tin.
- Nếu kết quả mô hình quá chung chung (chưa đủ phù hợp với hình ảnh): Khi bắt đầu câu lệnh, hãy thử yêu cầu mô hình mô tả(các) hình ảnh trước khi đưa ra hướng dẫn nhiệm vụ hoặc thử yêu cầu mô hình tham chiếu đến nội dung trong hình ảnh.
Nguyên tắc cơ bản về thiết kế câu lệnh
Phần này mở rộng các phương pháp hay nhất được liệt kê trong phần trước.
Lưu ý: Kết quả lập mô hình từ các ví dụ về Gemini sau đây có thể khác nhau giữa các lần chạy.
Hãy nêu cụ thể trong chỉ dẫn của bạn
Câu lệnh hiệu quả nhất khi rõ ràng và chi tiết. Nếu đã có một kết quả cụ thể, bạn nên đưa yêu cầu đó vào lời nhắc để đảm bảo nhận được kết quả mong muốn.
Đôi khi, ý định của câu lệnh có vẻ rõ ràng đối với người viết câu lệnh, nhưng thực ra lại không được chỉ định rõ ràng. Để tuỳ chỉnh hoạt động của mô hình, hãy cân nhắc xem câu lệnh của bạn có thể bị diễn giải (sai) như thế nào, đồng thời đảm bảo rằng hướng dẫn bạn đưa ra cụ thể và rõ ràng. Đừng quên chừa ra một khoảng trống nhỏ để người dùng hiểu sai
Đối với hình ảnh bảng máy bay tại sân bay này, hãy yêu cầu mô hình chỉ "mô tả hình ảnh này" có thể tạo ra nội dung mô tả chung. Nếu cần mô hình phân tích cú pháp thời gian và thành phố trong hình ảnh, bạn có thể đưa trực tiếp yêu cầu đó vào câu lệnh của mình.
Câu lệnh | Phản hồi của mô hình |
---|---|
Mô tả hình ảnh này. |
Hình ảnh thể hiện bảng thông tin về chuyến bay đến và đi của sân bay. |
Câu lệnh đã cập nhật | Cải thiện câu trả lời |
---|---|
Phân tích cú pháp thời gian và thành phố từ bảng thông tin sân bay hiển thị trong hình ảnh này thành một danh sách. |
Thêm một vài ví dụ
Mô hình Gemini có thể chấp nhận nhiều thông tin đầu vào và có thể dùng làm ví dụ để hiểu rõ đầu ra mà bạn muốn. Việc thêm những ví dụ này có thể giúp mô hình này xác định các quy luật và áp dụng mối quan hệ giữa hình ảnh đã cho và câu trả lời trong ví dụ mới. Quá trình này còn được gọi là "một vài cảnh" học tập.
Trong ví dụ dưới đây, kết quả ban đầu được viết ở dạng câu và cũng chứa giá trị quốc gia (Brazil). Giả sử bạn muốn dữ liệu đầu ra ở một định dạng hoặc kiểu khác và bạn muốn thành phố chứ không phải quốc gia. Việc thêm các ví dụ vài lần vào câu lệnh của bạn có thể giúp định hướng cho mô hình để phản hồi theo cách bạn muốn.
Câu lệnh | Phản hồi của mô hình |
---|---|
Xác định thành phố dọc theo địa danh. |
Địa danh là tượng Chúa Cứu thế ở thành phố Rio de Janeiro, Brazil. |
Câu lệnh đã cập nhật | Cải thiện câu trả lời |
---|---|
Xác định thành phố dọc theo địa danh. |
thành phố: Rome, địa danh: Đấu trường La Mã. |
thành phố: Bắc Kinh, địa danh: Tử Cấm Thành |
|
thành phố: Rio de Janeiro, địa danh: tượng Chúa Cứu thế |
Chia nhỏ từng bước
Đối với những nhiệm vụ phức tạp như những nhiệm vụ đòi hỏi cả hiểu hình ảnh và lý luận, tính năng này có thể hữu ích để chia công việc thành các bước nhỏ hơn, đơn giản hơn. Ngoài ra, phương pháp này cũng có thể hiệu quả nếu bạn trực tiếp yêu cầu mô hình đó "nghĩ từng bước" trong câu lệnh của bạn.
Câu lệnh | Phản hồi của mô hình |
---|---|
Khi nào tôi sẽ hết giấy vệ sinh? |
Sắp tới, bạn chỉ còn 3 lần tung. |
Câu lệnh đã cập nhật | Cải thiện câu trả lời |
---|---|
|
|
Các bài toán hoặc các dạng bài toán đố khác là những bài toán rất phù hợp để yêu cầu mô hình tư duy theo từng bước.
Câu lệnh | Đáp |
---|---|
Số hạng thứ 4 trong dãy số là gì? |
-135 |
Phản hồi từ mô hình không chính xác. Một số cách để cải thiện việc này là yêu cầu mô hình phân tích cú pháp vấn đề trước khi trả lời câu lệnh.
Câu lệnh | Đáp |
---|---|
Trước tiên, hãy phân tích cú pháp công thức trong hình ảnh này. Sau đó dựa vào công thức, hãy trả lời "số hạng thứ 4 trong dãy là gì?". |
Nhấp để mở rộng kết quả$$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ Do đó, số hạng thứ 4 trong dãy là -405. |
Câu trả lời này của mô hình là chính xác. Giờ đây, để làm cho câu trả lời đơn giản hơn, bạn có thể yêu cầu mô hình suy nghĩ theo từng bước.
Câu lệnh đã cập nhật | Cải thiện câu trả lời |
---|---|
Số hạng thứ 4 trong dãy số là gì? Hãy suy nghĩ theo từng bước. |
Số hạng đầu tiên là 15. Số hạng thứ hai là b(1) * (-3) = 15 * (-3) = -45. Số hạng thứ ba là b(2) * (-3) = -45 * (-3) = 135. Số hạng thứ tư là b(3) * (-3) = 135 * (-3) = -405. |
Hãy thử chỉ định định dạng đầu ra
Một vấn đề phổ biến là đầu ra của mô hình cần phải ở một định dạng nhất định (ví dụ: Markdown, JSON, HTML), đặc biệt là khi đầu ra của mô hình cần phải được nhập bởi tác vụ hạ nguồn. Bạn có thể cố gắng tạo kết quả ở định dạng đó bằng cách hướng dẫn mô hình làm như vậy trong câu lệnh. Dưới đây là hai ví dụ:
Câu lệnh | Phản hồi của mô hình |
---|---|
Phân tích cú pháp bảng trong hình ảnh này thành định dạng Markdown |
| Tiêu đề | Trạng thái | Thời gian | Ngày bắt đầu | Ngày đến hạn | | ------- | ------ | ---- | --------- | ------ | | Toán học | Xong | 1,5 giờ | 29/11/2023 | 1/12/2023 | | Địa lý | Xong | 30 phút | 2/12/2023 | 4/12/2023 | | Vật lý | Đang tiến hành | 2 giờ | 3/12/2023 | 5/12/2023 | | Sinh học | Chưa bắt đầu | 6 giờ | 2/11/2016 | 6/12/2023 | |
Câu lệnh | Phản hồi của mô hình |
---|---|
Cung cấp danh sách tất cả các thuộc tính sau đây: nguyên liệu, loại món ăn, ăn chay hoặc không, ở định dạng JSON |
|
Đặt hình ảnh của bạn lên đầu tiên cho các lời nhắc chỉ có một hình ảnh
Mặc dù Gemini có thể diễn giải hình ảnh và văn bản theo thứ tự bất kỳ trong câu lệnh, nhưng hãy đặt một hình ảnh duy nhất trước khi lời nhắc qua văn bản có thể mang lại kết quả tốt hơn. Trong các mẫu sau, bạn sẽ thấy hình ảnh xuất hiện trước nội dung trong mỗi câu lệnh.
Khắc phục sự cố với câu lệnh đa phương thức
Bạn có thể cần phải khắc phục sự cố cho câu lệnh của mình nếu không nhận được câu trả lời hữu ích. Dưới đây là một vài chiến lược bạn có thể thử.
Nếu mô hình không lấy thông tin từ phần có liên quan của hình ảnh
Để nhận được câu trả lời cụ thể hơn, bạn có thể chỉ ra khía cạnh của hình ảnh mà bạn muốn nhận được câu lệnh lấy thông tin từ để cung cấp thông tin phản hồi.
Câu lệnh | Phản hồi của mô hình |
---|---|
Tã này sẽ dùng được cho em bé trong bao nhiêu ngày? |
Tã sẽ tồn tại trong 198 ngày trước khi hết. |
Câu lệnh đã cập nhật | Cải thiện câu trả lời |
---|---|
Tã lót này sẽ dùng được bao lâu trước khi tôi hết? Sử dụng trọng lượng hiển thị trên hộp để xác định tuổi của trẻ và sử dụng tổng số tã có trong hộp. Chia tổng số cho số lượng tã mà trẻ trải qua mỗi ngày. |
Hộp có 198 tã. Hộp có ghi rõ tã dành cho trẻ nặng 22-37 pao. Trẻ em trung bình trong khoảng cân nặng này có khả năng từ 1 đến 2 tuổi. Một đứa trẻ 2 tuổi thường trải qua 6 tã mỗi ngày, do đó, tã sẽ kéo dài khoảng 33 ngày (198/6). |
Nếu đầu ra mô hình quá chung chung và không đủ phù hợp với đầu vào hình ảnh
Để giúp mô hình điều chỉnh phản hồi cho phù hợp với(các) hình ảnh, hãy thử yêu cầu mô hình mô tả hình ảnh trước khi thực hiện nhiệm vụ lập luận.
Câu lệnh | Phản hồi của mô hình |
---|---|
Điểm chung giữa những hình ảnh này là gì? |
Cả 4 hình ảnh đều là ví dụ về ảnh phong cảnh. |
Câu lệnh đã cập nhật | Cải thiện câu trả lời |
---|---|
Đầu tiên, hãy mô tả chi tiết nội dung trong mỗi hình ảnh. Điểm chung giữa những hình ảnh này là gì? |
Hình ảnh đầu tiên là một người đang đóng gói vali. Hình ảnh thứ hai là hành lang trống trong một trung tâm mua sắm. Hình ảnh thứ ba cho thấy một cuộn giấy vệ sinh. Hình ảnh thứ tư cho thấy biển tối và bão bão. Điểm chung giữa những hình ảnh này là chúng đều là ví dụ về không gian tối giản. Không gian ước chừng là những địa điểm hoặc tình huống nằm giữa hai địa điểm hoặc tình huống khác. Chúng thường có đặc điểm là không chắc chắn hoặc không rõ ràng. Hình ảnh đầu tiên cho thấy một người đang ở nhà và đang đi du lịch. Hình ảnh thứ hai là hành lang giữa hai cửa hàng. Hình ảnh thứ ba là giấy vệ sinh, có thể tượng trưng cho một phòng tắm. Phòng tắm là không gian chuyển tiếp giữa không gian riêng tư và lĩnh vực công cộng. Đó là nơi chúng ta chuẩn bị bước vào hoặc rời khỏi thế giới bên ngoài. Hình ảnh thứ tư cho thấy biển ở giữa bình lặng và bão. Không gian gần gũi có thể vừa thú vị vừa đáng lo ngại. Chúng có thể là nơi có sự bắt đầu mới hoặc nơi kết thúc. Nội dung có thể là một nơi suy ngẫm hoặc một nơi hành động. |
Bạn cũng có thể thử yêu cầu mô hình một cách rõ ràng tham chiếu đến nội dung trong hình ảnh.
Câu lệnh đã cập nhật | Cải thiện câu trả lời |
---|---|
Điểm chung giữa những hình ảnh này là gì? Tham khảo nội dung trong các hình ảnh trong câu trả lời của bạn. |
Tất cả hình ảnh này đều liên quan đến du lịch. Hình ảnh đầu tiên là một người đang đóng gói vali, hình ảnh thứ hai cho thấy hành lang trống trong một trung tâm mua sắm, hình ảnh thứ ba cho thấy một chồng giấy vệ sinh và hình ảnh thứ tư cho thấy biển tối đen bão bùng. Tất cả những hình ảnh này đều liên quan đến du lịch vì chúng là tất cả những thứ mà mọi người cần hoặc sử dụng khi họ đi du lịch. Hình ảnh đầu tiên là một người đang đóng gói vali. Đây là hành động mà mọi người thường làm khi sắp xếp hành lý khi đang thực hiện một chuyến đi. Hình ảnh thứ hai cho thấy hành lang trống rỗng trong một trung tâm mua sắm, nơi mọi người thường tìm mua đồ cho chuyến đi của mình. Hình ảnh thứ ba cho thấy một chồng giấy vệ sinh, đó là mà mọi người thường sử dụng khi đi du lịch. Hình ảnh thứ tư cho thấy biển tối và bão bão, thứ mà mọi người thường gặp khi đi du lịch. |
Các mẹo tương tự cũng áp dụng cho sản phẩm sáng tạo từ hình ảnh. Trong ví dụ sau với chú thỏ, việc yêu cầu mô hình bao gồm các khía cạnh từ hình ảnh một cách rõ ràng có thể cải thiện kết quả.
Câu lệnh | Phản hồi của mô hình |
---|---|
Bạn có thể viết cho tôi một bài thơ về hình ảnh này không? |
Chú thỏ nhỏ, rất mềm và nâu, Bạn gặm cỏ, thật xanh và ngọt ngào, |
Câu lệnh đã cập nhật | Cải thiện câu trả lời |
---|---|
Bạn có thể viết cho tôi một bài thơ mang tính mô tả và kịch tính về hình ảnh này kèm theo thông tin về vị trí không? |
Chú thỏ nhỏ trên xanh lục, Đó có phải là màu xanh đại dương không, Thỏ nhỏ, nói thật đi, Có thể là do sức bao hàm của chúng, Thỏ nhỏ, không biết bạn mơ ước gì, Dù là gì, bạn thỏ nhỏ nào! |
Khắc phục vấn đề không thực hiện được phần nào của câu lệnh
Có thể khó biết được liệu một câu lệnh có thành công hay không do mô hình không hiểu hình ảnh khi bắt đầu hoặc liệu có hiểu hình ảnh nhưng không thực hiện các bước lập luận chính xác sau đó.
Để phân biệt những lý do đó, hãy yêu cầu mô hình mô tả nội dung trong hình ảnh.
Trong ví dụ dưới đây, nếu mô hình phản hồi bằng một món ăn vặt có vẻ bất ngờ khi đi đôi với (ví dụ: bỏng ngô), trước tiên bạn có thể khắc phục sự cố để xác định xem mô hình có được nhận dạng chính xác không mà hình ảnh có chứa trà.
Câu lệnh | Lời nhắc khắc phục sự cố |
---|---|
Tôi có thể làm món ăn vặt nào trong 1 phút mà hợp lý với việc này nhỉ? |
Mô tả nội dung trong hình ảnh này. |
Một chiến lược khác là yêu cầu mô hình giải thích lý do của nó. Điều này có thể giúp bạn thu hẹp phần nào của nguyên nhân gây ra vấn đề, nếu có.
Câu lệnh | Lời nhắc khắc phục sự cố |
---|---|
Tôi có thể làm món ăn vặt nào trong 1 phút mà hợp lý với việc này nhỉ? |
Tôi có thể làm món ăn vặt nào trong 1 phút mà hợp lý với việc này nhỉ? Vui lòng giải thích lý do. |
Điều chỉnh tham số lấy mẫu
Trong mỗi yêu cầu, không chỉ lời nhắc đa phương thức mà bạn còn gửi một nhóm thông số lấy mẫu cho mô hình. Mô hình có thể tạo ra kết quả khác nhau cho các giá trị thông số khác nhau. Thử nghiệm với để nhận được giá trị tốt nhất cho tác vụ. Sau đây là các thông số thường được điều chỉnh nhất:
- Nhiệt độ
- trên cùng
- hàng đầu
Nhiệt độ
Nhiệt độ được dùng để lấy mẫu trong quá trình tạo phản hồi, xảy ra khi áp dụng giá trị đỉnh P và K trên cùng.
Nhiệt độ kiểm soát mức độ ngẫu nhiên trong việc lựa chọn mã thông báo. Nhiệt độ thấp hơn sẽ phù hợp với những câu lệnh
đòi hỏi câu trả lời sáng tạo hoặc mang tính quyết định hơn, ít cởi mở hoặc sáng tạo hơn, trong khi nhiệt độ cao hơn có thể dẫn đến
kết quả sáng tạo hoặc đa dạng. Nhiệt độ bằng 0 có tính xác định, nghĩa là phản hồi xác suất cao nhất
luôn được chọn.
Đối với hầu hết các trường hợp sử dụng, hãy thử bắt đầu ở mức nhiệt độ là 0,4. Nếu bạn cần nhiều kết quả sáng tạo hơn, hãy thử tăng nhiệt độ. Nếu bạn quan sát thấy ảo giác rõ ràng, hãy thử giảm nhiệt độ.
Hàng đầu
Top-K thay đổi cách mô hình chọn mã thông báo cho đầu ra. K hàng đầu là 1 có nghĩa là mã thông báo được chọn tiếp theo là
có khả năng cao nhất trong số tất cả mã thông báo trong vốn từ của mô hình (còn được gọi là giải mã tham lam), trong khi
hàng đầu là 3 có nghĩa là mã thông báo tiếp theo được chọn trong số ba mã thông báo có khả năng xuất hiện nhất theo
sử dụng nhiệt độ.
Đối với mỗi bước chọn mã thông báo, những mã thông báo hàng đầu có xác suất cao nhất sẽ được lấy mẫu. Sau đó các mã thông báo được lọc thêm dựa trên bên trên cùng với mã thông báo cuối cùng được chọn bằng cách lấy mẫu nhiệt độ.
Hãy chỉ định một giá trị thấp hơn để có ít câu trả lời ngẫu nhiên hơn và giá trị cao hơn để có nhiều câu trả lời ngẫu nhiên hơn. Giá trị mặc định của top-K là 32.
Hàng đầu
P hàng đầu thay đổi cách mô hình chọn mã thông báo cho đầu ra. Mã thông báo được chọn trong số nhiều mã thông báo nhất (xem top-K)
tối thiểu có thể xảy ra cho đến khi tổng xác suất của chúng bằng giá trị P hàng đầu. Ví dụ: nếu mã thông báo
A, B và C có xác suất là 0,6, 0,3, 0,1 và giá trị đỉnh P là 0,9, thì mô hình sẽ
chọn A hoặc B làm mã thông báo tiếp theo bằng cách sử dụng nhiệt độ và loại trừ C làm ứng viên.
Hãy chỉ định một giá trị thấp hơn để có ít câu trả lời ngẫu nhiên hơn và giá trị cao hơn để có nhiều câu trả lời ngẫu nhiên hơn. Giá trị mặc định của đỉnh P là 1,0.
Các bước tiếp theo
- Hãy thử viết câu lệnh đa phương thức của riêng bạn bằng AI của Google Studio.
- Để được hướng dẫn thêm về cách thiết kế câu lệnh, hãy tham khảo Chiến lược lời nhắc.