โมเดลปัญญาประดิษฐ์ (AI) ในตระกูล Gemini สร้างขึ้นมาเพื่อรับมือกับข้อมูลอินพุตประเภทต่างๆ ทั้งข้อความ รูปภาพ และเสียง เนื่องจากโมเดลเหล่านี้รองรับข้อมูลได้มากกว่า 1 ประเภทหรือหลายโหมด โมเดล Gemini จึงเรียกว่าโมเดลหลายรูปแบบ หรืออธิบายว่ามีความสามารถหลายรูปแบบ
หน้านี้ให้คำแนะนำและแนวทางปฏิบัติแนะนำในการใช้ไฟล์สื่อพร้อมพรอมต์สำหรับ Gemini API ดูข้อมูลเกี่ยวกับการใช้ Gemini Files API เพื่ออัปโหลดไฟล์สื่อและใส่ไว้ในพรอมต์ได้ที่ข้อความแจ้งด้วยไฟล์สื่อ
การใช้ไฟล์สื่อกับพรอมต์
การใช้ข้อมูลประเภทต่างๆ ในพรอมต์ช่วยให้คุณมีความยืดหยุ่นมากขึ้นในด้านงานที่ทำได้ด้วย Gemini API ตัวอย่างเช่น คุณสามารถส่งรูปภาพของมื้ออาหารแสนอร่อยให้โมเดล และขอให้โมเดลเขียนบล็อกสั้นๆ เกี่ยวกับมื้ออาหาร
พรอมต์ | คำตอบ |
เขียนบล็อกโพสต์สั้นๆ ที่น่าสนใจโดยใช้รูปภาพนี้ ซึ่งควรมีคำอธิบายอาหารในรูปภาพและพูดถึงวิธีการเตรียมมื้ออาหารของฉัน |
การเตรียมอาหารเป็นวิธีที่ยอดเยี่ยมในการประหยัดเวลาและค่าใช้จ่าย และยังช่วยให้คุณรับประทานอาหารที่ดีต่อสุขภาพมากขึ้นด้วย อาหารมื้อนี้เป็นตัวอย่างที่ยอดเยี่ยมของอาหารเพื่อสุขภาพและอร่อยที่เตรียมไว้ล่วงหน้าได้ง่ายๆ เมนูนี้มีข้าวกล้อง ผักย่าง และไก่เทริยากิ ข้าวกล้องเป็นคาร์โบไฮเดรตที่ซับซ้อนและดีต่อสุขภาพ ซึ่งจะให้พลังงานที่ยั่งยืน ผักย่างเป็นวิธีที่ยอดเยี่ยมในการได้รับวิตามินและเกลือแร่ในแต่ละวัน ส่วนไก่เทริยากิก็เป็นตัวเลือกที่อร่อยและอุดมไปด้วยโปรตีน อาหารจานนี้ก็เตรียมง่ายมากเช่นกัน แค่ทำข้าวกล้อง ปิ้งผัก และปรุงไก่เทริยากิ เมื่อทุกอย่างสุกแล้ว ให้แบ่งใส่ลงในภาชนะเตรียมอาหารแล้วเก็บไว้ในตู้เย็น จากนั้นคุณสามารถหยิบภาชนะขึ้นมาแล้วออกไปลุยงานในตอนเช้าให้วุ่นวายได้! หากกำลังมองหาอาหารเพื่อสุขภาพและแสนอร่อยที่เตรียมไว้ล่วงหน้าได้ง่ายๆ เมนูนี้ก็เป็นตัวเลือกที่ยอดเยี่ยม เต็มไปด้วยสารอาหารและรสชาติ ที่จะช่วยให้คุณรู้สึกเต็มอิ่มและอิ่มท้องอยู่เสมอ พบกับการเตรียมอาหารแสนอร่อยและดีต่อสุขภาพ |
กลยุทธ์สำหรับข้อความแจ้งด้วยสื่อ
หากพบปัญหาในการรับผลลัพธ์ที่ต้องการจากพรอมต์ที่ใช้ไฟล์สื่อ มีกลยุทธ์บางอย่างที่ช่วยให้คุณได้รับผลลัพธ์ที่ต้องการได้ ส่วนต่อไปนี้จะมีวิธีการออกแบบและเคล็ดลับในการแก้ปัญหาในการปรับปรุงพรอมต์ที่ใช้การป้อนข้อมูลหลายรูปแบบ
คุณปรับปรุงข้อความแจ้งในหลายโมดัลได้โดยทำตามแนวทางปฏิบัติแนะนำต่อไปนี้
ปัจจัยพื้นฐานในการออกแบบเบื้องต้น
- เขียนวิธีการให้มีความเฉพาะเจาะจง: กำหนดวิธีการที่ชัดเจนและกระชับ โดยเหลือพื้นที่ว่างน้อยที่สุดในการตีความหมายผิดพลาด
- เพิ่มตัวอย่างลงในพรอมต์: ใช้ตัวอย่าง 2-3 ช็อตที่สมจริงเพื่อแสดงสิ่งที่ต้องการทำให้สำเร็จ
- แจกแจงงานทีละขั้นตอน: แบ่งงานที่ซับซ้อนออกเป็นเป้าหมายย่อยที่จัดการได้ และช่วยชี้แนะโมเดลในกระบวนการ
- ระบุรูปแบบเอาต์พุต: ขอให้เอาต์พุตอยู่ในรูปแบบที่ต้องการในพรอมต์ เช่น มาร์กดาวน์, JSON, HTML และอื่นๆ
- ใส่รูปภาพเป็นอันดับแรกในพรอมต์ที่เป็นรูปภาพเดียว: แม้ว่า Gemini จะจัดการกับการป้อนข้อมูลรูปภาพและข้อความได้ในลำดับใดก็ได้ แต่สำหรับพรอมต์ที่มีรูปภาพเดียว อาจมีประสิทธิภาพดีกว่าหากวางรูปภาพนั้นก่อนพรอมต์ข้อความ
การแก้ปัญหาข้อความแจ้งในหลายโมดัล
- หากโมเดลไม่ได้ดึงข้อมูลจากส่วนที่เกี่ยวข้องของรูปภาพ: วางคำแนะนำโดยระบุแง่มุมของรูปภาพที่ต้องการให้พรอมต์ดึงข้อมูล
- หากเอาต์พุตโมเดลกว้างเกินไป (ไม่ปรับให้เหมาะกับรูปภาพ): ในตอนต้นของข้อความแจ้ง ให้ลองขอให้โมเดลอธิบายรูปภาพก่อนระบุคำสั่งของงาน หรือลองขอให้โมเดลอ้างอิงถึงสิ่งที่อยู่ในรูปภาพ
- 10:50 มอสโก
- 11:05 เอดินบะระ
- 11:05 ลอนดอน
- 11:10 บูคาเรสต์
- 11:30 เคียฟ
- 11:35 ดับลิน
- 11:45 มิดแลนด์ตะวันออก
- 12:15 โซเฟีย
- 12:30 น. ลอนดอน
- 12:30 นิวคาสเซิล
- 12:40 เซนต์ปีเตอร์สเบิร์ก
- 12:40 น. ลอนดอน
- 12:45 แมนเชสเตอร์
- แทนที่ n = 4 ในสูตร
- เราไม่ทราบค่าของ b(3) ดังนั้นโปรดแทนที่ n = 3 ในสูตรดังนี้
- เราไม่ทราบค่าของ b(2) ดังนั้นโปรดแทนที่ n = 2 ในสูตรดังนี้
- เราทราบว่าค่า b(1) คือ 15 ดังนั้นโปรดแทนที่ค่า b(1) ในสูตร:
- เมื่อทราบค่าของ b(2) แล้ว ให้แทนที่ค่า b(3) ในสูตรต่อไปนี้
- เมื่อทราบค่าของ b(3) แล้ว ให้แทนที่ค่า b(4) ในสูตรต่อไปนี้
- อุณหภูมิ
- คะแนนสูงสุด
- ท็อป-K
- ลองเขียนพรอมต์แบบหลายโมดัลของคุณเองโดยใช้ Google AI Studio
- ดูคำแนะนำเพิ่มเติมเกี่ยวกับการออกแบบพรอมต์ได้ที่หน้ากลยุทธ์ข้อความแจ้ง
ปัจจัยพื้นฐานในการออกแบบพรอมต์
ส่วนนี้จะอธิบายเพิ่มเติมเกี่ยวกับแนวทางปฏิบัติแนะนำที่ระบุไว้ในส่วนก่อนหน้านี้
หมายเหตุ: ผลลัพธ์โมเดลจากตัวอย่าง Gemini ต่อไปนี้อาจแตกต่างกันไปในแต่ละการเรียกใช้
ระบุวิธีการให้ชัดเจน
ข้อความแจ้งจะประสบความสำเร็จมากที่สุดเมื่อมีข้อมูลที่ชัดเจนและให้รายละเอียด หากคุณมีผลลัพธ์ที่ต้องการแล้ว เราขอแนะนำให้ใส่ข้อกำหนดนั้นในพรอมต์เพื่อให้แน่ใจว่าคุณจะได้รับเอาต์พุตที่ต้องการ
ในบางครั้ง ผู้เขียนอาจดูเจตนาของข้อความแจ้ง แต่จริงๆ แล้วเจตนาของพรอมต์ไม่ได้ระบุไว้ หากต้องการปรับแต่งการทำงานของโมเดล ให้พิจารณาวิธีตีความ (พลาด) พรอมต์และตรวจสอบว่าวิธีการที่คุณระบุมีความเฉพาะเจาะจงและชัดเจน อย่าลืมเว้นที่ว่างให้น้อยที่สุดสำหรับการตีความผิด
สำหรับภาพกระดานสนามบินนี้ ขอให้โมเดลเพียงแค่ "อธิบายภาพนี้" อาจสร้างคำอธิบายทั่วไปได้ หากต้องการให้โมเดลแยกวิเคราะห์เวลาและเมืองจากรูปภาพ คุณใส่คำขอนั้นลงในพรอมต์ได้โดยตรง
พรอมต์ การตอบกลับโมเดล อธิบายรูปภาพนี้
รูปภาพแสดงกระดานการมาถึงและออกเดินทางของสนามบิน
ข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น แยกวิเคราะห์เวลาและเมืองจากกระดานสนามบินที่แสดงในรูปภาพนี้เป็นรายการ
เพิ่มตัวอย่าง
โมเดล Gemini จะยอมรับอินพุตหลายรายการซึ่งใช้เป็นตัวอย่างเพื่อทำความเข้าใจเอาต์พุตที่คุณต้องการได้ การเพิ่มตัวอย่างเหล่านี้จะช่วยให้โมเดลระบุรูปแบบและนำความสัมพันธ์ระหว่างรูปภาพและคำตอบที่ระบุไปใช้กับตัวอย่างใหม่ได้ หรือเรียกอีกอย่างว่าการเรียนรู้แบบ "ไม่ช้า"
ในตัวอย่างด้านล่าง เอาต์พุตเบื้องต้นจะเขียนในรูปแบบประโยค และมีประเทศ (บราซิล) ด้วย สมมติว่าคุณต้องการผลลัพธ์ในรูปแบบหรือสไตล์อื่น และคุณต้องการ เฉพาะเมือง ไม่ใช่ประเทศ การเพิ่มตัวอย่างภาพ 2-3 ช็อตลงในพรอมต์จะช่วยนำทางโมเดลให้ตอบสนองตามที่ต้องการได้
พรอมต์ การตอบกลับจากโมเดล กำหนดเมืองพร้อมกับจุดสังเกต
สถานที่สำคัญคือรูปปั้นพระคริสต์ผู้ไถ่ที่เมืองรีโอเดจาเนโร ประเทศบราซิล
ข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น กำหนดเมืองพร้อมกับจุดสังเกต
เมือง: โรม, สถานที่สำคัญ: โคลอสเซียม
เมือง: ปักกิ่ง, จุดสังเกต: พระราชวังต้องห้าม
เมือง: รีโอเดจาเนโร สถานที่สำคัญ: รูปปั้นพระเยซูคริสต์
แสดงรายละเอียดทีละขั้นตอน
สำหรับงานที่ซับซ้อนอย่างเช่นงานที่ต้องใช้ทั้งความเข้าใจของภาพและการให้เหตุผล การแบ่งงานออกเป็นขั้นตอนที่ย่อยๆ และไม่ซับซ้อนอาจช่วยได้ นอกจากนี้ วิธีนี้อาจมีประสิทธิภาพหากคุณขอให้โมเดล "คิดทีละขั้นตอน" ในพรอมต์โดยตรง
พรอมต์ การตอบกลับโมเดล กระดาษชำระจะหมดเมื่อใด
อีกไม่นานคุณเหลือแค่ 3 ชิ้น
ข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น - 1. ก่อนอื่น ให้นับว่าในรูปนี้มีม้วนกระดาษทิชชูกี่ม้วน
- 2. จากนั้นก็พิจารณาปริมาณกระดาษชำระที่คนทั่วไปใช้ต่อวัน
- 3. คำนวณระยะเวลาในการม้วนกระดาษชำระเหล่านี้
- 1. รูปนี้มีกระดาษทิชชู 3 ม้วน
- 2. คนทั่วไปใช้กระดาษชำระประมาณ 20 แผ่นต่อวัน
- 3. หากแต่ละม้วนมี 200 แผ่น แต่ละม้วนจะใช้งานได้ประมาณ 10 วัน ดังนั้น ทั้ง 3 รอบจึงใช้เวลาประมาณ 1 เดือน
โจทย์คณิตศาสตร์หรือโจทย์ปัญหาประเภทอื่นๆ เหมาะที่จะขอให้โมเดลคิดทีละขั้นตอน
พรอมต์ คำตอบ พจน์ที่ 4 ในลำดับคืออะไร
-135
การตอบสนองจากโมเดลไม่ถูกต้อง วิธีปรับปรุงให้ดีขึ้นด้วยการขอให้โมเดลแยกวิเคราะห์ปัญหาก่อนที่จะตอบพรอมต์
พรอมต์ คำตอบ ให้แยกวิเคราะห์สูตรในรูปภาพก่อน
จากนั้นตอบคำถามว่า "พจน์ที่ 4 ในลำดับคืออะไร" โดยอิงจากสูตร
คลิกเพื่อขยายผลลัพธ์
$$ b(n) = b(n-1) * (-3) $$
$$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$
$$ b(4) = b(3) * (-3) $$
$$ b(3) = b(3-1) * (-3) $$
$$ b(3) = b(2) * (-3) $$
$$ b(2) = b(2-1) * (-3) $$
$$ b(2) = b(1) * (-3) $$
$$ b(2) = 15 * (-3) $$
$$ b(2) = -45 $$
$$ b(3) = b(2) * (-3) $$
$$ b(3) = -45 * (-3) $$
$$ b(3) = 135 $$
$$ b(4) = b(3) * (-3) $$
$$ b(4) = 135 * (-3) $$
$$ b(4) = -405 $$
ดังนั้น พจน์ที่ 4 ในลำดับคือ -405
การตอบกลับของโมเดลนี้ถูกต้อง ในการทำให้คำตอบมีประสิทธิภาพยิ่งขึ้น คุณสามารถขอให้โมเดลคิดทีละขั้นตอน
ข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น พจน์ที่ 4 ในลำดับคืออะไร ลองคิดไปทีละขั้นตอน
ภาคการศึกษาแรกคือ 15 ปี
ค่าที่ 2 คือ b(1) * (-3) = 15 * (-3) = -45
คำที่ 3 คือ b(2) * (-3) = -45 * (-3) = 135
ค่าที่ 4 คือ b(3) * (-3) = 135 * (-3) = -405
ลองระบุรูปแบบเอาต์พุต
ปัญหาที่พบได้ทั่วไปคือ ต้องการให้เอาต์พุตโมเดลอยู่ในรูปแบบที่กำหนด (เช่น Markdown, JSON, HTML) โดยเฉพาะอย่างยิ่งหากงานดาวน์สตรีมต้องนำเข้าเอาต์พุตโมเดล คุณสามารถลองสร้างเอาต์พุตในรูปแบบดังกล่าวได้โดยสั่งให้โมเดลทำภายในพรอมต์ ด้านล่างนี้คือ 2 ตัวอย่าง
พรอมต์ การตอบกลับโมเดล แยกวิเคราะห์ตารางในรูปภาพนี้เป็นรูปแบบมาร์กดาวน์
| เรื่อง | สถานะ | เวลา | วันที่เริ่มต้น | ครบกำหนดวันที่ |
| ------- | ------ | ---- | --------- | ------ |
| คณิตศาสตร์ | เสร็จสิ้น | 1.5 ชม. | 29/11/2023 | 1/12/2023 |
| ภูมิศาสตร์ | เสร็จสิ้น | 30 นาที | 2/12/2023 | 4/12/2023 |
| ฟิสิกส์ | กำลังดำเนินการ | 2 ชม. | 3/12/2023 | 5/12/2023 |
| ชีววิทยา | ยังไม่เริ่ม | 6 ชม. | 2/11/2016 | 6/12/2023 |
พรอมต์ การตอบกลับจากโมเดล ระบุรายการแอตทริบิวต์ต่อไปนี้ทั้งหมด
ส่วนผสม ประเภทอาหาร มังสวิรัติ หรือไม่ในรูปแบบ JSON
```json```
{
"ingredients": [
"rice",
"shrimp",
"clams",
"mussels",
"peas",
"tomatoes",
"onions",
"garlic",
"olive oil",
"paprika",
"salt",
"pepper"
],
"type of cuisine": "Spanish",
"vegetarian": false
ใส่รูปภาพของคุณก่อนสำหรับข้อความแจ้งที่มีรูปภาพเดียว
แม้ว่า Gemini จะตีความรูปภาพและข้อความในลำดับใดก็ได้ภายในพรอมต์ แต่การวางรูปภาพเดียวก่อนข้อความแจ้งข้อความอาจช่วยให้ได้ผลลัพธ์ที่ดีกว่า ในตัวอย่างต่อไปนี้ คุณจะสังเกตเห็นว่ารูปภาพ มาก่อนข้อความในแต่ละพรอมต์
การแก้ปัญหาข้อความแจ้งแบบหลายโมดัล
คุณอาจต้องแก้ปัญหาข้อความแจ้งหากไม่ได้รับคําตอบที่เป็นประโยชน์ ตัวอย่างกลยุทธ์ที่น่าลองใช้มีดังนี้
ถ้าโมเดลไม่ได้ดึงข้อมูลจากส่วนที่เกี่ยวข้องของรูปภาพ
หากต้องการคำตอบที่เจาะจงมากขึ้น ให้ระบุแง่มุมของรูปภาพที่ต้องการให้ระบบดึงข้อมูลมาประกอบคำตอบ
พรอมต์ การตอบกลับโมเดล ผ้าอ้อมเหล่านี้จะมีอายุกี่วัน
ผ้าอ้อมมีอายุ 198 วันก่อนจะหมด
ข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น ผ้าอ้อมเหล่านี้จะอยู่ได้นานแค่ไหนก่อนที่จะหมด
ใช้น้ำหนักที่แสดงบนกล่องเพื่อดูอายุของบุตรหลาน และใช้จำนวนผ้าอ้อมทั้งหมดในกล่อง
หารจำนวนผ้าอ้อมทั้งหมดด้วยจำนวนผ้าอ้อมที่เด็กใช้ต่อวัน
ในกล่องมีผ้าอ้อม 198 ผืน ในกล่องระบุว่าผ้าอ้อมสำหรับเด็กมีน้ำหนัก 22-37 ปอนด์
เด็กโดยเฉลี่ยในช่วงน้ำหนักนี้มีแนวโน้มที่จะอายุระหว่าง 1-2 ปี
เด็กอายุ 2 ขวบมักจะใส่ผ้าอ้อม 6 แผ่นต่อวัน ฉะนั้นแล้ว ผ้าอ้อมดังกล่าวจะใช้ได้ประมาณ 33 วัน (198/6)
หากเอาต์พุตโมเดลกว้างเกินไปและไม่ปรับให้เหมาะกับอินพุตรูปภาพ
เพื่อช่วยให้โมเดลปรับแต่งการตอบสนองต่อรูปภาพได้ ลองขอให้โมเดลอธิบายรูปภาพก่อนดำเนินการให้เหตุผล
พรอมต์ การตอบกลับโมเดล รูปภาพเหล่านี้มีอะไรที่เหมือนกัน
ภาพทั้ง 4 ภาพเป็นตัวอย่างของการถ่ายภาพแนวนอน
ข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น ก่อนอื่น ให้อธิบายสิ่งที่อยู่ในรูปภาพแต่ละรูปอย่างละเอียด รูปภาพเหล่านี้มีอะไรที่เหมือนกัน
ภาพแรกแสดงคนกำลังเก็บกระเป๋าเดินทาง ภาพที่ 2 แสดงโถงทางเดินว่างเปล่าในห้างสรรพสินค้า รูปภาพที่ 3 แสดงม้วนกระดาษทิชชู ภาพที่ 4 แสดงทะเลมืดและพายุ
ความคล้ายคลึงกันระหว่างรูปภาพเหล่านี้คือรูปภาพเหล่านี้ทั้งหมดเป็นตัวอย่างของช่องว่างขนาดเล็ก ช่องว่าง Liminal Space คือสถานที่หรือสถานการณ์ที่อยู่ระหว่างสถานที่หรือสถานการณ์อื่น 2 แห่ง ซึ่งมักจะมีความไม่แน่นอนหรือไม่ชัดเจน
ภาพแรกแสดงบุคคลที่อยู่ระหว่างอยู่บ้านและอยู่ระหว่างการเดินทาง ภาพที่ 2 แสดงโถงทางเดินที่อยู่ระหว่างร้านค้า 2 แห่ง รูปภาพที่ 3 เป็นกระดาษชำระ ซึ่งแสดงห้องน้ำ ห้องน้ำเป็นพื้นที่เปลี่ยนผ่านระหว่างขอบเขตส่วนตัวและสาธารณะ เพราะเป็นที่ที่เราเตรียมตัวให้พร้อมสำหรับเข้าสู่หรือออกจากโลกภายนอก
ภาพที่ 4 แสดงทะเลที่สงบและมีพายุ
พื้นที่ที่สั้นลงแต่อาจทำให้น่าตื่นเต้นและน่าตื่นเต้น ซึ่งอาจเป็นจุดเริ่มใหม่หรือจุดจบก็ได้ ซึ่งอาจเป็นสถานที่ทบทวนตนเองหรือสถานที่ลงมือทำก็ได้
หรือจะลองขอให้โมเดลอ้างอิงสิ่งที่อยู่ในรูปภาพก็ได้เช่นกัน
ข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น รูปภาพเหล่านี้มีอะไรที่เหมือนกัน โปรดดูสิ่งที่อยู่ในรูปภาพในคําตอบของคุณ
ทุกภาพเกี่ยวข้องกับการท่องเที่ยว ภาพแรกแสดงคนกำลังจัดกระเป๋าเดินทาง ภาพที่ 2 แสดงโถงว่างเปล่าในห้างสรรพสินค้า ภาพที่ 3 กองกระดาษทิชชู และภาพที่ 4 แสดงท้องทะเลมืดครึ้ม
รูปภาพเหล่านี้ล้วนเกี่ยวข้องกับการท่องเที่ยวเพราะเป็นสิ่งที่ผู้คนต้องการหรือใช้เมื่อเดินทาง ภาพแรกแสดงภาพคนกำลังแพ็กกระเป๋า ซึ่งเป็นสิ่งที่ผู้คนทำเมื่อกำลังเดินทาง ภาพที่ 2 แสดงโถงทางเดินว่างเปล่าในศูนย์การค้า ซึ่งเป็นที่ที่ผู้คนมักจะไปซื้อของสำหรับการเดินทาง รูปภาพที่ 3 แสดงกองกระดาษชำระ ซึ่งเป็นกระดาษที่ผู้คนมักจะใช้เมื่อเดินทาง ภาพที่ 4 แสดงทะเลมืดมิดและพายุ ซึ่งเป็นสิ่งที่ผู้คนมักจะพบเจอเมื่อเดินทาง
เคล็ดลับเดียวกันนี้สามารถใช้ได้กับการสร้างครีเอทีฟโฆษณาจากรูปภาพ ในตัวอย่างกระต่ายต่อไปนี้ การขอให้โมเดลใส่ลักษณะจากรูปภาพอย่างชัดเจนจะช่วยให้ผลลัพธ์ดีขึ้น
พรอมต์ การตอบกลับโมเดล ช่วยเขียนกลอนเกี่ยวกับรูปภาพให้หน่อยได้ไหม
กระต่ายน้อยสีน้ำตาลแสนนุ่มนวล
กระโดดโลดเต้นกลางทุ่งโล่งๆ
หูของคุณยาว หางเล็กสุดๆ
คุณเป็นสิ่งมีชีวิตที่น่ารักที่สุดในบรรดาสัตว์ทั้งหมดคุณแทะหญ้า สีเขียวยังหวานมาก
แล้วก็เดินหนีไปเลย
แต่เราจะเป็นเพื่อนของคุณเสมอ
กระต่ายน้อยไปเรื่อย ๆ ดีกว่าข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น ช่วยเขียนบทกวีที่สื่อความหมายและน่าทึ่งเกี่ยวกับรูปภาพนี้และระบุสถานที่ได้ไหม
กระต่ายน้อยตัวเขียว
หูยาวสุดๆ เลย
คุณเห็นอะไรอยู่ตรงนั้น
มองไปไกลๆ ตรงไหนน้ำทะเลเป็นสีฟ้า
แสงอาทิตย์ส่องประกายระยิบระยับไหม
หรือคลื่นที่กระทบกันไปมา
เป็นจังหวะที่คุณชื่นชอบใช่ไหมกระต่ายน้อย บอกฉันหน่อยสิ
สิ่งใดที่ทำให้คุณสนใจ
ลมเค็มๆ ไหม
หรือนกนางนวลร้องไห้ได้โปรดบางทีนี่อาจหมายถึงความกว้างใหญ่
โลกทั้งใบเล็กและใหญ่
ดินแดนของความฝันที่โลดแล่น
และโลกแห่งการผจญภัยกระต่ายน้อย ฉันสงสัยว่าคุณฝันอะไรอยู่
นั่งอยู่บนพื้นหญ้า เงียบสงบสุดๆ
คุณปรารถนาที่จะสำรวจโลกลึก
หรืออยู่บนบกที่คุณจะสามารถกระโดดได้จะเรื่องอะไรก็กระต่ายน้อย
คอยสร้างแรงบันดาลใจให้เจิดจ้าอยู่เสมอ
เพื่อความฝันและแรงบันดาลใจของคุณ
โกหกโลกที่รอให้คุณสร้างขึ้นแก้ปัญหาส่วนใดของข้อความแจ้งที่ไม่สำเร็จ
อาจเป็นเรื่องยากที่จะรู้ว่าข้อความแจ้งล้มเหลวเนื่องจากโมเดลไม่เข้าใจรูปภาพตั้งแต่แรก หรือโมเดลเข้าใจรูปภาพแต่ไม่ได้ทำตามขั้นตอนการให้เหตุผลที่ถูกต้องหลังจากนั้น
เพื่ออธิบายเหตุผลเหล่านั้นให้ชัดเจน ให้ขอให้โมเดลอธิบายสิ่งที่อยู่ในรูปภาพ
ในตัวอย่างด้านล่าง หากโมเดลตอบเป็นของว่างที่ดูน่าประหลาดใจเมื่อจับคู่กับชา (เช่น ป๊อปคอร์น) ก่อนอื่น คุณสามารถแก้ปัญหาเพื่อดูว่าโมเดลนั้นเข้าใจอย่างถูกต้องว่ารูปภาพมีชาหรือไม่
พรอมต์ การแจ้งเพื่อการแก้ปัญหา ฉันจะกินขนมขบเคี้ยวอะไรใน 1 นาทีที่จะดีได้
อธิบายสิ่งที่อยู่ในรูปภาพนี้
อีกกลยุทธ์หนึ่งคือขอให้โมเดลอธิบายเหตุผล วิธีนี้ช่วยให้คุณตีกรอบเหตุผลให้แคบลงได้ (หากมี)
พรอมต์ การแจ้งเพื่อการแก้ปัญหา ฉันจะกินขนมขบเคี้ยวอะไรใน 1 นาทีที่จะดีได้
ฉันจะกินขนมขบเคี้ยวอะไรใน 1 นาทีที่จะดีได้ โปรดให้เหตุผล
การปรับแต่งพารามิเตอร์การสุ่มตัวอย่าง
ในแต่ละคำขอ คุณไม่เพียงแค่ส่งพรอมต์แบบหลายโมดัลแต่ส่งชุดพารามิเตอร์การสุ่มตัวอย่างไปยังโมเดลด้วย โมเดลนี้สามารถสร้างผลลัพธ์ที่แตกต่างกันสำหรับค่าพารามิเตอร์ที่ต่างกัน ทดลองใช้พารามิเตอร์ต่างๆ เพื่อหาค่าที่ดีที่สุดสำหรับงาน พารามิเตอร์ที่ปรับบ่อยที่สุดมีดังนี้
อุณหภูมิ
อุณหภูมิจะใช้ในการสุ่มตัวอย่างระหว่างการสร้างคำตอบ ซึ่งจะเกิดขึ้นเมื่อใช้ Top-P และ Top-K อุณหภูมิจะควบคุมระดับของการสุ่มในการเลือกโทเค็น อุณหภูมิที่ต่ำลงเหมาะสำหรับพรอมต์ที่ต้องมีคำตอบที่ปลายเปิดหรือเชิงสร้างสรรค์น้อยกว่า ส่วนอุณหภูมิที่สูงขึ้นอาจทำให้ได้ผลลัพธ์ที่มีความหลากหลายหรือมีความสร้างสรรค์มากกว่า ระบบจะกำหนดอุณหภูมิ 0 เป็นเชิงกำหนด ซึ่งหมายความว่าระบบจะเลือกการตอบสนองความน่าจะเป็นสูงสุดเสมอ
สําหรับกรณีการใช้งานส่วนใหญ่ ลองเริ่มที่อุณหภูมิ 0.4 หากต้องการผลการค้นหาที่สร้างสรรค์มากขึ้น ให้ลองเพิ่มอุณหภูมิ หากสังเกตเห็นว่าประสาทหลอนชัดเจน ให้ลองลดอุณหภูมิ
ท็อป-K
Top-K เปลี่ยนวิธีการเลือกโทเค็นของโมเดลสำหรับเอาต์พุต Top-K ของ 1 หมายความว่าโทเค็นที่เลือกถัดไปน่าจะเป็นไปได้มากที่สุดในบรรดาโทเค็นทั้งหมดในคำศัพท์ของโมเดล (หรือที่เรียกว่าการถอดรหัสอย่างละโง่) ขณะที่ 1K เท่ากับ 3 หมายความว่าโทเค็นถัดไปจะเลือกจาก 3 โทเค็นที่น่าจะเป็นไปได้มากที่สุดโดยใช้อุณหภูมิ
สำหรับขั้นตอนการเลือกโทเค็นแต่ละขั้นตอน ระบบจะสุ่มตัวอย่างโทเค็นระดับบนสุดที่มีความน่าจะเป็นสูงสุด จากนั้นระบบจะกรองโทเค็นเพิ่มเติมตาม Top-P ด้วยโทเค็นสุดท้ายที่เลือกโดยใช้การสุ่มตัวอย่างอุณหภูมิ
ระบุค่าต่ำกว่าสำหรับคำตอบแบบสุ่มจำนวนน้อย และระบุค่าที่สูงขึ้นสำหรับคำตอบแบบสุ่มที่มากขึ้น ค่าเริ่มต้นของ Top-K คือ 32
อันดับสูงสุด
Top-P เปลี่ยนวิธีการเลือกโทเค็นของโมเดลสำหรับเอาต์พุต โดยจะเลือกโทเค็นจากความน่าจะเป็นสูงสุด (ดูบนสุด (ดูบนสุด) ไปน้อยที่สุด จนกว่าผลรวมของความน่าจะเป็นเท่ากับค่า P-1P เช่น ถ้าโทเค็น A, B และ C มีความน่าจะเป็นของ 0.6, 0.3, 0.1 และค่า P-S สูงสุดคือ 0.9 โมเดลจะเลือก A หรือ B เป็นโทเค็นถัดไปโดยใช้อุณหภูมิและยกเว้น C เป็นตัวเลือก
ระบุค่าต่ำกว่าสำหรับคำตอบแบบสุ่มจำนวนน้อย และระบุค่าที่สูงขึ้นสำหรับคำตอบแบบสุ่มที่มากขึ้น ค่าเริ่มต้นของ Top-P คือ 1.0
ขั้นตอนถัดไป