กลุ่มโมเดลปัญญาประดิษฐ์ (AI) ของ Gemini ออกแบบมาเพื่อจัดการกับ อินพุตประเภทต่างๆ ได้แก่ ข้อความ รูปภาพ และเสียง เนื่องจาก โมเดลสามารถจัดการข้อมูลได้มากกว่า 1 ประเภทหรือโหมด ได้แก่ โมเดล Gemini เรียกว่าโมเดลสื่อหลากรูปแบบหรืออธิบายว่ามีความสามารถด้านสื่อหลากรูปแบบ
หน้านี้จะให้คำแนะนำและแนวทางปฏิบัติแนะนำในการใช้ไฟล์สื่อกับ สำหรับ Gemini API สำหรับข้อมูลเกี่ยวกับการใช้ Gemini Files API สำหรับ การอัปโหลดไฟล์สื่อและรวมไว้ในข้อความแจ้งของคุณ โปรดดูที่ การมองเห็น เสียง และ คำแนะนำเกี่ยวกับการประมวลผลเอกสาร
การใช้ไฟล์สื่อกับข้อความแจ้ง
ความสามารถในการใช้ข้อมูลประเภทต่างๆ ในพรอมต์จะให้ข้อมูลเพิ่มเติมแก่คุณ จัดการงานต่างๆ ได้ด้วย Gemini API สำหรับ ตัวอย่างเช่น คุณสามารถส่งภาพอาหารมื้ออร่อยแก่นายแบบ และขอให้โมเดลเขียน บล็อกสั้นๆ เกี่ยวกับมื้ออาหาร
พรอมต์ | การตอบกลับ |
เขียนบล็อกโพสต์สั้นๆ ที่น่าสนใจโดยใช้รูปภาพนี้ ควร ใส่รายละเอียดของมื้ออาหารในรูปภาพ และพูดถึงการเดินทางของผม ขณะเตรียมอาหาร |
การเตรียมอาหารเป็นวิธีที่ยอดเยี่ยมในการประหยัดเวลาและค่าใช้จ่าย และยังช่วย ที่จะช่วยให้คุณรับประทานอาหารที่ดีต่อสุขภาพมากขึ้น มื้อนี้เป็นตัวอย่างที่ดีของ และอาหารแสนอร่อยที่เตรียมความพร้อมล่วงหน้าได้ง่ายๆ มื้อนี้มีข้าวกล้อง ผักย่าง และไก่เทริยากิ ข้าวกล้องเป็นคาร์โบไฮเดรตเชิงซ้อนที่ดีต่อสุขภาพ พลังงานที่ยั่งยืน ผักย่างเป็นวิธีที่ยอดเยี่ยมในการพักผ่อน ปริมาณวิตามินและเกลือแร่ และไก่เทอริยากิคือ ที่อุดมไปด้วยโปรตีน นอกจากนี้ อาหารจานนี้ยังทำได้ง่ายมาก ทำแค่ข้าวกล้อง ย่างเอง ใส่ผัก แล้วปรุงไก่เทอริยากิ เมื่อทุกอย่างเรียบร้อยแล้ว แบ่งเป็นภาชนะเตรียมอาหารและเก็บไว้ในตู้เย็น จากนั้นก็หยิบภาชนะที่ใส่แล้วออกไปลุยตอนเช้าอันแสนวุ่นวายได้เลย หากคุณกำลังมองหาอาหารที่ดีต่อสุขภาพและอร่อย อาหารมื้อนี้ถือเป็นตัวเลือกที่ดีและต้องเตรียมไว้ล่วงหน้า ในแพ็กเกจนี้ สารอาหารและรสชาติ และมั่นใจได้ว่าคุณจะรู้สึกอิ่มเอมใจ ถึงเวลาเตรียมอาหารเพื่อสุขภาพแสนอร่อยกันเถอะ |
กลยุทธ์สำหรับการส่งข้อความแจ้งด้วยสื่อ
หากพบปัญหาในการรับเอาต์พุตที่ต้องการจากพรอมต์ที่ใช้ ไฟล์สื่อ ก็มีกลยุทธ์บางอย่างที่จะช่วยให้คุณได้ผลลัพธ์ตาม ต้องการ ส่วนต่อไปนี้จะอธิบายแนวทางการออกแบบและการแก้ปัญหา เคล็ดลับในการปรับปรุงพรอมต์ที่ใช้การป้อนข้อมูลหลายรูปแบบ
คุณปรับปรุงพรอมต์แบบหลายโมดัลได้โดยทำตามแนวทางปฏิบัติแนะนำต่อไปนี้
-
พื้นฐานการออกแบบพรอมต์
- ระบุวิธีการให้เฉพาะเจาะจง: เขียนวิธีการที่ชัดเจนและกระชับ ซึ่งทำให้ตีความผิดได้เพียงเล็กน้อย
- เพิ่มตัวอย่าง 2-3 ตัวอย่างลงในพรอมต์: ใช้ตัวอย่างภาพที่สมจริง 2-3 ช็อตเพื่อแสดงสิ่งที่คุณต้องการทำให้สำเร็จ
- แจกแจงรายละเอียดทีละขั้นตอน: แบ่งงานที่ซับซ้อนเป็นเป้าหมายย่อยที่จัดการได้ ซึ่งจะช่วยแนะนำโมเดลตลอดกระบวนการ
- ระบุรูปแบบเอาต์พุต: ในพรอมต์ของคุณ ให้ขอให้เอาต์พุตอยู่ในรูปแบบที่คุณต้องการ เช่น Markdown, JSON, HTML และอื่นๆ
- วางรูปภาพของคุณก่อนสำหรับพรอมต์รูปภาพเดียว: แม้ว่า Gemini จะจัดการการป้อนข้อมูลรูปภาพและข้อความได้ในลำดับใดก็ได้ แต่สำหรับพรอมต์ที่มีรูปภาพเดียว ก็อาจมีประสิทธิภาพดีกว่าหากวางรูปภาพนั้นก่อนพรอมต์ข้อความ
-
การแก้ปัญหาข้อความแจ้งแบบหลายโมดัล
- หากโมเดลไม่ได้ดึงข้อมูลจากส่วนที่เกี่ยวข้องของรูปภาพ: ให้วางคำแนะนำด้านต่างๆ ของรูปภาพที่คุณต้องการให้พรอมต์ดึงข้อมูลจาก
- หากเอาต์พุตโมเดลกว้างเกินไป (ไม่ได้ปรับให้เหมาะกับรูปภาพ): เมื่อเริ่มต้นข้อความแจ้ง ให้ลองขอให้โมเดลอธิบายรูปภาพก่อนที่จะระบุคำสั่งงาน หรือลองขอให้โมเดลอ้างอิงถึงสิ่งที่อยู่ในรูปภาพ
พื้นฐานการออกแบบพรอมต์
ส่วนนี้จะอธิบายแนวทางปฏิบัติแนะนำที่ระบุไว้ในส่วนก่อนหน้านี้
หมายเหตุ: ผลลัพธ์โมเดลจากตัวอย่าง Gemini ต่อไปนี้อาจแตกต่างกันไปตามการเรียกใช้แต่ละครั้ง
ระบุวิธีการอย่างเจาะจง
พรอมต์จะประสบความสำเร็จที่สุดเมื่อมีความชัดเจนและมีรายละเอียด หากคุณมีเอาต์พุตที่เจาะจงไว้ในใจแล้ว ขอแนะนำให้ใส่ข้อกำหนดดังกล่าวในพรอมต์เพื่อให้คุณได้รับผลลัพธ์ที่ต้องการ
ในบางครั้ง ความตั้งใจของพรอมต์อาจดูชัดเจนสำหรับผู้ที่เขียนพรอมต์ดังกล่าว แต่ที่จริงแล้วโค้ดนี้ระบุไว้น้อยเกินไป หากต้องการปรับแต่งลักษณะการทำงานของโมเดล ลองพิจารณาวิธีตีความ (ผิด) พรอมต์ของคุณ และตรวจสอบว่าวิธีการที่คุณระบุนั้นเฉพาะเจาะจงและชัดเจน อย่าลืมทำให้มีเนื้อที่สำหรับการตีความผิดพลาดน้อยที่สุด
สำหรับภาพคณะกรรมการสนามบินนี้ ขอให้โมเดล "อธิบายภาพนี้" เท่านั้น สามารถสร้างคำอธิบายทั่วไป หากต้องการให้โมเดลแยกวิเคราะห์เวลาและเมืองจากรูปภาพ ให้ส่งคําขอนั้นในพรอมต์โดยตรง
พรอมต์ | การตอบสนองของโมเดล |
---|---|
อธิบายรูปภาพนี้ |
รูปภาพแสดงกระดานข้อมูลขาเข้าและขาออกของสนามบิน |
ข้อความแจ้งที่อัปเดต | คำตอบที่ดีขึ้น |
---|---|
แยกวิเคราะห์เวลาและเมืองจากบอร์ดสนามบินที่แสดงในรูปภาพนี้เป็นรายการ |
เพิ่มตัวอย่าง 2-3 ตัวอย่าง
โมเดล Gemini สามารถยอมรับอินพุตหลายรายการที่ใช้เป็นตัวอย่างในการทำความเข้าใจ ที่คุณต้องการ การเพิ่มตัวอย่างเหล่านี้จะช่วยให้โมเดลระบุรูปแบบและใช้ฟังก์ชัน ความสัมพันธ์ระหว่างรูปภาพที่ระบุและการตอบกลับตัวอย่างใหม่ เรียกอีกอย่างว่า "สัก 2-3 ช็อต" การเรียนรู้
ในตัวอย่างด้านล่าง เอาต์พุตเริ่มต้นจะเขียนในรูปแบบประโยค และยังมีแท็ก ประเทศ (บราซิล) สมมติว่าคุณต้องการเอาต์พุตในรูปแบบหรือสไตล์ที่แตกต่างกันและต้องการ เมืองเท่านั้น ไม่ใช่ประเทศ การเพิ่มตัวอย่าง 2-3 ช็อตลงในพรอมต์จะช่วยกำหนดทิศทางของโมเดลได้ ตอบสนองในแบบที่คุณต้องการ
พรอมต์ | การตอบสนองของโมเดล |
---|---|
กำหนดเมืองพร้อมกับจุดสังเกต |
สถานที่สำคัญคือรูปปั้นพระเยซูคริสต์ในเมืองรีโอเดจาเนโรในบราซิล |
ข้อความแจ้งที่อัปเดต | คำตอบที่ดีขึ้น |
---|---|
กำหนดเมืองพร้อมกับจุดสังเกต |
เมือง: โรม, จุดสังเกต: โคลอสเซียม |
เมือง: ปักกิ่ง จุดสังเกต: พระราชวังต้องห้าม |
|
เมือง: รีโอเดจาเนโร, จุดสังเกต: รูปปั้นพระเยซูคริสต์พระเยซู |
แจกแจงรายละเอียดทีละขั้นตอน
ส่วนงานที่ซับซ้อน เช่น งานที่ต้องใช้ทั้งความเข้าใจและการให้เหตุผลผ่านภาพ อาจเป็นประโยชน์ แบ่งงานออกเป็นขั้นตอนที่เล็กลงและตรงไปตรงมามากขึ้น หรืออาจใช้ หากคุณ ขอให้โมเดล "คิดทีละขั้นตอน" ในพรอมต์ของคุณโดยตรง
พรอมต์ | การตอบสนองของโมเดล |
---|---|
กระดาษชำระจะหมดตอนไหน |
เร็วๆ นี้ คุณเหลือเงินอีกแค่ 3 ม้วน |
ข้อความแจ้งที่อัปเดต | คำตอบที่ดีขึ้น |
---|---|
|
|
โจทย์คณิตศาสตร์หรือโจทย์ปัญหาประเภทอื่นๆ เป็นตัวเลือกที่ดีในการขอให้โมเดลคิดทีละขั้นตอน
พรอมต์ | การตอบกลับ |
---|---|
ค่าที่ 4 ในลำดับคืออะไร |
-135 |
การตอบสนองจากโมเดลไม่ถูกต้อง วิธีปรับปรุงให้ดีขึ้นคือขอให้โมเดลแยกวิเคราะห์ปัญหาก่อนที่จะตอบพรอมต์
พรอมต์ | การตอบกลับ |
---|---|
โปรดแยกวิเคราะห์สูตรในรูปภาพก่อน จากนั้นตอบคำถามว่า "ค่าที่ 4 ในลำดับคือเท่าไร" โดยอิงตามสูตร |
คลิกเพื่อขยายผลการค้นหา$$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ ดังนั้น ค่าที่ 4 ในลำดับคือ -405 |
คำตอบของโมเดลนี้ถูกต้อง ตอนนี้คุณขอให้โมเดลคิดทีละขั้นตอนเพื่อให้คำตอบมีประสิทธิภาพมากขึ้นได้
ข้อความแจ้งที่อัปเดต | คำตอบที่ดีขึ้น |
---|---|
ค่าที่ 4 ในลำดับคืออะไร คิดไปทีละขั้น |
เทอมแรกคือ 15 คำที่ 2 คือ b(1) * (-3) = 15 * (-3) = -45 คำที่ 3 คือ b(2) * (-3) = -45 * (-3) = 135 คำที่ 4 คือ b(3) * (-3) = 135 * (-3) = -405 |
ลองระบุรูปแบบเอาต์พุต
ปัญหาที่พบบ่อยคือต้องให้เอาต์พุตโมเดลอยู่ในรูปแบบที่กำหนด (เช่น มาร์กดาวน์, JSON, HTML) โดยเฉพาะอย่างยิ่งหากเอาต์พุตโมเดลจำเป็นต้อง ส่งผ่านข้อมูลโดยงานดาวน์สตรีม คุณสามารถลองสร้างเอาต์พุตในรูปแบบดังกล่าวได้โดยสั่งให้โมเดลดำเนินการดังกล่าวภายในพรอมต์ ตัวอย่าง 2 รายการมีดังนี้
พรอมต์ | การตอบสนองของโมเดล |
---|---|
แยกวิเคราะห์ตารางในรูปภาพนี้เป็นรูปแบบมาร์กดาวน์ |
| เรื่อง | สถานะ | เวลา | วันที่เริ่มต้น | ครบกำหนดวันที่ | | ------- | ------ | ---- | --------- | ------ | | คณิตศาสตร์ | เสร็จสิ้น | 1.5 ชม. | 29/11/2023 | 1/12/2023 | | ภูมิศาสตร์ | เสร็จสิ้น | 30 นาที | 2/12/2023 | 4/12/2023 | | ฟิสิกส์ | กำลังดำเนินการ | 2 ชั่วโมง | 3/12/2023 | 5/12/2023 | | ชีววิทยา | ยังไม่เริ่ม | 6 ชม. | 2/11/2016 | 6/12/2023 | |
พรอมต์ | การตอบสนองของโมเดล |
---|---|
ระบุรายการแอตทริบิวต์ต่อไปนี้ทั้งหมด ส่วนผสม, ประเภทอาหาร, มังสวิรัติหรือไม่ ในรูปแบบ JSON |
|
ใส่รูปภาพเป็นอันดับแรกสำหรับพรอมต์ที่มีรูปภาพเดียว
แม้ว่า Gemini จะตีความรูปภาพและข้อความตามลำดับใดก็ได้ภายในพรอมต์ การวางรูปภาพเพียงรูปเดียว ก่อนข้อความแจ้งข้อความอาจทำให้ผลลัพธ์ดีขึ้น ในตัวอย่างต่อไปนี้ คุณจะสังเกตเห็นรูปภาพ จะแสดงก่อนข้อความในแต่ละพรอมต์
การแก้ปัญหาข้อความแจ้งในหลายโมดัล
คุณอาจต้องแก้ปัญหาข้อความแจ้งหากไม่ได้รับคำตอบที่เป็นประโยชน์ คุณลองใช้กลยุทธ์ต่อไปนี้ได้
หากโมเดลไม่ได้ดึงข้อมูลจากส่วนที่เกี่ยวข้องของรูปภาพ
หากต้องการคำตอบที่เจาะจงมากขึ้น ให้ระบุแง่มุมของรูปภาพที่คุณต้องการให้พรอมต์แสดง ดึงข้อมูลจาก เพื่อแจ้งการตอบสนอง
พรอมต์ | การตอบสนองของโมเดล |
---|---|
ผ้าอ้อมแบบนี้จะมีอายุกี่วันสำหรับทารก |
ผ้าอ้อมใช้ได้ 198 วันก่อนที่จะหมด |
ข้อความแจ้งที่อัปเดต | คำตอบที่ดีขึ้น |
---|---|
ผ้าอ้อมจะใช้ได้นานเท่าใดก่อนที่จะหมด ใช้น้ำหนักที่แสดงบนกล่องเพื่อพิจารณาอายุของบุตรหลาน แล้วใช้จำนวนผ้าอ้อมทั้งหมดในกล่อง หารจำนวนรวมด้วยจำนวนผ้าอ้อมที่เด็กใช้ต่อวัน |
กล่องมีผ้าอ้อม 198 ใบ ในกล่องระบุว่าผ้าอ้อมสำหรับเด็กน้ำหนัก 22-37 ปอนด์ เด็กที่มีช่วงน้ำหนักโดยเฉลี่ยนี้มีแนวโน้มที่จะอยู่ระหว่าง 1 ถึง 2 ปี เด็ก 2 ขวบมักจะซื้อผ้าอ้อม 6 ผืนต่อวัน ดังนั้นผ้าอ้อมจึงมีอายุการใช้งานประมาณ 33 วัน (198/6) |
หากเอาต์พุตโมเดลกว้างเกินไปและไม่ปรับให้เหมาะกับอินพุตรูปภาพ
ลองขอให้โมเดลอธิบายรูปภาพก่อนที่จะดำเนินการให้เหตุผล เพื่อช่วยให้โมเดลปรับแต่งการตอบสนองกับรูปภาพได้
พรอมต์ | การตอบสนองของโมเดล |
---|---|
รูปภาพเหล่านี้มีอะไรที่เหมือนกัน |
ภาพทั้ง 4 ภาพเป็นตัวอย่างของภาพถ่ายแนวนอน |
ข้อความแจ้งที่อัปเดต | คำตอบที่ดีขึ้น |
---|---|
ก่อนอื่น ให้อธิบายสิ่งที่อยู่ในรูปภาพแต่ละรูปโดยละเอียด รูปภาพเหล่านี้มีอะไรที่เหมือนกัน |
ภาพแรกแสดงภาพคนกำลังแพ็กกระเป๋า ภาพที่ 2 แสดงโถงทางเดินที่ว่างเปล่าในห้างสรรพสินค้า ภาพที่ 3 แสดงม้วนกระดาษชำระ ภาพที่ 4 แสดงทะเลที่มืดมิดและมีพายุ ความคล้ายคลึงกันระหว่างรูปภาพเหล่านี้คือ ทุกรูปเป็นตัวอย่างของการเว้นวรรคแบบจํากัด ช่องว่างขนาดเล็กคือสถานที่หรือสถานการณ์ที่อยู่ระหว่างสถานที่หรือสถานการณ์อื่นๆ 2 อย่าง ผู้คนมักมีลักษณะของความไม่แน่นอนหรือกำกวม ภาพแรกแสดงภาพบุคคลที่อยู่ระหว่างการอยู่ที่บ้านและระหว่างการเดินทาง ภาพที่ 2 แสดงโถงทางเดินระหว่างร้านค้า 2 ร้าน ภาพที่ 3 เป็นกระดาษชำระซึ่งอาจแสดงเป็นห้องน้ำ ห้องน้ำเป็นพื้นที่เปลี่ยนผ่านระหว่างห้องน้ำส่วนตัว และอาณาจักรสาธารณะ เป็นสถานที่ที่เราเตรียมตัวเองให้พร้อมเข้าสู่หรือออกจากโลกภายนอก ภาพที่ 4 แสดงทะเลที่อยู่ระหว่างความสงบนิ่งและกำลังมีพายุ พื้นที่สั้นๆ อาจเป็นทั้งเรื่องตื่นเต้นและสะเทือนใจ สถานที่เหล่านี้อาจเป็นสถานที่แห่งการเริ่มต้นใหม่หรือจุดที่จบลงได้ เป็นสถานที่ทบทวนความรู้สึกหรือสถานที่ทำกิจกรรม |
หรือคุณจะลองขอให้โมเดลอ้างอิงถึงสิ่งที่อยู่ในภาพอย่างชัดแจ้งก็ได้
ข้อความแจ้งที่อัปเดต | คำตอบที่ดีขึ้น |
---|---|
รูปภาพเหล่านี้มีอะไรที่เหมือนกัน โปรดดูสิ่งที่อยู่ในรูปภาพในคำตอบของคุณ |
รูปภาพทั้งหมดเกี่ยวข้องกับการท่องเที่ยว ภาพแรกแสดงภาพคนกำลังแพ็กกระเป๋า ภาพที่ 2 แสดง โถงทางเดินที่ว่างเปล่าในห้างสรรพสินค้า ภาพที่ 3 แสดงกองกระดาษชำระ และภาพที่ 4 ทะเลที่มืดมิดและมีพายุ รูปภาพเหล่านี้ทั้งหมดเกี่ยวข้องกับการท่องเที่ยวเพราะเป็นสิ่งที่ผู้คนจำเป็นต้องใช้หรือเมื่อ ที่พวกเขาเดินทาง ภาพแรกแสดงภาพคนกำลังแพ็กกระเป๋าเดินทาง ซึ่งเป็นสิ่งที่คนทำเมื่อ กำลังจะเดินทาง ภาพที่ 2 แสดงโถงทางเดินที่ว่างเปล่าในห้างสรรพสินค้า ซึ่งเป็นที่ที่ผู้คน มักจะซื้อของสำหรับการเดินทาง ภาพที่ 3 แสดงกองกระดาษทิชชู่ ที่ผู้คนมักจะใช้ขณะเดินทาง ภาพที่ 4 แสดงทะเลที่มืดมิดและมีพายุ ซึ่ง เป็นสิ่งที่ผู้คนมักพบเจอระหว่างเดินทาง |
เคล็ดลับเดียวกันนี้ยังใช้ได้กับเอาต์พุตครีเอทีฟโฆษณาจากรูปภาพ ในตัวอย่างต่อไปนี้ การขอให้โมเดลรวมด้านต่างๆ จากภาพอย่างชัดเจนจะช่วยปรับปรุงผลลัพธ์
พรอมต์ | การตอบสนองของโมเดล |
---|---|
ช่วยเขียนกลอนเกี่ยวกับรูปภาพนี้ให้หน่อยได้ไหม |
กระต่ายตัวน้อย ตัวนุ่มนิ่มสีน้ำตาล คุณแทะหญ้า ทั้งเขียวและหวานจัง |
ข้อความแจ้งที่อัปเดต | คำตอบที่ดีขึ้น |
---|---|
ช่วยเขียนกลอนอธิบายและดราม่าเกี่ยวกับภาพนี้พร้อมระบุตำแหน่งได้ไหม |
กระต่ายน้อยบนผืนเขียว เป็นสีฟ้าน้ำทะเลหรือเปล่านะ กระต่ายน้อย บอกหน่อยว่าจริง หรืออาจจะใหญ่หลวงก็ได้นะ กระต่ายน้อย ผมอยากรู้ว่าคุณฝันอะไร ไม่ว่าจะเป็นอะไร กระต่ายน้อย |
การแก้ปัญหาว่าส่วนใดของข้อความแจ้งล้มเหลว
การจะทราบได้ยากว่าข้อความแจ้งล้มเหลวเนื่องจากโมเดล ไม่เข้าใจรูปภาพตั้งแต่แรก หรือไม่ว่าเข้าใจรูปภาพแต่ ไม่ได้ทำตาม ขั้นตอนการให้เหตุผลที่ถูกต้องหลังจากนั้น
หากต้องการอธิบายเหตุผลเหล่านั้นให้ชัดเจน ให้ขอให้โมเดลอธิบายสิ่งที่อยู่ในรูปภาพ
ในตัวอย่างด้านล่าง หากโมเดลตอบสนองด้วยอาหารว่างที่ดูน่าประหลาดใจเมื่อจับคู่กับ ชา (เช่น ป๊อปคอร์น) ขั้นแรกคุณสามารถแก้ปัญหาเพื่อดูว่าโมเดลจดจำถูกต้องหรือไม่ ว่ารูปภาพมีชา
พรอมต์ | การแจ้งสำหรับการแก้ปัญหา |
---|---|
เป็นขนมอะไรที่ฉันทำภายใน 1 นาทีจะดีถ้าทำแล้วล่ะ |
อธิบายสิ่งที่อยู่ในรูปภาพนี้ |
อีกกลยุทธ์หนึ่งคือการขอให้โมเดลอธิบายเหตุผล ซึ่งจะช่วยให้คุณตีกรอบเหตุผลของส่วนนั้นให้แคบลงได้ (หากมี)
พรอมต์ | การแจ้งสำหรับการแก้ปัญหา |
---|---|
เป็นขนมอะไรที่ฉันทำภายใน 1 นาทีจะดีถ้าทำแล้วล่ะ |
เป็นขนมอะไรที่ฉันทำภายใน 1 นาทีจะดีถ้าทำแล้วล่ะ โปรดให้เหตุผล |
การปรับแต่งพารามิเตอร์การสุ่มตัวอย่าง
ในคำขอแต่ละรายการ คุณจะไม่เพียงแค่ส่งพรอมต์แบบหลายโมดัลเท่านั้น แต่ยังส่งชุดพารามิเตอร์การสุ่มตัวอย่างไปยังโมเดลด้วย โมเดลนี้สามารถสร้างผลลัพธ์ที่แตกต่างกันสำหรับค่าพารามิเตอร์ที่แตกต่างกัน ทดลองใช้ เพื่อรับค่าที่ดีที่สุดสำหรับงาน พารามิเตอร์ที่ปรับบ่อยที่สุดมีดังนี้
- อุณหภูมิ
- Top-P
- ท็อปเค
อุณหภูมิ
อุณหภูมิใช้สำหรับการสุ่มตัวอย่างระหว่างการสร้างคำตอบ ซึ่งจะเกิดขึ้นเมื่อใช้ Top-P และ Top-K
อุณหภูมิจะควบคุมระดับการสุ่มในการเลือกโทเค็น อุณหภูมิที่ต่ำลงเหมาะกับพรอมต์ที่
ต้องอาศัยคำตอบเชิงกำหนดมากขึ้นและปลายเปิดหรือคำตอบที่สร้างสรรค์น้อยกว่า ขณะที่อุณหภูมิที่สูงขึ้นก็อาจทำให้
ผลลัพธ์ที่หลากหลายหรือสร้างสรรค์ อุณหภูมิที่ 0 จะเป็นแบบกำหนดเชิงกำหนด ซึ่งหมายความว่าคำตอบที่มีความน่าจะเป็นสูงสุด
ไว้เสมอ
สําหรับกรณีการใช้งานส่วนใหญ่ ให้ลองเริ่มที่อุณหภูมิที่ 0.4 ถ้าคุณต้องการผลลัพธ์ ที่สร้างสรรค์มากขึ้น ให้ลองเพิ่ม อุณหภูมิ หากสังเกตเห็นความไม่สมเหตุสมผลอย่างชัดเจน ให้ลองลดอุณหภูมิ
ท็อป K
Top-K จะเปลี่ยนวิธีที่โมเดลเลือกโทเค็นเพื่อแสดงผล Top-K ของ 1 หมายความว่าโทเค็นถัดไปที่เลือกคือ
ที่เป็นไปได้มากที่สุดในบรรดาโทเค็นทั้งหมดในคำศัพท์ของโมเดล (หรือที่เรียกว่าการถอดรหัสแบบโล่ง) ในขณะที่
Top-K ของ 3 หมายความว่าโทเค็นถัดไปจะถูกเลือกจาก 3 โทเค็นที่เป็นไปได้มากที่สุดโดย
โดยใช้อุณหภูมิ
สำหรับขั้นตอนการเลือกโทเค็นแต่ละขั้นตอน ระบบจะสุ่มตัวอย่างโทเค็นยอดนิยม K ที่มีความน่าจะเป็นสูงสุด จากนั้น ระบบจะกรองโทเค็นเพิ่มเติมโดยอิงตาม Top-P ด้วยโทเค็นสุดท้ายที่เลือกโดยใช้การสุ่มตัวอย่างอุณหภูมิ
ระบุค่าต่ำกว่าสำหรับคำตอบแบบสุ่มน้อยกว่าและค่าที่สูงขึ้นสำหรับคำตอบแบบสุ่มที่มากขึ้น ค่าเริ่มต้นของ Top-K คือ 32
ตัวท็อป-พี
Top-P จะเปลี่ยนวิธีที่โมเดลเลือกโทเค็นเพื่อแสดงผล เลือกโทเค็นจากมากที่สุด (ดู Top-K)
เป็นไปได้น้อยที่สุดจนกว่าผลรวมของความน่าจะเป็นจะเท่ากับค่า Top-P เช่น หากโทเค็น
A, B และ C มีความน่าจะเป็นที่ 0.6, 0.3, 0.1 และค่า Top-P คือ 0.9 โมเดลจะ
เลือก A หรือ B เป็นโทเค็นถัดไปโดยใช้อุณหภูมิและยกเว้น C เป็นโทเค็น
ระบุค่าต่ำกว่าสำหรับคำตอบแบบสุ่มน้อยกว่าและค่าที่สูงขึ้นสำหรับคำตอบแบบสุ่มที่มากขึ้น ค่าเริ่มต้นของ Top-P คือ 1.0
ขั้นตอนถัดไป
- ลองเขียนพรอมต์แบบหลายโมดัลของคุณเองโดยใช้ AI ของ Google Studio
- ดูคำแนะนำเพิ่มเติมเกี่ยวกับการออกแบบพรอมต์ได้ที่ กลยุทธ์พรอมต์