กลยุทธ์การแจ้งไฟล์

กลุ่มโมเดลปัญญาประดิษฐ์ (AI) ของ Gemini ออกแบบมาเพื่อจัดการกับ อินพุตประเภทต่างๆ ได้แก่ ข้อความ รูปภาพ และเสียง เนื่องจาก โมเดลสามารถจัดการข้อมูลได้มากกว่า 1 ประเภทหรือโหมด ได้แก่ โมเดล Gemini เรียกว่าโมเดลสื่อหลากรูปแบบหรืออธิบายว่ามีความสามารถด้านสื่อหลากรูปแบบ

หน้านี้จะให้คำแนะนำและแนวทางปฏิบัติแนะนำในการใช้ไฟล์สื่อกับ สำหรับ Gemini API สำหรับข้อมูลเกี่ยวกับการใช้ Gemini Files API สำหรับ การอัปโหลดไฟล์สื่อและรวมไว้ในข้อความแจ้งของคุณ โปรดดูที่ การมองเห็น เสียง และ คำแนะนำเกี่ยวกับการประมวลผลเอกสาร

การใช้ไฟล์สื่อกับข้อความแจ้ง

ความสามารถในการใช้ข้อมูลประเภทต่างๆ ในพรอมต์จะให้ข้อมูลเพิ่มเติมแก่คุณ จัดการงานต่างๆ ได้ด้วย Gemini API สำหรับ ตัวอย่างเช่น คุณสามารถส่งภาพอาหารมื้ออร่อยแก่นายแบบ และขอให้โมเดลเขียน บล็อกสั้นๆ เกี่ยวกับมื้ออาหาร

พรอมต์ การตอบกลับ

เขียนบล็อกโพสต์สั้นๆ ที่น่าสนใจโดยใช้รูปภาพนี้ ควร ใส่รายละเอียดของมื้ออาหารในรูปภาพ และพูดถึงการเดินทางของผม ขณะเตรียมอาหาร


คุกกี้

การเตรียมอาหารเป็นวิธีที่ยอดเยี่ยมในการประหยัดเวลาและค่าใช้จ่าย และยังช่วย ที่จะช่วยให้คุณรับประทานอาหารที่ดีต่อสุขภาพมากขึ้น มื้อนี้เป็นตัวอย่างที่ดีของ และอาหารแสนอร่อยที่เตรียมความพร้อมล่วงหน้าได้ง่ายๆ

มื้อนี้มีข้าวกล้อง ผักย่าง และไก่เทริยากิ ข้าวกล้องเป็นคาร์โบไฮเดรตเชิงซ้อนที่ดีต่อสุขภาพ พลังงานที่ยั่งยืน ผักย่างเป็นวิธีที่ยอดเยี่ยมในการพักผ่อน ปริมาณวิตามินและเกลือแร่ และไก่เทอริยากิคือ ที่อุดมไปด้วยโปรตีน

นอกจากนี้ อาหารจานนี้ยังทำได้ง่ายมาก ทำแค่ข้าวกล้อง ย่างเอง ใส่ผัก แล้วปรุงไก่เทอริยากิ เมื่อทุกอย่างเรียบร้อยแล้ว แบ่งเป็นภาชนะเตรียมอาหารและเก็บไว้ในตู้เย็น จากนั้นก็หยิบภาชนะที่ใส่แล้วออกไปลุยตอนเช้าอันแสนวุ่นวายได้เลย

หากคุณกำลังมองหาอาหารที่ดีต่อสุขภาพและอร่อย อาหารมื้อนี้ถือเป็นตัวเลือกที่ดีและต้องเตรียมไว้ล่วงหน้า ในแพ็กเกจนี้ สารอาหารและรสชาติ และมั่นใจได้ว่าคุณจะรู้สึกอิ่มเอมใจ

ถึงเวลาเตรียมอาหารเพื่อสุขภาพแสนอร่อยกันเถอะ

กลยุทธ์สำหรับการส่งข้อความแจ้งด้วยสื่อ

หากพบปัญหาในการรับเอาต์พุตที่ต้องการจากพรอมต์ที่ใช้ ไฟล์สื่อ ก็มีกลยุทธ์บางอย่างที่จะช่วยให้คุณได้ผลลัพธ์ตาม ต้องการ ส่วนต่อไปนี้จะอธิบายแนวทางการออกแบบและการแก้ปัญหา เคล็ดลับในการปรับปรุงพรอมต์ที่ใช้การป้อนข้อมูลหลายรูปแบบ

คุณปรับปรุงพรอมต์แบบหลายโมดัลได้โดยทำตามแนวทางปฏิบัติแนะนำต่อไปนี้

  • พื้นฐานการออกแบบพรอมต์

    • ระบุวิธีการให้เฉพาะเจาะจง: เขียนวิธีการที่ชัดเจนและกระชับ ซึ่งทำให้ตีความผิดได้เพียงเล็กน้อย
    • เพิ่มตัวอย่าง 2-3 ตัวอย่างลงในพรอมต์: ใช้ตัวอย่างภาพที่สมจริง 2-3 ช็อตเพื่อแสดงสิ่งที่คุณต้องการทำให้สำเร็จ
    • แจกแจงรายละเอียดทีละขั้นตอน: แบ่งงานที่ซับซ้อนเป็นเป้าหมายย่อยที่จัดการได้ ซึ่งจะช่วยแนะนำโมเดลตลอดกระบวนการ
    • ระบุรูปแบบเอาต์พุต: ในพรอมต์ของคุณ ให้ขอให้เอาต์พุตอยู่ในรูปแบบที่คุณต้องการ เช่น Markdown, JSON, HTML และอื่นๆ
    • วางรูปภาพของคุณก่อนสำหรับพรอมต์รูปภาพเดียว: แม้ว่า Gemini จะจัดการการป้อนข้อมูลรูปภาพและข้อความได้ในลำดับใดก็ได้ แต่สำหรับพรอมต์ที่มีรูปภาพเดียว ก็อาจมีประสิทธิภาพดีกว่าหากวางรูปภาพนั้นก่อนพรอมต์ข้อความ
  • การแก้ปัญหาข้อความแจ้งแบบหลายโมดัล

    • หากโมเดลไม่ได้ดึงข้อมูลจากส่วนที่เกี่ยวข้องของรูปภาพ: ให้วางคำแนะนำด้านต่างๆ ของรูปภาพที่คุณต้องการให้พรอมต์ดึงข้อมูลจาก
    • หากเอาต์พุตโมเดลกว้างเกินไป (ไม่ได้ปรับให้เหมาะกับรูปภาพ): เมื่อเริ่มต้นข้อความแจ้ง ให้ลองขอให้โมเดลอธิบายรูปภาพก่อนที่จะระบุคำสั่งงาน หรือลองขอให้โมเดลอ้างอิงถึงสิ่งที่อยู่ในรูปภาพ

พื้นฐานการออกแบบพรอมต์

ส่วนนี้จะอธิบายแนวทางปฏิบัติแนะนำที่ระบุไว้ในส่วนก่อนหน้านี้

หมายเหตุ: ผลลัพธ์โมเดลจากตัวอย่าง Gemini ต่อไปนี้อาจแตกต่างกันไปตามการเรียกใช้แต่ละครั้ง

ระบุวิธีการอย่างเจาะจง

พรอมต์จะประสบความสำเร็จที่สุดเมื่อมีความชัดเจนและมีรายละเอียด หากคุณมีเอาต์พุตที่เจาะจงไว้ในใจแล้ว ขอแนะนำให้ใส่ข้อกำหนดดังกล่าวในพรอมต์เพื่อให้คุณได้รับผลลัพธ์ที่ต้องการ

ในบางครั้ง ความตั้งใจของพรอมต์อาจดูชัดเจนสำหรับผู้ที่เขียนพรอมต์ดังกล่าว แต่ที่จริงแล้วโค้ดนี้ระบุไว้น้อยเกินไป หากต้องการปรับแต่งลักษณะการทำงานของโมเดล ลองพิจารณาวิธีตีความ (ผิด) พรอมต์ของคุณ และตรวจสอบว่าวิธีการที่คุณระบุนั้นเฉพาะเจาะจงและชัดเจน อย่าลืมทำให้มีเนื้อที่สำหรับการตีความผิดพลาดน้อยที่สุด

สำหรับภาพคณะกรรมการสนามบินนี้ ขอให้โมเดล "อธิบายภาพนี้" เท่านั้น สามารถสร้างคำอธิบายทั่วไป หากต้องการให้โมเดลแยกวิเคราะห์เวลาและเมืองจากรูปภาพ ให้ส่งคําขอนั้นในพรอมต์โดยตรง

พรอมต์ การตอบสนองของโมเดล

อธิบายรูปภาพนี้

รูปภาพแสดงกระดานข้อมูลขาเข้าและขาออกของสนามบิน

ข้อความแจ้งที่อัปเดต คำตอบที่ดีขึ้น
ตารางเวลาการเดินทาง

แยกวิเคราะห์เวลาและเมืองจากบอร์ดสนามบินที่แสดงในรูปภาพนี้เป็นรายการ

  • 10:50 มอสโก
  • 11:05 เอดินบะระ
  • 11:05 ลอนดอน
  • 11:10 บูคาเรสต์
  • 11:30 เคียฟ
  • 11:35 ดับลิน
  • 11:45 น. ภาคมิดแลนด์ตะวันออก
  • 12:15 โซเฟีย
  • 12:30 ลอนดอน
  • 12:30 นิวคาสเซิล
  • 12:40 เซนต์ปีเตอร์สเบิร์ก
  • 12:40 ลอนดอน
  • 12:45 แมนเชสเตอร์
  • เพิ่มตัวอย่าง 2-3 ตัวอย่าง

    โมเดล Gemini สามารถยอมรับอินพุตหลายรายการที่ใช้เป็นตัวอย่างในการทำความเข้าใจ ที่คุณต้องการ การเพิ่มตัวอย่างเหล่านี้จะช่วยให้โมเดลระบุรูปแบบและใช้ฟังก์ชัน ความสัมพันธ์ระหว่างรูปภาพที่ระบุและการตอบกลับตัวอย่างใหม่ เรียกอีกอย่างว่า "สัก 2-3 ช็อต" การเรียนรู้

    ในตัวอย่างด้านล่าง เอาต์พุตเริ่มต้นจะเขียนในรูปแบบประโยค และยังมีแท็ก ประเทศ (บราซิล) สมมติว่าคุณต้องการเอาต์พุตในรูปแบบหรือสไตล์ที่แตกต่างกันและต้องการ เมืองเท่านั้น ไม่ใช่ประเทศ การเพิ่มตัวอย่าง 2-3 ช็อตลงในพรอมต์จะช่วยกำหนดทิศทางของโมเดลได้ ตอบสนองในแบบที่คุณต้องการ

    พรอมต์ การตอบสนองของโมเดล
    ตารางเวลาการเดินทาง

    กำหนดเมืองพร้อมกับจุดสังเกต

    สถานที่สำคัญคือรูปปั้นพระเยซูคริสต์ในเมืองรีโอเดจาเนโรในบราซิล

    ข้อความแจ้งที่อัปเดต คำตอบที่ดีขึ้น

    กำหนดเมืองพร้อมกับจุดสังเกต

    โคลอสเซียม

    เมือง: โรม, จุดสังเกต: โคลอสเซียม

    นครต้องห้าม

    เมือง: ปักกิ่ง จุดสังเกต: พระราชวังต้องห้าม

    เมืองต้องห้าม

    เมือง: รีโอเดจาเนโร, จุดสังเกต: รูปปั้นพระเยซูคริสต์พระเยซู

    แจกแจงรายละเอียดทีละขั้นตอน

    ส่วนงานที่ซับซ้อน เช่น งานที่ต้องใช้ทั้งความเข้าใจและการให้เหตุผลผ่านภาพ อาจเป็นประโยชน์ แบ่งงานออกเป็นขั้นตอนที่เล็กลงและตรงไปตรงมามากขึ้น หรืออาจใช้ หากคุณ ขอให้โมเดล "คิดทีละขั้นตอน" ในพรอมต์ของคุณโดยตรง

    พรอมต์ การตอบสนองของโมเดล

    กระดาษชำระจะหมดตอนไหน

    เร็วๆ นี้ คุณเหลือเงินอีกแค่ 3 ม้วน

    ข้อความแจ้งที่อัปเดต คำตอบที่ดีขึ้น

      1. ก่อนอื่น ให้นับจำนวนม้วนกระดาษชำระในรูปภาพนี้
      2. จากนั้นดูปริมาณกระดาษชำระที่คนทั่วไปใช้ในแต่ละวัน
      3. คำนวณระยะเวลาที่ใช้ม้วนกระดาษชำระเหล่านี้

      1. รูปนี้มีกระดาษชำระ 3 ม้วน
      2. คนทั่วไปใช้กระดาษชำระประมาณ 20 แผ่นต่อวัน
      3. หากแต่ละม้วนมี 200 แผ่น แต่ละม้วนจะใช้งานได้ประมาณ 10 วัน ดังนั้น การทอย 3 ครั้งจะมีระยะเวลาประมาณ 1 เดือน

    โจทย์คณิตศาสตร์หรือโจทย์ปัญหาประเภทอื่นๆ เป็นตัวเลือกที่ดีในการขอให้โมเดลคิดทีละขั้นตอน

    พรอมต์ การตอบกลับ

    ค่าที่ 4 ในลำดับคืออะไร

    -135

    การตอบสนองจากโมเดลไม่ถูกต้อง วิธีปรับปรุงให้ดีขึ้นคือขอให้โมเดลแยกวิเคราะห์ปัญหาก่อนที่จะตอบพรอมต์

    พรอมต์ การตอบกลับ

    โปรดแยกวิเคราะห์สูตรในรูปภาพก่อน

    จากนั้นตอบคำถามว่า "ค่าที่ 4 ในลำดับคือเท่าไร" โดยอิงตามสูตร

    คลิกเพื่อขยายผลการค้นหา

    $$ b(n) = b(n-1) * (-3) $$

    $$ b(1) = 15 $$

    1. แทนที่ n = 4 ในสูตรดังนี้
    2. $$ b(4) = b(4-1) * (-3) $$

      $$ b(4) = b(3) * (-3) $$

    3. เราไม่ทราบค่าของ b(3) ดังนั้นให้แทนที่ n = 3 ในสูตรดังนี้
    4. $$ b(3) = b(3-1) * (-3) $$

      $$ b(3) = b(2) * (-3) $$

    5. เราไม่ทราบค่าของ b(2) ดังนั้นให้แทนที่ n = 2 ในสูตรดังนี้
    6. $$ b(2) = b(2-1) * (-3) $$

      $$ b(2) = b(1) * (-3) $$

    7. เรารู้ว่าค่าของ b(1) คือ 15 ดังนั้นให้แทนค่าในสูตรดังนี้
    8. $$ b(2) = 15 * (-3) $$

      $$ b(2) = -45 $$

    9. เมื่อทราบค่าของ b(2 แล้ว) ให้แทนที่ค่านั้นในสูตรสำหรับ b(3):
    10. $$ b(3) = b(2) * (-3) $$

      $$ b(3) = -45 * (-3) $$

      $$ b(3) = 135 $$

    11. เมื่อทราบค่าของ b(3 แล้ว) ให้ใช้ค่า b(3) แทนค่าในสูตรสำหรับ b(4):
    12. $$ b(4) = b(3) * (-3) $$

      $$ b(4) = 135 * (-3) $$

      $$ b(4) = -405 $$

    ดังนั้น ค่าที่ 4 ในลำดับคือ -405

    คำตอบของโมเดลนี้ถูกต้อง ตอนนี้คุณขอให้โมเดลคิดทีละขั้นตอนเพื่อให้คำตอบมีประสิทธิภาพมากขึ้นได้

    ข้อความแจ้งที่อัปเดต คำตอบที่ดีขึ้น

    ค่าที่ 4 ในลำดับคืออะไร คิดไปทีละขั้น

    เทอมแรกคือ 15

    คำที่ 2 คือ b(1) * (-3) = 15 * (-3) = -45

    คำที่ 3 คือ b(2) * (-3) = -45 * (-3) = 135

    คำที่ 4 คือ b(3) * (-3) = 135 * (-3) = -405

    ลองระบุรูปแบบเอาต์พุต

    ปัญหาที่พบบ่อยคือต้องให้เอาต์พุตโมเดลอยู่ในรูปแบบที่กำหนด (เช่น มาร์กดาวน์, JSON, HTML) โดยเฉพาะอย่างยิ่งหากเอาต์พุตโมเดลจำเป็นต้อง ส่งผ่านข้อมูลโดยงานดาวน์สตรีม คุณสามารถลองสร้างเอาต์พุตในรูปแบบดังกล่าวได้โดยสั่งให้โมเดลดำเนินการดังกล่าวภายในพรอมต์ ตัวอย่าง 2 รายการมีดังนี้

    พรอมต์ การตอบสนองของโมเดล

    แยกวิเคราะห์ตารางในรูปภาพนี้เป็นรูปแบบมาร์กดาวน์

    | เรื่อง | สถานะ | เวลา | วันที่เริ่มต้น | ครบกำหนดวันที่ |

    | ------- | ------ | ---- | --------- | ------ |

    | คณิตศาสตร์ | เสร็จสิ้น | 1.5 ชม. | 29/11/2023 | 1/12/2023 |

    | ภูมิศาสตร์ | เสร็จสิ้น | 30 นาที | 2/12/2023 | 4/12/2023 |

    | ฟิสิกส์ | กำลังดำเนินการ | 2 ชั่วโมง | 3/12/2023 | 5/12/2023 |

    | ชีววิทยา | ยังไม่เริ่ม | 6 ชม. | 2/11/2016 | 6/12/2023 |

    พรอมต์ การตอบสนองของโมเดล

    ระบุรายการแอตทริบิวต์ต่อไปนี้ทั้งหมด

    ส่วนผสม, ประเภทอาหาร, มังสวิรัติหรือไม่ ในรูปแบบ JSON

    ```json```

    {

    "ingredients": [

    "rice",

    "shrimp",

    "clams",

    "mussels",

    "peas",

    "tomatoes",

    "onions",

    "garlic",

    "olive oil",

    "paprika",

    "salt",

    "pepper"

    ],

    "type of cuisine": "Spanish",

    "vegetarian": false

    ใส่รูปภาพเป็นอันดับแรกสำหรับพรอมต์ที่มีรูปภาพเดียว

    แม้ว่า Gemini จะตีความรูปภาพและข้อความตามลำดับใดก็ได้ภายในพรอมต์ การวางรูปภาพเพียงรูปเดียว ก่อนข้อความแจ้งข้อความอาจทำให้ผลลัพธ์ดีขึ้น ในตัวอย่างต่อไปนี้ คุณจะสังเกตเห็นรูปภาพ จะแสดงก่อนข้อความในแต่ละพรอมต์

    การแก้ปัญหาข้อความแจ้งในหลายโมดัล

    คุณอาจต้องแก้ปัญหาข้อความแจ้งหากไม่ได้รับคำตอบที่เป็นประโยชน์ คุณลองใช้กลยุทธ์ต่อไปนี้ได้

    หากโมเดลไม่ได้ดึงข้อมูลจากส่วนที่เกี่ยวข้องของรูปภาพ

    หากต้องการคำตอบที่เจาะจงมากขึ้น ให้ระบุแง่มุมของรูปภาพที่คุณต้องการให้พรอมต์แสดง ดึงข้อมูลจาก เพื่อแจ้งการตอบสนอง

    พรอมต์ การตอบสนองของโมเดล

    ผ้าอ้อมแบบนี้จะมีอายุกี่วันสำหรับทารก

    ผ้าอ้อมใช้ได้ 198 วันก่อนที่จะหมด

    ข้อความแจ้งที่อัปเดต คำตอบที่ดีขึ้น

    ผ้าอ้อมจะใช้ได้นานเท่าใดก่อนที่จะหมด

    ใช้น้ำหนักที่แสดงบนกล่องเพื่อพิจารณาอายุของบุตรหลาน แล้วใช้จำนวนผ้าอ้อมทั้งหมดในกล่อง

    หารจำนวนรวมด้วยจำนวนผ้าอ้อมที่เด็กใช้ต่อวัน

    กล่องมีผ้าอ้อม 198 ใบ ในกล่องระบุว่าผ้าอ้อมสำหรับเด็กน้ำหนัก 22-37 ปอนด์

    เด็กที่มีช่วงน้ำหนักโดยเฉลี่ยนี้มีแนวโน้มที่จะอยู่ระหว่าง 1 ถึง 2 ปี

    เด็ก 2 ขวบมักจะซื้อผ้าอ้อม 6 ผืนต่อวัน ดังนั้นผ้าอ้อมจึงมีอายุการใช้งานประมาณ 33 วัน (198/6)

    หากเอาต์พุตโมเดลกว้างเกินไปและไม่ปรับให้เหมาะกับอินพุตรูปภาพ

    ลองขอให้โมเดลอธิบายรูปภาพก่อนที่จะดำเนินการให้เหตุผล เพื่อช่วยให้โมเดลปรับแต่งการตอบสนองกับรูปภาพได้

    พรอมต์ การตอบสนองของโมเดล

    รูปภาพเหล่านี้มีอะไรที่เหมือนกัน

    ภาพทั้ง 4 ภาพเป็นตัวอย่างของภาพถ่ายแนวนอน

    ข้อความแจ้งที่อัปเดต คำตอบที่ดีขึ้น

    ก่อนอื่น ให้อธิบายสิ่งที่อยู่ในรูปภาพแต่ละรูปโดยละเอียด รูปภาพเหล่านี้มีอะไรที่เหมือนกัน

    ภาพแรกแสดงภาพคนกำลังแพ็กกระเป๋า ภาพที่ 2 แสดงโถงทางเดินที่ว่างเปล่าในห้างสรรพสินค้า ภาพที่ 3 แสดงม้วนกระดาษชำระ ภาพที่ 4 แสดงทะเลที่มืดมิดและมีพายุ

    ความคล้ายคลึงกันระหว่างรูปภาพเหล่านี้คือ ทุกรูปเป็นตัวอย่างของการเว้นวรรคแบบจํากัด ช่องว่างขนาดเล็กคือสถานที่หรือสถานการณ์ที่อยู่ระหว่างสถานที่หรือสถานการณ์อื่นๆ 2 อย่าง ผู้คนมักมีลักษณะของความไม่แน่นอนหรือกำกวม

    ภาพแรกแสดงภาพบุคคลที่อยู่ระหว่างการอยู่ที่บ้านและระหว่างการเดินทาง ภาพที่ 2 แสดงโถงทางเดินระหว่างร้านค้า 2 ร้าน ภาพที่ 3 เป็นกระดาษชำระซึ่งอาจแสดงเป็นห้องน้ำ ห้องน้ำเป็นพื้นที่เปลี่ยนผ่านระหว่างห้องน้ำส่วนตัว และอาณาจักรสาธารณะ เป็นสถานที่ที่เราเตรียมตัวเองให้พร้อมเข้าสู่หรือออกจากโลกภายนอก

    ภาพที่ 4 แสดงทะเลที่อยู่ระหว่างความสงบนิ่งและกำลังมีพายุ

    พื้นที่สั้นๆ อาจเป็นทั้งเรื่องตื่นเต้นและสะเทือนใจ สถานที่เหล่านี้อาจเป็นสถานที่แห่งการเริ่มต้นใหม่หรือจุดที่จบลงได้ เป็นสถานที่ทบทวนความรู้สึกหรือสถานที่ทำกิจกรรม

    หรือคุณจะลองขอให้โมเดลอ้างอิงถึงสิ่งที่อยู่ในภาพอย่างชัดแจ้งก็ได้

    ข้อความแจ้งที่อัปเดต คำตอบที่ดีขึ้น

    รูปภาพเหล่านี้มีอะไรที่เหมือนกัน โปรดดูสิ่งที่อยู่ในรูปภาพในคำตอบของคุณ

    รูปภาพทั้งหมดเกี่ยวข้องกับการท่องเที่ยว ภาพแรกแสดงภาพคนกำลังแพ็กกระเป๋า ภาพที่ 2 แสดง โถงทางเดินที่ว่างเปล่าในห้างสรรพสินค้า ภาพที่ 3 แสดงกองกระดาษชำระ และภาพที่ 4 ทะเลที่มืดมิดและมีพายุ

    รูปภาพเหล่านี้ทั้งหมดเกี่ยวข้องกับการท่องเที่ยวเพราะเป็นสิ่งที่ผู้คนจำเป็นต้องใช้หรือเมื่อ ที่พวกเขาเดินทาง ภาพแรกแสดงภาพคนกำลังแพ็กกระเป๋าเดินทาง ซึ่งเป็นสิ่งที่คนทำเมื่อ กำลังจะเดินทาง ภาพที่ 2 แสดงโถงทางเดินที่ว่างเปล่าในห้างสรรพสินค้า ซึ่งเป็นที่ที่ผู้คน มักจะซื้อของสำหรับการเดินทาง ภาพที่ 3 แสดงกองกระดาษทิชชู่ ที่ผู้คนมักจะใช้ขณะเดินทาง ภาพที่ 4 แสดงทะเลที่มืดมิดและมีพายุ ซึ่ง เป็นสิ่งที่ผู้คนมักพบเจอระหว่างเดินทาง

    เคล็ดลับเดียวกันนี้ยังใช้ได้กับเอาต์พุตครีเอทีฟโฆษณาจากรูปภาพ ในตัวอย่างต่อไปนี้ การขอให้โมเดลรวมด้านต่างๆ จากภาพอย่างชัดเจนจะช่วยปรับปรุงผลลัพธ์

    พรอมต์ การตอบสนองของโมเดล

    ช่วยเขียนกลอนเกี่ยวกับรูปภาพนี้ให้หน่อยได้ไหม

    กระต่ายตัวน้อย ตัวนุ่มนิ่มสีน้ำตาล
    กระโดดผ่านสนาม ขึ้นลง
    หูยาวจัง หางเล็กมากเลย
    เธอเป็นสัตว์ที่น่ารักที่สุดในบรรดาตัวการ์ตูนทั้งหมด

    คุณแทะหญ้า ทั้งเขียวและหวานจัง
    และโดดไปข้างนอกเมื่อเจอฉัน
    แต่จะเป็นเพื่อนคุณเสมอนะ
    กระต่ายน้อย อ่านต่อจนจบ

    ข้อความแจ้งที่อัปเดต คำตอบที่ดีขึ้น

    ช่วยเขียนกลอนอธิบายและดราม่าเกี่ยวกับภาพนี้พร้อมระบุตำแหน่งได้ไหม

    กระต่ายน้อยบนผืนเขียว
    หูยาวมากเลย ฉันอยากได้
    เจ้าเห็นอะไรที่นั่น
    คุณจ้องมองไปที่ตำแหน่งใดที่อยู่ห่างไกล

    เป็นสีฟ้าน้ำทะเลหรือเปล่านะ
    ท่ามกลางแสงแดดที่ส่องประกายระยิบระยับ
    หรือคลื่นที่พัดมากระทบและเสียงคำราม
    จังหวะที่คุณชื่นชอบ

    กระต่ายน้อย บอกหน่อยว่าจริง
    อะไรที่ทำให้คุณสนใจ
    หรือสายลมเค็ม
    หรือนกนางนวล ร้องไห้ได้เลยนะ

    หรืออาจจะใหญ่หลวงก็ได้นะ
    โลกทั้งเล็กและใหญ่
    สถานที่ซึ่งความฝันสามารถเดินทางไปได้
    และออกผจญภัยไปได้

    กระต่ายน้อย ผมอยากรู้ว่าคุณฝันอะไร
    สงบนิ่งๆ บนพื้นหญ้า
    คุณปรารถนาที่จะสำรวจดินแดนลึกๆ ไหม
    หรืออยู่บนบก แล้วคุณจะกระโดดได้อย่างไร

    ไม่ว่าจะเป็นอะไร กระต่ายน้อย
    คอยส่องประกายแห่งความมหัศจรรย์ให้เจิดจรัส
    สำหรับความฝันและแรงบันดาลใจ
    โลกที่กำลังรอการสร้างผลงานของคุณ

    การแก้ปัญหาว่าส่วนใดของข้อความแจ้งล้มเหลว

    การจะทราบได้ยากว่าข้อความแจ้งล้มเหลวเนื่องจากโมเดล ไม่เข้าใจรูปภาพตั้งแต่แรก หรือไม่ว่าเข้าใจรูปภาพแต่ ไม่ได้ทำตาม ขั้นตอนการให้เหตุผลที่ถูกต้องหลังจากนั้น

    หากต้องการอธิบายเหตุผลเหล่านั้นให้ชัดเจน ให้ขอให้โมเดลอธิบายสิ่งที่อยู่ในรูปภาพ

    ในตัวอย่างด้านล่าง หากโมเดลตอบสนองด้วยอาหารว่างที่ดูน่าประหลาดใจเมื่อจับคู่กับ ชา (เช่น ป๊อปคอร์น) ขั้นแรกคุณสามารถแก้ปัญหาเพื่อดูว่าโมเดลจดจำถูกต้องหรือไม่ ว่ารูปภาพมีชา

    พรอมต์ การแจ้งสำหรับการแก้ปัญหา

    เป็นขนมอะไรที่ฉันทำภายใน 1 นาทีจะดีถ้าทำแล้วล่ะ

    อธิบายสิ่งที่อยู่ในรูปภาพนี้

    อีกกลยุทธ์หนึ่งคือการขอให้โมเดลอธิบายเหตุผล ซึ่งจะช่วยให้คุณตีกรอบเหตุผลของส่วนนั้นให้แคบลงได้ (หากมี)

    พรอมต์ การแจ้งสำหรับการแก้ปัญหา

    เป็นขนมอะไรที่ฉันทำภายใน 1 นาทีจะดีถ้าทำแล้วล่ะ

    เป็นขนมอะไรที่ฉันทำภายใน 1 นาทีจะดีถ้าทำแล้วล่ะ โปรดให้เหตุผล

    การปรับแต่งพารามิเตอร์การสุ่มตัวอย่าง

    ในคำขอแต่ละรายการ คุณจะไม่เพียงแค่ส่งพรอมต์แบบหลายโมดัลเท่านั้น แต่ยังส่งชุดพารามิเตอร์การสุ่มตัวอย่างไปยังโมเดลด้วย โมเดลนี้สามารถสร้างผลลัพธ์ที่แตกต่างกันสำหรับค่าพารามิเตอร์ที่แตกต่างกัน ทดลองใช้ เพื่อรับค่าที่ดีที่สุดสำหรับงาน พารามิเตอร์ที่ปรับบ่อยที่สุดมีดังนี้

    • อุณหภูมิ
    • Top-P
    • ท็อปเค

    อุณหภูมิ

    อุณหภูมิใช้สำหรับการสุ่มตัวอย่างระหว่างการสร้างคำตอบ ซึ่งจะเกิดขึ้นเมื่อใช้ Top-P และ Top-K อุณหภูมิจะควบคุมระดับการสุ่มในการเลือกโทเค็น อุณหภูมิที่ต่ำลงเหมาะกับพรอมต์ที่ ต้องอาศัยคำตอบเชิงกำหนดมากขึ้นและปลายเปิดหรือคำตอบที่สร้างสรรค์น้อยกว่า ขณะที่อุณหภูมิที่สูงขึ้นก็อาจทำให้ ผลลัพธ์ที่หลากหลายหรือสร้างสรรค์ อุณหภูมิที่ 0 จะเป็นแบบกำหนดเชิงกำหนด ซึ่งหมายความว่าคำตอบที่มีความน่าจะเป็นสูงสุด ไว้เสมอ

    สําหรับกรณีการใช้งานส่วนใหญ่ ให้ลองเริ่มที่อุณหภูมิที่ 0.4 ถ้าคุณต้องการผลลัพธ์ ที่สร้างสรรค์มากขึ้น ให้ลองเพิ่ม อุณหภูมิ หากสังเกตเห็นความไม่สมเหตุสมผลอย่างชัดเจน ให้ลองลดอุณหภูมิ

    ท็อป K

    Top-K จะเปลี่ยนวิธีที่โมเดลเลือกโทเค็นเพื่อแสดงผล Top-K ของ 1 หมายความว่าโทเค็นถัดไปที่เลือกคือ ที่เป็นไปได้มากที่สุดในบรรดาโทเค็นทั้งหมดในคำศัพท์ของโมเดล (หรือที่เรียกว่าการถอดรหัสแบบโล่ง) ในขณะที่ Top-K ของ 3 หมายความว่าโทเค็นถัดไปจะถูกเลือกจาก 3 โทเค็นที่เป็นไปได้มากที่สุดโดย โดยใช้อุณหภูมิ

    สำหรับขั้นตอนการเลือกโทเค็นแต่ละขั้นตอน ระบบจะสุ่มตัวอย่างโทเค็นยอดนิยม K ที่มีความน่าจะเป็นสูงสุด จากนั้น ระบบจะกรองโทเค็นเพิ่มเติมโดยอิงตาม Top-P ด้วยโทเค็นสุดท้ายที่เลือกโดยใช้การสุ่มตัวอย่างอุณหภูมิ

    ระบุค่าต่ำกว่าสำหรับคำตอบแบบสุ่มน้อยกว่าและค่าที่สูงขึ้นสำหรับคำตอบแบบสุ่มที่มากขึ้น ค่าเริ่มต้นของ Top-K คือ 32

    ตัวท็อป-พี

    Top-P จะเปลี่ยนวิธีที่โมเดลเลือกโทเค็นเพื่อแสดงผล เลือกโทเค็นจากมากที่สุด (ดู Top-K) เป็นไปได้น้อยที่สุดจนกว่าผลรวมของความน่าจะเป็นจะเท่ากับค่า Top-P เช่น หากโทเค็น A, B และ C มีความน่าจะเป็นที่ 0.6, 0.3, 0.1 และค่า Top-P คือ 0.9 โมเดลจะ เลือก A หรือ B เป็นโทเค็นถัดไปโดยใช้อุณหภูมิและยกเว้น C เป็นโทเค็น

    ระบุค่าต่ำกว่าสำหรับคำตอบแบบสุ่มน้อยกว่าและค่าที่สูงขึ้นสำหรับคำตอบแบบสุ่มที่มากขึ้น ค่าเริ่มต้นของ Top-P คือ 1.0

    ขั้นตอนถัดไป

    • ลองเขียนพรอมต์แบบหลายโมดัลของคุณเองโดยใช้ AI ของ Google Studio
    • ดูคำแนะนำเพิ่มเติมเกี่ยวกับการออกแบบพรอมต์ได้ที่ กลยุทธ์พรอมต์