กลยุทธ์การแจ้งไฟล์

โมเดลปัญญาประดิษฐ์ (AI) ในตระกูล Gemini สร้างขึ้นมาเพื่อรับมือกับข้อมูลอินพุตประเภทต่างๆ ทั้งข้อความ รูปภาพ และเสียง เนื่องจากโมเดลเหล่านี้รองรับข้อมูลได้มากกว่า 1 ประเภทหรือหลายโหมด โมเดล Gemini จึงเรียกว่าโมเดลหลายรูปแบบ หรืออธิบายว่ามีความสามารถหลายรูปแบบ

หน้านี้ให้คำแนะนำและแนวทางปฏิบัติแนะนำในการใช้ไฟล์สื่อพร้อมพรอมต์สำหรับ Gemini API ดูข้อมูลเกี่ยวกับการใช้ Gemini Files API เพื่ออัปโหลดไฟล์สื่อและใส่ไว้ในพรอมต์ได้ที่ข้อความแจ้งด้วยไฟล์สื่อ

การใช้ไฟล์สื่อกับพรอมต์

การใช้ข้อมูลประเภทต่างๆ ในพรอมต์ช่วยให้คุณมีความยืดหยุ่นมากขึ้นในด้านงานที่ทำได้ด้วย Gemini API ตัวอย่างเช่น คุณสามารถส่งรูปภาพของมื้ออาหารแสนอร่อยให้โมเดล และขอให้โมเดลเขียนบล็อกสั้นๆ เกี่ยวกับมื้ออาหาร

พรอมต์ คำตอบ

เขียนบล็อกโพสต์สั้นๆ ที่น่าสนใจโดยใช้รูปภาพนี้ ซึ่งควรมีคำอธิบายอาหารในรูปภาพและพูดถึงวิธีการเตรียมมื้ออาหารของฉัน


คุกกี้

การเตรียมอาหารเป็นวิธีที่ยอดเยี่ยมในการประหยัดเวลาและค่าใช้จ่าย และยังช่วยให้คุณรับประทานอาหารที่ดีต่อสุขภาพมากขึ้นด้วย อาหารมื้อนี้เป็นตัวอย่างที่ยอดเยี่ยมของอาหารเพื่อสุขภาพและอร่อยที่เตรียมไว้ล่วงหน้าได้ง่ายๆ

เมนูนี้มีข้าวกล้อง ผักย่าง และไก่เทริยากิ ข้าวกล้องเป็นคาร์โบไฮเดรตที่ซับซ้อนและดีต่อสุขภาพ ซึ่งจะให้พลังงานที่ยั่งยืน ผักย่างเป็นวิธีที่ยอดเยี่ยมในการได้รับวิตามินและเกลือแร่ในแต่ละวัน ส่วนไก่เทริยากิก็เป็นตัวเลือกที่อร่อยและอุดมไปด้วยโปรตีน

อาหารจานนี้ก็เตรียมง่ายมากเช่นกัน แค่ทำข้าวกล้อง ปิ้งผัก และปรุงไก่เทริยากิ เมื่อทุกอย่างสุกแล้ว ให้แบ่งใส่ลงในภาชนะเตรียมอาหารแล้วเก็บไว้ในตู้เย็น จากนั้นคุณสามารถหยิบภาชนะขึ้นมาแล้วออกไปลุยงานในตอนเช้าให้วุ่นวายได้!

หากกำลังมองหาอาหารเพื่อสุขภาพและแสนอร่อยที่เตรียมไว้ล่วงหน้าได้ง่ายๆ เมนูนี้ก็เป็นตัวเลือกที่ยอดเยี่ยม เต็มไปด้วยสารอาหารและรสชาติ ที่จะช่วยให้คุณรู้สึกเต็มอิ่มและอิ่มท้องอยู่เสมอ

พบกับการเตรียมอาหารแสนอร่อยและดีต่อสุขภาพ

กลยุทธ์สำหรับข้อความแจ้งด้วยสื่อ

หากพบปัญหาในการรับผลลัพธ์ที่ต้องการจากพรอมต์ที่ใช้ไฟล์สื่อ มีกลยุทธ์บางอย่างที่ช่วยให้คุณได้รับผลลัพธ์ที่ต้องการได้ ส่วนต่อไปนี้จะมีวิธีการออกแบบและเคล็ดลับในการแก้ปัญหาในการปรับปรุงพรอมต์ที่ใช้การป้อนข้อมูลหลายรูปแบบ

คุณปรับปรุงข้อความแจ้งในหลายโมดัลได้โดยทำตามแนวทางปฏิบัติแนะนำต่อไปนี้

ปัจจัยพื้นฐานในการออกแบบเบื้องต้น

  • เขียนวิธีการให้มีความเฉพาะเจาะจง: กำหนดวิธีการที่ชัดเจนและกระชับ โดยเหลือพื้นที่ว่างน้อยที่สุดในการตีความหมายผิดพลาด
  • เพิ่มตัวอย่างลงในพรอมต์: ใช้ตัวอย่าง 2-3 ช็อตที่สมจริงเพื่อแสดงสิ่งที่ต้องการทำให้สำเร็จ
  • แจกแจงงานทีละขั้นตอน: แบ่งงานที่ซับซ้อนออกเป็นเป้าหมายย่อยที่จัดการได้ และช่วยชี้แนะโมเดลในกระบวนการ
  • ระบุรูปแบบเอาต์พุต: ขอให้เอาต์พุตอยู่ในรูปแบบที่ต้องการในพรอมต์ เช่น มาร์กดาวน์, JSON, HTML และอื่นๆ
  • ใส่รูปภาพเป็นอันดับแรกในพรอมต์ที่เป็นรูปภาพเดียว: แม้ว่า Gemini จะจัดการกับการป้อนข้อมูลรูปภาพและข้อความได้ในลำดับใดก็ได้ แต่สำหรับพรอมต์ที่มีรูปภาพเดียว อาจมีประสิทธิภาพดีกว่าหากวางรูปภาพนั้นก่อนพรอมต์ข้อความ

    การแก้ปัญหาข้อความแจ้งในหลายโมดัล

    • หากโมเดลไม่ได้ดึงข้อมูลจากส่วนที่เกี่ยวข้องของรูปภาพ: วางคำแนะนำโดยระบุแง่มุมของรูปภาพที่ต้องการให้พรอมต์ดึงข้อมูล
    • หากเอาต์พุตโมเดลกว้างเกินไป (ไม่ปรับให้เหมาะกับรูปภาพ): ในตอนต้นของข้อความแจ้ง ให้ลองขอให้โมเดลอธิบายรูปภาพก่อนระบุคำสั่งของงาน หรือลองขอให้โมเดลอ้างอิงถึงสิ่งที่อยู่ในรูปภาพ
    • ปัจจัยพื้นฐานในการออกแบบพรอมต์

      ส่วนนี้จะอธิบายเพิ่มเติมเกี่ยวกับแนวทางปฏิบัติแนะนำที่ระบุไว้ในส่วนก่อนหน้านี้

      หมายเหตุ: ผลลัพธ์โมเดลจากตัวอย่าง Gemini ต่อไปนี้อาจแตกต่างกันไปในแต่ละการเรียกใช้

      ระบุวิธีการให้ชัดเจน

      ข้อความแจ้งจะประสบความสำเร็จมากที่สุดเมื่อมีข้อมูลที่ชัดเจนและให้รายละเอียด หากคุณมีผลลัพธ์ที่ต้องการแล้ว เราขอแนะนำให้ใส่ข้อกำหนดนั้นในพรอมต์เพื่อให้แน่ใจว่าคุณจะได้รับเอาต์พุตที่ต้องการ

      ในบางครั้ง ผู้เขียนอาจดูเจตนาของข้อความแจ้ง แต่จริงๆ แล้วเจตนาของพรอมต์ไม่ได้ระบุไว้ หากต้องการปรับแต่งการทำงานของโมเดล ให้พิจารณาวิธีตีความ (พลาด) พรอมต์และตรวจสอบว่าวิธีการที่คุณระบุมีความเฉพาะเจาะจงและชัดเจน อย่าลืมเว้นที่ว่างให้น้อยที่สุดสำหรับการตีความผิด

      สำหรับภาพกระดานสนามบินนี้ ขอให้โมเดลเพียงแค่ "อธิบายภาพนี้" อาจสร้างคำอธิบายทั่วไปได้ หากต้องการให้โมเดลแยกวิเคราะห์เวลาและเมืองจากรูปภาพ คุณใส่คำขอนั้นลงในพรอมต์ได้โดยตรง

      พรอมต์ การตอบกลับโมเดล

      อธิบายรูปภาพนี้

      รูปภาพแสดงกระดานการมาถึงและออกเดินทางของสนามบิน

      ข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น
      ตารางเวลาการเดินทาง

      แยกวิเคราะห์เวลาและเมืองจากกระดานสนามบินที่แสดงในรูปภาพนี้เป็นรายการ

    • 10:50 มอสโก
    • 11:05 เอดินบะระ
    • 11:05 ลอนดอน
    • 11:10 บูคาเรสต์
    • 11:30 เคียฟ
    • 11:35 ดับลิน
    • 11:45 มิดแลนด์ตะวันออก
    • 12:15 โซเฟีย
    • 12:30 น. ลอนดอน
    • 12:30 นิวคาสเซิล
    • 12:40 เซนต์ปีเตอร์สเบิร์ก
    • 12:40 น. ลอนดอน
    • 12:45 แมนเชสเตอร์
    • เพิ่มตัวอย่าง

      โมเดล Gemini จะยอมรับอินพุตหลายรายการซึ่งใช้เป็นตัวอย่างเพื่อทำความเข้าใจเอาต์พุตที่คุณต้องการได้ การเพิ่มตัวอย่างเหล่านี้จะช่วยให้โมเดลระบุรูปแบบและนำความสัมพันธ์ระหว่างรูปภาพและคำตอบที่ระบุไปใช้กับตัวอย่างใหม่ได้ หรือเรียกอีกอย่างว่าการเรียนรู้แบบ "ไม่ช้า"

      ในตัวอย่างด้านล่าง เอาต์พุตเบื้องต้นจะเขียนในรูปแบบประโยค และมีประเทศ (บราซิล) ด้วย สมมติว่าคุณต้องการผลลัพธ์ในรูปแบบหรือสไตล์อื่น และคุณต้องการ เฉพาะเมือง ไม่ใช่ประเทศ การเพิ่มตัวอย่างภาพ 2-3 ช็อตลงในพรอมต์จะช่วยนำทางโมเดลให้ตอบสนองตามที่ต้องการได้

      พรอมต์ การตอบกลับจากโมเดล
      ตารางเวลาการเดินทาง

      กำหนดเมืองพร้อมกับจุดสังเกต

      สถานที่สำคัญคือรูปปั้นพระคริสต์ผู้ไถ่ที่เมืองรีโอเดจาเนโร ประเทศบราซิล

      ข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น

      กำหนดเมืองพร้อมกับจุดสังเกต

      โคลอสเซียม

      เมือง: โรม, สถานที่สำคัญ: โคลอสเซียม

      พระราชวังต้องห้าม

      เมือง: ปักกิ่ง, จุดสังเกต: พระราชวังต้องห้าม

      เมืองต้องห้าม

      เมือง: รีโอเดจาเนโร สถานที่สำคัญ: รูปปั้นพระเยซูคริสต์

      แสดงรายละเอียดทีละขั้นตอน

      สำหรับงานที่ซับซ้อนอย่างเช่นงานที่ต้องใช้ทั้งความเข้าใจของภาพและการให้เหตุผล การแบ่งงานออกเป็นขั้นตอนที่ย่อยๆ และไม่ซับซ้อนอาจช่วยได้ นอกจากนี้ วิธีนี้อาจมีประสิทธิภาพหากคุณขอให้โมเดล "คิดทีละขั้นตอน" ในพรอมต์โดยตรง

      พรอมต์ การตอบกลับโมเดล

      กระดาษชำระจะหมดเมื่อใด

      อีกไม่นานคุณเหลือแค่ 3 ชิ้น

      ข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น

        1. ก่อนอื่น ให้นับว่าในรูปนี้มีม้วนกระดาษทิชชูกี่ม้วน
        2. จากนั้นก็พิจารณาปริมาณกระดาษชำระที่คนทั่วไปใช้ต่อวัน
        3. คำนวณระยะเวลาในการม้วนกระดาษชำระเหล่านี้

        1. รูปนี้มีกระดาษทิชชู 3 ม้วน
        2. คนทั่วไปใช้กระดาษชำระประมาณ 20 แผ่นต่อวัน
        3. หากแต่ละม้วนมี 200 แผ่น แต่ละม้วนจะใช้งานได้ประมาณ 10 วัน ดังนั้น ทั้ง 3 รอบจึงใช้เวลาประมาณ 1 เดือน

      โจทย์คณิตศาสตร์หรือโจทย์ปัญหาประเภทอื่นๆ เหมาะที่จะขอให้โมเดลคิดทีละขั้นตอน

      พรอมต์ คำตอบ

      พจน์ที่ 4 ในลำดับคืออะไร

      -135

      การตอบสนองจากโมเดลไม่ถูกต้อง วิธีปรับปรุงให้ดีขึ้นด้วยการขอให้โมเดลแยกวิเคราะห์ปัญหาก่อนที่จะตอบพรอมต์

      พรอมต์ คำตอบ

      ให้แยกวิเคราะห์สูตรในรูปภาพก่อน

      จากนั้นตอบคำถามว่า "พจน์ที่ 4 ในลำดับคืออะไร" โดยอิงจากสูตร

      คลิกเพื่อขยายผลลัพธ์

      $$ b(n) = b(n-1) * (-3) $$

      $$ b(1) = 15 $$

      1. แทนที่ n = 4 ในสูตร
      2. $$ b(4) = b(4-1) * (-3) $$

        $$ b(4) = b(3) * (-3) $$

      3. เราไม่ทราบค่าของ b(3) ดังนั้นโปรดแทนที่ n = 3 ในสูตรดังนี้
      4. $$ b(3) = b(3-1) * (-3) $$

        $$ b(3) = b(2) * (-3) $$

      5. เราไม่ทราบค่าของ b(2) ดังนั้นโปรดแทนที่ n = 2 ในสูตรดังนี้
      6. $$ b(2) = b(2-1) * (-3) $$

        $$ b(2) = b(1) * (-3) $$

      7. เราทราบว่าค่า b(1) คือ 15 ดังนั้นโปรดแทนที่ค่า b(1) ในสูตร:
      8. $$ b(2) = 15 * (-3) $$

        $$ b(2) = -45 $$

      9. เมื่อทราบค่าของ b(2) แล้ว ให้แทนที่ค่า b(3) ในสูตรต่อไปนี้
      10. $$ b(3) = b(2) * (-3) $$

        $$ b(3) = -45 * (-3) $$

        $$ b(3) = 135 $$

      11. เมื่อทราบค่าของ b(3) แล้ว ให้แทนที่ค่า b(4) ในสูตรต่อไปนี้
      12. $$ b(4) = b(3) * (-3) $$

        $$ b(4) = 135 * (-3) $$

        $$ b(4) = -405 $$

      ดังนั้น พจน์ที่ 4 ในลำดับคือ -405

      การตอบกลับของโมเดลนี้ถูกต้อง ในการทำให้คำตอบมีประสิทธิภาพยิ่งขึ้น คุณสามารถขอให้โมเดลคิดทีละขั้นตอน

      ข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น

      พจน์ที่ 4 ในลำดับคืออะไร ลองคิดไปทีละขั้นตอน

      ภาคการศึกษาแรกคือ 15 ปี

      ค่าที่ 2 คือ b(1) * (-3) = 15 * (-3) = -45

      คำที่ 3 คือ b(2) * (-3) = -45 * (-3) = 135

      ค่าที่ 4 คือ b(3) * (-3) = 135 * (-3) = -405

      ลองระบุรูปแบบเอาต์พุต

      ปัญหาที่พบได้ทั่วไปคือ ต้องการให้เอาต์พุตโมเดลอยู่ในรูปแบบที่กำหนด (เช่น Markdown, JSON, HTML) โดยเฉพาะอย่างยิ่งหากงานดาวน์สตรีมต้องนำเข้าเอาต์พุตโมเดล คุณสามารถลองสร้างเอาต์พุตในรูปแบบดังกล่าวได้โดยสั่งให้โมเดลทำภายในพรอมต์ ด้านล่างนี้คือ 2 ตัวอย่าง

      พรอมต์ การตอบกลับโมเดล

      แยกวิเคราะห์ตารางในรูปภาพนี้เป็นรูปแบบมาร์กดาวน์

      | เรื่อง | สถานะ | เวลา | วันที่เริ่มต้น | ครบกำหนดวันที่ |

      | ------- | ------ | ---- | --------- | ------ |

      | คณิตศาสตร์ | เสร็จสิ้น | 1.5 ชม. | 29/11/2023 | 1/12/2023 |

      | ภูมิศาสตร์ | เสร็จสิ้น | 30 นาที | 2/12/2023 | 4/12/2023 |

      | ฟิสิกส์ | กำลังดำเนินการ | 2 ชม. | 3/12/2023 | 5/12/2023 |

      | ชีววิทยา | ยังไม่เริ่ม | 6 ชม. | 2/11/2016 | 6/12/2023 |

      พรอมต์ การตอบกลับจากโมเดล

      ระบุรายการแอตทริบิวต์ต่อไปนี้ทั้งหมด

      ส่วนผสม ประเภทอาหาร มังสวิรัติ หรือไม่ในรูปแบบ JSON

      ```json```

      {

      "ingredients": [

      "rice",

      "shrimp",

      "clams",

      "mussels",

      "peas",

      "tomatoes",

      "onions",

      "garlic",

      "olive oil",

      "paprika",

      "salt",

      "pepper"

      ],

      "type of cuisine": "Spanish",

      "vegetarian": false

      ใส่รูปภาพของคุณก่อนสำหรับข้อความแจ้งที่มีรูปภาพเดียว

      แม้ว่า Gemini จะตีความรูปภาพและข้อความในลำดับใดก็ได้ภายในพรอมต์ แต่การวางรูปภาพเดียวก่อนข้อความแจ้งข้อความอาจช่วยให้ได้ผลลัพธ์ที่ดีกว่า ในตัวอย่างต่อไปนี้ คุณจะสังเกตเห็นว่ารูปภาพ มาก่อนข้อความในแต่ละพรอมต์

      การแก้ปัญหาข้อความแจ้งแบบหลายโมดัล

      คุณอาจต้องแก้ปัญหาข้อความแจ้งหากไม่ได้รับคําตอบที่เป็นประโยชน์ ตัวอย่างกลยุทธ์ที่น่าลองใช้มีดังนี้

      ถ้าโมเดลไม่ได้ดึงข้อมูลจากส่วนที่เกี่ยวข้องของรูปภาพ

      หากต้องการคำตอบที่เจาะจงมากขึ้น ให้ระบุแง่มุมของรูปภาพที่ต้องการให้ระบบดึงข้อมูลมาประกอบคำตอบ

      พรอมต์ การตอบกลับโมเดล

      ผ้าอ้อมเหล่านี้จะมีอายุกี่วัน

      ผ้าอ้อมมีอายุ 198 วันก่อนจะหมด

      ข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น

      ผ้าอ้อมเหล่านี้จะอยู่ได้นานแค่ไหนก่อนที่จะหมด

      ใช้น้ำหนักที่แสดงบนกล่องเพื่อดูอายุของบุตรหลาน และใช้จำนวนผ้าอ้อมทั้งหมดในกล่อง

      หารจำนวนผ้าอ้อมทั้งหมดด้วยจำนวนผ้าอ้อมที่เด็กใช้ต่อวัน

      ในกล่องมีผ้าอ้อม 198 ผืน ในกล่องระบุว่าผ้าอ้อมสำหรับเด็กมีน้ำหนัก 22-37 ปอนด์

      เด็กโดยเฉลี่ยในช่วงน้ำหนักนี้มีแนวโน้มที่จะอายุระหว่าง 1-2 ปี

      เด็กอายุ 2 ขวบมักจะใส่ผ้าอ้อม 6 แผ่นต่อวัน ฉะนั้นแล้ว ผ้าอ้อมดังกล่าวจะใช้ได้ประมาณ 33 วัน (198/6)

      หากเอาต์พุตโมเดลกว้างเกินไปและไม่ปรับให้เหมาะกับอินพุตรูปภาพ

      เพื่อช่วยให้โมเดลปรับแต่งการตอบสนองต่อรูปภาพได้ ลองขอให้โมเดลอธิบายรูปภาพก่อนดำเนินการให้เหตุผล

      พรอมต์ การตอบกลับโมเดล

      รูปภาพเหล่านี้มีอะไรที่เหมือนกัน

      ภาพทั้ง 4 ภาพเป็นตัวอย่างของการถ่ายภาพแนวนอน

      ข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น

      ก่อนอื่น ให้อธิบายสิ่งที่อยู่ในรูปภาพแต่ละรูปอย่างละเอียด รูปภาพเหล่านี้มีอะไรที่เหมือนกัน

      ภาพแรกแสดงคนกำลังเก็บกระเป๋าเดินทาง ภาพที่ 2 แสดงโถงทางเดินว่างเปล่าในห้างสรรพสินค้า รูปภาพที่ 3 แสดงม้วนกระดาษทิชชู ภาพที่ 4 แสดงทะเลมืดและพายุ

      ความคล้ายคลึงกันระหว่างรูปภาพเหล่านี้คือรูปภาพเหล่านี้ทั้งหมดเป็นตัวอย่างของช่องว่างขนาดเล็ก ช่องว่าง Liminal Space คือสถานที่หรือสถานการณ์ที่อยู่ระหว่างสถานที่หรือสถานการณ์อื่น 2 แห่ง ซึ่งมักจะมีความไม่แน่นอนหรือไม่ชัดเจน

      ภาพแรกแสดงบุคคลที่อยู่ระหว่างอยู่บ้านและอยู่ระหว่างการเดินทาง ภาพที่ 2 แสดงโถงทางเดินที่อยู่ระหว่างร้านค้า 2 แห่ง รูปภาพที่ 3 เป็นกระดาษชำระ ซึ่งแสดงห้องน้ำ ห้องน้ำเป็นพื้นที่เปลี่ยนผ่านระหว่างขอบเขตส่วนตัวและสาธารณะ เพราะเป็นที่ที่เราเตรียมตัวให้พร้อมสำหรับเข้าสู่หรือออกจากโลกภายนอก

      ภาพที่ 4 แสดงทะเลที่สงบและมีพายุ

      พื้นที่ที่สั้นลงแต่อาจทำให้น่าตื่นเต้นและน่าตื่นเต้น ซึ่งอาจเป็นจุดเริ่มใหม่หรือจุดจบก็ได้ ซึ่งอาจเป็นสถานที่ทบทวนตนเองหรือสถานที่ลงมือทำก็ได้

      หรือจะลองขอให้โมเดลอ้างอิงสิ่งที่อยู่ในรูปภาพก็ได้เช่นกัน

      ข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น

      รูปภาพเหล่านี้มีอะไรที่เหมือนกัน โปรดดูสิ่งที่อยู่ในรูปภาพในคําตอบของคุณ

      ทุกภาพเกี่ยวข้องกับการท่องเที่ยว ภาพแรกแสดงคนกำลังจัดกระเป๋าเดินทาง ภาพที่ 2 แสดงโถงว่างเปล่าในห้างสรรพสินค้า ภาพที่ 3 กองกระดาษทิชชู และภาพที่ 4 แสดงท้องทะเลมืดครึ้ม

      รูปภาพเหล่านี้ล้วนเกี่ยวข้องกับการท่องเที่ยวเพราะเป็นสิ่งที่ผู้คนต้องการหรือใช้เมื่อเดินทาง ภาพแรกแสดงภาพคนกำลังแพ็กกระเป๋า ซึ่งเป็นสิ่งที่ผู้คนทำเมื่อกำลังเดินทาง ภาพที่ 2 แสดงโถงทางเดินว่างเปล่าในศูนย์การค้า ซึ่งเป็นที่ที่ผู้คนมักจะไปซื้อของสำหรับการเดินทาง รูปภาพที่ 3 แสดงกองกระดาษชำระ ซึ่งเป็นกระดาษที่ผู้คนมักจะใช้เมื่อเดินทาง ภาพที่ 4 แสดงทะเลมืดมิดและพายุ ซึ่งเป็นสิ่งที่ผู้คนมักจะพบเจอเมื่อเดินทาง

      เคล็ดลับเดียวกันนี้สามารถใช้ได้กับการสร้างครีเอทีฟโฆษณาจากรูปภาพ ในตัวอย่างกระต่ายต่อไปนี้ การขอให้โมเดลใส่ลักษณะจากรูปภาพอย่างชัดเจนจะช่วยให้ผลลัพธ์ดีขึ้น

      พรอมต์ การตอบกลับโมเดล

      ช่วยเขียนกลอนเกี่ยวกับรูปภาพให้หน่อยได้ไหม

      กระต่ายน้อยสีน้ำตาลแสนนุ่มนวล
      กระโดดโลดเต้นกลางทุ่งโล่งๆ
      หูของคุณยาว หางเล็กสุดๆ
      คุณเป็นสิ่งมีชีวิตที่น่ารักที่สุดในบรรดาสัตว์ทั้งหมด

      คุณแทะหญ้า สีเขียวยังหวานมาก
      แล้วก็เดินหนีไปเลย
      แต่เราจะเป็นเพื่อนของคุณเสมอ
      กระต่ายน้อยไปเรื่อย ๆ ดีกว่า

      ข้อความแจ้งที่อัปเดต การตอบสนองที่ดีขึ้น

      ช่วยเขียนบทกวีที่สื่อความหมายและน่าทึ่งเกี่ยวกับรูปภาพนี้และระบุสถานที่ได้ไหม

      กระต่ายน้อยตัวเขียว
      หูยาวสุดๆ เลย
      คุณเห็นอะไรอยู่ตรงนั้น
      มองไปไกลๆ ตรงไหน

      น้ำทะเลเป็นสีฟ้า
      แสงอาทิตย์ส่องประกายระยิบระยับไหม
      หรือคลื่นที่กระทบกันไปมา
      เป็นจังหวะที่คุณชื่นชอบใช่ไหม

      กระต่ายน้อย บอกฉันหน่อยสิ
      สิ่งใดที่ทำให้คุณสนใจ
      ลมเค็มๆ ไหม
      หรือนกนางนวลร้องไห้ได้โปรด

      บางทีนี่อาจหมายถึงความกว้างใหญ่
      โลกทั้งใบเล็กและใหญ่
      ดินแดนของความฝันที่โลดแล่น
      และโลกแห่งการผจญภัย

      กระต่ายน้อย ฉันสงสัยว่าคุณฝันอะไรอยู่
      นั่งอยู่บนพื้นหญ้า เงียบสงบสุดๆ
      คุณปรารถนาที่จะสำรวจโลกลึก
      หรืออยู่บนบกที่คุณจะสามารถกระโดดได้

      จะเรื่องอะไรก็กระต่ายน้อย
      คอยสร้างแรงบันดาลใจให้เจิดจ้าอยู่เสมอ
      เพื่อความฝันและแรงบันดาลใจของคุณ
      โกหกโลกที่รอให้คุณสร้างขึ้น

      แก้ปัญหาส่วนใดของข้อความแจ้งที่ไม่สำเร็จ

      อาจเป็นเรื่องยากที่จะรู้ว่าข้อความแจ้งล้มเหลวเนื่องจากโมเดลไม่เข้าใจรูปภาพตั้งแต่แรก หรือโมเดลเข้าใจรูปภาพแต่ไม่ได้ทำตามขั้นตอนการให้เหตุผลที่ถูกต้องหลังจากนั้น

      เพื่ออธิบายเหตุผลเหล่านั้นให้ชัดเจน ให้ขอให้โมเดลอธิบายสิ่งที่อยู่ในรูปภาพ

      ในตัวอย่างด้านล่าง หากโมเดลตอบเป็นของว่างที่ดูน่าประหลาดใจเมื่อจับคู่กับชา (เช่น ป๊อปคอร์น) ก่อนอื่น คุณสามารถแก้ปัญหาเพื่อดูว่าโมเดลนั้นเข้าใจอย่างถูกต้องว่ารูปภาพมีชาหรือไม่

      พรอมต์ การแจ้งเพื่อการแก้ปัญหา

      ฉันจะกินขนมขบเคี้ยวอะไรใน 1 นาทีที่จะดีได้

      อธิบายสิ่งที่อยู่ในรูปภาพนี้

      อีกกลยุทธ์หนึ่งคือขอให้โมเดลอธิบายเหตุผล วิธีนี้ช่วยให้คุณตีกรอบเหตุผลให้แคบลงได้ (หากมี)

      พรอมต์ การแจ้งเพื่อการแก้ปัญหา

      ฉันจะกินขนมขบเคี้ยวอะไรใน 1 นาทีที่จะดีได้

      ฉันจะกินขนมขบเคี้ยวอะไรใน 1 นาทีที่จะดีได้ โปรดให้เหตุผล

      การปรับแต่งพารามิเตอร์การสุ่มตัวอย่าง

      ในแต่ละคำขอ คุณไม่เพียงแค่ส่งพรอมต์แบบหลายโมดัลแต่ส่งชุดพารามิเตอร์การสุ่มตัวอย่างไปยังโมเดลด้วย โมเดลนี้สามารถสร้างผลลัพธ์ที่แตกต่างกันสำหรับค่าพารามิเตอร์ที่ต่างกัน ทดลองใช้พารามิเตอร์ต่างๆ เพื่อหาค่าที่ดีที่สุดสำหรับงาน พารามิเตอร์ที่ปรับบ่อยที่สุดมีดังนี้

      • อุณหภูมิ
      • คะแนนสูงสุด
      • ท็อป-K

      อุณหภูมิ

      อุณหภูมิจะใช้ในการสุ่มตัวอย่างระหว่างการสร้างคำตอบ ซึ่งจะเกิดขึ้นเมื่อใช้ Top-P และ Top-K อุณหภูมิจะควบคุมระดับของการสุ่มในการเลือกโทเค็น อุณหภูมิที่ต่ำลงเหมาะสำหรับพรอมต์ที่ต้องมีคำตอบที่ปลายเปิดหรือเชิงสร้างสรรค์น้อยกว่า ส่วนอุณหภูมิที่สูงขึ้นอาจทำให้ได้ผลลัพธ์ที่มีความหลากหลายหรือมีความสร้างสรรค์มากกว่า ระบบจะกำหนดอุณหภูมิ 0 เป็นเชิงกำหนด ซึ่งหมายความว่าระบบจะเลือกการตอบสนองความน่าจะเป็นสูงสุดเสมอ

      สําหรับกรณีการใช้งานส่วนใหญ่ ลองเริ่มที่อุณหภูมิ 0.4 หากต้องการผลการค้นหาที่สร้างสรรค์มากขึ้น ให้ลองเพิ่มอุณหภูมิ หากสังเกตเห็นว่าประสาทหลอนชัดเจน ให้ลองลดอุณหภูมิ

      ท็อป-K

      Top-K เปลี่ยนวิธีการเลือกโทเค็นของโมเดลสำหรับเอาต์พุต Top-K ของ 1 หมายความว่าโทเค็นที่เลือกถัดไปน่าจะเป็นไปได้มากที่สุดในบรรดาโทเค็นทั้งหมดในคำศัพท์ของโมเดล (หรือที่เรียกว่าการถอดรหัสอย่างละโง่) ขณะที่ 1K เท่ากับ 3 หมายความว่าโทเค็นถัดไปจะเลือกจาก 3 โทเค็นที่น่าจะเป็นไปได้มากที่สุดโดยใช้อุณหภูมิ

      สำหรับขั้นตอนการเลือกโทเค็นแต่ละขั้นตอน ระบบจะสุ่มตัวอย่างโทเค็นระดับบนสุดที่มีความน่าจะเป็นสูงสุด จากนั้นระบบจะกรองโทเค็นเพิ่มเติมตาม Top-P ด้วยโทเค็นสุดท้ายที่เลือกโดยใช้การสุ่มตัวอย่างอุณหภูมิ

      ระบุค่าต่ำกว่าสำหรับคำตอบแบบสุ่มจำนวนน้อย และระบุค่าที่สูงขึ้นสำหรับคำตอบแบบสุ่มที่มากขึ้น ค่าเริ่มต้นของ Top-K คือ 32

      อันดับสูงสุด

      Top-P เปลี่ยนวิธีการเลือกโทเค็นของโมเดลสำหรับเอาต์พุต โดยจะเลือกโทเค็นจากความน่าจะเป็นสูงสุด (ดูบนสุด (ดูบนสุด) ไปน้อยที่สุด จนกว่าผลรวมของความน่าจะเป็นเท่ากับค่า P-1P เช่น ถ้าโทเค็น A, B และ C มีความน่าจะเป็นของ 0.6, 0.3, 0.1 และค่า P-S สูงสุดคือ 0.9 โมเดลจะเลือก A หรือ B เป็นโทเค็นถัดไปโดยใช้อุณหภูมิและยกเว้น C เป็นตัวเลือก

      ระบุค่าต่ำกว่าสำหรับคำตอบแบบสุ่มจำนวนน้อย และระบุค่าที่สูงขึ้นสำหรับคำตอบแบบสุ่มที่มากขึ้น ค่าเริ่มต้นของ Top-P คือ 1.0

      ขั้นตอนถัดไป

      • ลองเขียนพรอมต์แบบหลายโมดัลของคุณเองโดยใช้ Google AI Studio
      • ดูคำแนะนำเพิ่มเติมเกี่ยวกับการออกแบบพรอมต์ได้ที่หน้ากลยุทธ์ข้อความแจ้ง