การแจ้งด้วยไฟล์สื่อ


ดูใน ai.google.dev เรียกใช้ใน Google Colab ดูแหล่งที่มาใน GitHub

Gemini API รองรับพรอมต์ที่มีข้อมูลข้อความ รูปภาพ เสียง และวิดีโอ หรือที่เรียกอีกอย่างว่าพรอมต์หลายรูปแบบ ซึ่งหมายความว่าคุณสามารถรวมไฟล์สื่อประเภทดังกล่าวไว้ในพรอมต์ได้ สำหรับไฟล์ขนาดเล็ก คุณสามารถชี้โมเดล Gemini ไปยังไฟล์ในเครื่องได้โดยตรงเมื่อส่งพรอมต์ อัปโหลดไฟล์ขนาดใหญ่ขึ้นด้วย File API ก่อนที่จะรวมไว้ในข้อความแจ้ง

File API ให้คุณจัดเก็บไฟล์ได้สูงสุด 20 GB ต่อโปรเจ็กต์ โดยแต่ละไฟล์มีขนาดไม่เกิน 2 GB ระบบจะจัดเก็บไฟล์ไว้ 48 ชั่วโมงและจะเข้าถึงได้ด้วยคีย์ API เพื่อสร้างภายในระยะเวลาดังกล่าวและจะดาวน์โหลดไฟล์จาก API ไม่ได้ Files API พร้อมให้ใช้งานโดยไม่มีค่าใช้จ่ายในทุกภูมิภาคที่ Gemini API พร้อมให้บริการ

File API จะจัดการอินพุตที่สามารถใช้เพื่อสร้างเนื้อหาที่มี model.generateContent หรือ model.streamGenerateContent โปรดดูข้อมูลเกี่ยวกับรูปแบบไฟล์ที่ถูกต้อง (ประเภท MIME) และโมเดลที่รองรับที่หัวข้อรูปแบบไฟล์ที่รองรับ

คู่มือนี้แสดงวิธีใช้ File API เพื่ออัปโหลดไฟล์สื่อและรวมไว้ในการเรียกใช้ GenerateContent ไปยัง Gemini API สำหรับข้อมูลเพิ่มเติม โปรดดูตัวอย่างโค้ด

รูปแบบไฟล์ที่รองรับ

โมเดล Gemini รองรับพรอมต์ในรูปแบบไฟล์หลายรูปแบบ ส่วนนี้จะอธิบายข้อควรพิจารณาในการใช้รูปแบบสื่อทั่วไปสำหรับพรอมต์ โดยเฉพาะไฟล์รูปภาพ เสียง วิดีโอ และข้อความธรรมดา คุณใช้ไฟล์สื่อสำหรับการแสดงข้อความแจ้งได้เฉพาะในเวอร์ชันโมเดลที่ระบุเท่านั้น ดังที่แสดงในตารางต่อไปนี้

โมเดล รูปภาพ เสียง วิดีโอ ข้อความธรรมดา
Gemini 1.5 Pro (รุ่น 008 ขึ้นไป) ✔ (ไฟล์ภาพสูงสุด 3,600 ไฟล์)

รูปแบบรูปภาพ

คุณสามารถใช้ข้อมูลรูปภาพสำหรับสร้างพรอมต์ด้วยโมเดล Gemini 1.5 ได้ การใช้รูปภาพเพื่อแสดงข้อความแจ้งจะขึ้นอยู่กับข้อจำกัดและข้อกำหนดต่อไปนี้

  • รูปภาพต้องอยู่ในประเภท MIME ข้อมูลรูปภาพอย่างใดอย่างหนึ่งต่อไปนี้
    • PNG - รูปภาพ/png
    • JPEG - รูปภาพ/jpeg
    • WEBP - รูปภาพ/webp
    • HEIC - รูปภาพ/heic
    • HEIF - รูปภาพ/heif
  • รูปภาพสูงสุด 3,600 รูปสำหรับโมเดล Gemini 1.5
  • ไม่มีการจำกัดจำนวนพิกเซลในรูปภาพ อย่างไรก็ตาม รูปภาพขนาดใหญ่จะถูกลดขนาดลงให้พอดีกับความละเอียดสูงสุดที่ 3072 x 3072 ในขณะที่คงสัดส่วนภาพเดิมไว้

รูปแบบเสียง

คุณสามารถใช้ข้อมูลเสียงสำหรับพรอมต์ด้วยโมเดล Gemini 1.5 ได้ การใช้เสียงสำหรับพรอมต์ต้องเป็นไปตามข้อจำกัดและข้อกำหนดต่อไปนี้

  • ระบบรองรับข้อมูลเสียงในรูปแบบเสียงทั่วไปประเภท MIME ต่อไปนี้
    • WAV - เสียง/wav
    • MP3 - เสียง/mp3
    • AIFF - เสียง/AIFF
    • AAC - เสียง/aac
    • OGG Vorbis - เสียง/ogg
    • FLAC - เสียง/flac
  • ความยาวสูงสุดของข้อมูลเสียงที่รองรับในพรอมต์เดียวคือ 9.5 ชั่วโมง
  • ไฟล์เสียงจะถูกสุ่มตัวอย่างซ้ำให้มีความละเอียดข้อมูล 16 Kbps และเสียงหลายช่องทางจะถูกรวมเข้าด้วยกันเป็นช่องเดียว
  • ไม่มีการจำกัดจำนวนไฟล์เสียงในพรอมต์เดียว แต่ความยาวรวมของไฟล์เสียงทั้งหมดในพรอมต์เดียวต้องไม่เกิน 9.5 ชั่วโมง

รูปแบบวิดีโอ

คุณสามารถใช้ข้อมูลวิดีโอสำหรับพรอมต์ด้วยโมเดล Gemini 1.5 ได้

  • ระบบรองรับข้อมูลวิดีโอในรูปแบบวิดีโอทั่วไปประเภท MIME ต่อไปนี้

    • วิดีโอ/MP4
    • วิดีโอ/Mpeg
    • วิดีโอ/เคลื่อนที่
    • วิดีโอ/avi
    • video/x-flv
    • วิดีโอ/mpg
    • วิดีโอ/WebM
    • วิดีโอ/wmv
    • วิดีโอ/3gpp
  • บริการ File API จะสุ่มตัวอย่างวิดีโอเป็นรูปภาพ 1 เฟรมต่อวินาที (FPS) และอาจมีการเปลี่ยนแปลงเพื่อให้คุณภาพการอนุมานที่ดีที่สุด รูปภาพแต่ละรูปจะใช้โทเค็นได้สูงสุด 258 โทเค็นโดยไม่คำนึงถึงความละเอียดและคุณภาพ

รูปแบบข้อความธรรมดา

File API รองรับการอัปโหลดไฟล์ข้อความธรรมดาที่มีประเภท MIME ต่อไปนี้

  • ข้อความ/ธรรมดา
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • ข้อความ/x-typescript
  • แอปพลิเคชัน/x-typescript
  • ข้อความ/csv
  • ข้อความ/มาร์กดาวน์
  • ข้อความ/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • แอปพลิเคชัน/RTF
  • ข้อความ/RTF

สำหรับไฟล์ข้อความธรรมดาที่มีประเภท MIME ไม่อยู่ในรายการ คุณอาจลองระบุประเภท MIME ข้างต้นด้วยตนเอง