การแจ้งด้วยไฟล์สื่อ


ดูบน ai.google.dev เรียกใช้ใน Google Colab ดูซอร์สบน GitHub

Gemini API รองรับข้อความแจ้งที่มีข้อมูลข้อความ รูปภาพ เสียง และวิดีโอ หรือเรียกอีกอย่างว่าพรอมต์หลายรูปแบบ ซึ่งหมายความว่าคุณสามารถรวมไฟล์สื่อประเภทดังกล่าวไว้ในพรอมต์ของคุณได้ สำหรับไฟล์ขนาดเล็ก คุณสามารถชี้โมเดล Gemini ไปยังไฟล์ในเครื่องได้โดยตรงเมื่อแสดงพรอมต์ อัปโหลดไฟล์ขนาดใหญ่ขึ้นด้วย File API ก่อนที่จะรวมไว้ในพรอมต์

File API ช่วยให้คุณจัดเก็บไฟล์ได้สูงสุด 20 GB ต่อโปรเจ็กต์ โดยแต่ละไฟล์มีขนาดไม่เกิน 2 GB ระบบจะจัดเก็บไฟล์ไว้ 48 ชั่วโมงและเข้าถึงได้ด้วยคีย์ API เพื่อสร้างภายในระยะเวลาดังกล่าวและจะดาวน์โหลดจาก API ไม่ได้ Files API พร้อมให้บริการโดยไม่มีค่าใช้จ่ายในทุกภูมิภาคที่ Gemini API พร้อมให้บริการ

File API จะจัดการอินพุตที่ใช้เพื่อสร้างเนื้อหาด้วย model.generateContent หรือ model.streamGenerateContent ได้ ดูข้อมูลเกี่ยวกับรูปแบบไฟล์ที่ถูกต้อง (ประเภท MIME) และโมเดลที่รองรับได้ที่รูปแบบไฟล์ที่รองรับ

คู่มือนี้แสดงวิธีใช้ File API เพื่ออัปโหลดไฟล์สื่อและรวมไว้ในการเรียก GenerateContent ไปยัง Gemini API ดูข้อมูลเพิ่มเติมได้ในตัวอย่างโค้ด

รูปแบบไฟล์ที่รองรับ

โมเดล Gemini รองรับข้อความแจ้งที่มีรูปแบบไฟล์หลายรูปแบบ ส่วนนี้จะอธิบายข้อควรพิจารณาในการใช้รูปแบบสื่อทั่วไปสำหรับพรอมต์ โดยเฉพาะไฟล์รูปภาพ เสียง วิดีโอ และข้อความธรรมดา คุณใช้ไฟล์สื่อสำหรับข้อความแจ้งกับโมเดลเวอร์ชันที่เจาะจงได้เท่านั้นดังที่แสดงในตารางด้านล่าง

โมเดล รูปภาพ เสียง วิดีโอ ข้อความธรรมดา
Gemini 1.5 Pro (รุ่น 008 ขึ้นไป) ✔ (ไฟล์ภาพสูงสุด 3,600 ไฟล์)
การมองเห็น Gemini Pro ✔ (ไฟล์ภาพสูงสุด 16 ไฟล์)

รูปแบบรูปภาพ

คุณสามารถใช้ข้อมูลรูปภาพสำหรับข้อความแจ้งด้วยรุ่น Gemini 1.5 หรือรุ่น Gemini 1.0 Pro Vision เมื่อคุณใช้รูปภาพในการแสดงข้อความแจ้ง รูปภาพเหล่านั้นจะอยู่ภายใต้ข้อจำกัดและข้อกำหนดต่อไปนี้

  • รูปภาพต้องอยู่ในประเภท MIME อย่างใดอย่างหนึ่งต่อไปนี้
    • PNG - รูปภาพ/png
    • JPEG - รูปภาพ/jpeg
    • WEBP - รูปภาพ/WebP
    • HEIC - รูปภาพ/heic
    • HEIF - รูปภาพ/heif
  • สูงสุด 16 ภาพสำหรับรุ่น Gemini 1.0 Pro Vision และ 3600 ภาพสำหรับรุ่น Gemini 1.5
  • ไม่มีขีดจำกัดที่เจาะจงจำนวนพิกเซลในรูปภาพ แต่รูปภาพที่มีขนาดใหญ่กว่าจะถูกลดขนาดลงให้พอดีกับความละเอียดสูงสุดที่ 3072 x 3072 โดยยังคงสัดส่วนภาพดั้งเดิมไว้

รูปแบบเสียง

คุณใช้ข้อมูลเสียงสำหรับข้อความแจ้งได้เมื่อใช้รุ่น Gemini 1.5 เสียงเตือนจะขึ้นอยู่กับข้อจำกัดและข้อกำหนดต่อไปนี้เมื่อคุณใช้เสียงเตือน

  • ระบบรองรับข้อมูลเสียงในรูปแบบเสียงทั่วไปต่อไปนี้ ประเภท MIME
    • WAV - เสียง/wav
    • MP3 - เสียง/mp3
    • AIFF - เสียง/aiff
    • AAC - เสียง/AAC
    • OGG Vorbis - เสียง/Ogg
    • FLAC - เสียง/flac
  • ความยาวสูงสุดที่รองรับของข้อมูลเสียงในพรอมต์เดียวคือ 9.5 ชั่วโมง
  • ระบบจะสุ่มตัวอย่างไฟล์เสียงซ้ำโดยใช้ความละเอียดของข้อมูล 16 Kbps และเสียงหลายช่องทางจะรวมกันในช่องเดียว
  • ไม่มีการจำกัดจำนวนไฟล์เสียงที่เฉพาะเจาะจงในพรอมต์เดียว แต่ความยาวรวมของไฟล์เสียงทั้งหมดในพรอมต์เดียวจะต้องไม่เกิน 9.5 ชั่วโมง

รูปแบบวิดีโอ

คุณใช้ข้อมูลวิดีโอสำหรับข้อความแจ้งได้ด้วยโมเดล Gemini 1.5

  • ข้อมูลวิดีโอจะได้รับการสนับสนุนในรูปแบบวิดีโอที่พบได้ทั่วไป ประเภท MIME ต่อไปนี้

    • วิดีโอ/MP4
    • วิดีโอ/mpeg
    • วิดีโอ/ย้าย
    • วิดีโอ/Avi
    • video/x-flv
    • วิดีโอ/MPG
    • วิดีโอ/Webm
    • วิดีโอ/wmv
    • วิดีโอ/3gpp
  • บริการ File API จะสุ่มตัวอย่างวิดีโอเป็นรูปภาพที่ 1 เฟรมต่อวินาที (FPS) และอาจมีการเปลี่ยนแปลงเพื่อให้คุณภาพการอนุมานที่ดีที่สุด รูปภาพแต่ละรูปใช้โทเค็นได้สูงสุด 258 รายการโดยไม่คำนึงถึงความละเอียดและคุณภาพ

รูปแบบข้อความธรรมดา

File API รองรับการอัปโหลดไฟล์ข้อความธรรมดาที่มีประเภท MIME ต่อไปนี้

  • ข้อความ/ธรรมดา
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • ข้อความ/x-typescript
  • แอปพลิเคชัน/X-typescript
  • ข้อความ/CSV
  • ข้อความ/มาร์กดาวน์
  • ข้อความ/X-python
  • application/x-python-code
  • application/json
  • text/xml
  • แอปพลิเคชัน/RTF
  • ข้อความ/RTF

สำหรับไฟล์ข้อความธรรมดาที่มีประเภท MIME ที่ไม่ได้อยู่ในรายการ คุณสามารถลองระบุประเภท MIME ข้างต้นรายการใดรายการหนึ่งด้วยตนเอง