EverythingAI API

งาน AI ที่ฝึกโดยไม่ต้องใช้ชุดข้อมูลขนาดใหญ่โดยเฉพาะ

การทำงาน

API นี้สามารถตรวจจับวิดีโอปลอมแปลง แปลงคำพูดเป็นข้อความ วิเคราะห์ภาษามือ ASL และอื่นๆ ได้โดยไม่ต้องผ่านการฝึกด้วยชุดข้อมูลใดๆ การดำเนินการนี้เกิดขึ้นได้เพราะ Gemini Flash 1.5 และเทคนิค "Imposition-Context"
ปัจจุบัน API นี้รวมงาน AI ต่างๆ เช่น การตรวจจับ Deepfake, การแปลงคำพูดเป็นข้อความหลายภาษาที่ให้ผลลัพธ์มากกว่า whisper-large-v3 สำหรับเสียงหลายภาษา, การวิเคราะห์และการตีความภาษามือในวิดีโออย่างละเอียดและแม่นยำ, การจัดประเภทสถานะอารมณ์ของข้อความได้สูงสุด 80 สถานะในเพียง 2 วินาที และ OCR ที่มีการตรวจจับอักขระและความแม่นยำเทียบเท่ากับระบบ OCR ขนาดใหญ่ที่มีอยู่ และเรายังพยายามผสานรวมงาน AI เพิ่มเติม
หากเราป้อนวิดีโอไปยัง Gemini Flash 1.5 เพียงอย่างเดียว ฟีเจอร์ดังกล่าวจะตรวจจับวิดีโอปลอมแปลงไม่ได้ คุณจะเห็นได้ว่า Gemini Flash 1.5 ตรวจจับวิดีโอปลอมแปลงได้ยาก ด้วยเหตุนี้ เราจึงพัฒนาเทคนิคพรอมต์ "การบังคับใช้บริบท"
แทนแนวทางแบบดั้งเดิมที่ผู้ใช้พรอมต์โมเดลและรอให้โมเดลตีความบริบทด้วยตนเอง "การบังคับใช้บริบท" จะกำหนดประวัติเอาต์พุตของโมเดลโดยตรง โมเดลไม่ได้เขียนคำตอบเอง แต่ฉันเป็นคนเขียน
แต่เมื่อดูประวัติการแชท โมเดลก็เข้าใจผิดว่าตนเป็นผู้สร้างคำตอบเหล่านั้น ซึ่งจะบังคับให้ AI เข้าใจเจตนาของผู้ใช้ ดังที่คุณเห็น แนวทางนี้ให้ผลลัพธ์ที่ยอดเยี่ยม Gemini Flash 1.5 ไม่เพียงวิเคราะห์วิดีโอปลอมแปลงได้เท่านั้น แต่ยังมีความแม่นยำอย่างไม่น่าเชื่อ

สร้างขึ้นด้วย

  • API AI

ทีม

โดย

ShynAI

จาก

เวียดนาม