Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

EverythingAI API

전용 대규모 데이터 세트 없이 학습된 AI 작업

기능

이 API는 데이터 세트에서 학습할 필요 없이 딥페이크를 감지하고, 음성을 텍스트로 변환하고, ASL 수화를 분석할 수 있습니다. 이는 Gemini Flash 1.5와 'Imposition-Context' 기법 덕분에 가능합니다.
이 API에는 현재 딥페이크 감지, 다국어 오디오에서 whisper-large-v3을 초과하는 결과를 제공하는 다국어 음성 텍스트 변환, 동영상에서 수화의 상세하고 정확한 분석 및 해석, 2초 만에 텍스트의 최대 80가지 감정 상태 분류, 기존 대규모 OCR 시스템과 비슷한 문자 감지 및 정확성을 갖춘 OCR과 같은 AI 작업이 포함되어 있습니다. 아직 더 많은 AI 작업을 통합하는 작업을 진행하고 있습니다.
동영상을 Gemini Flash 1.5에 단독으로 제공하면 딥페이크를 감지할 수 없습니다. Gemini Flash 1.5가 딥페이크를 식별하는 데 어려움을 겪고 있는 것을 확인할 수 있습니다. 이것이 제가 'Imposing-context' 프롬프트 기법을 개발한 이유입니다.
사용자가 모델에 프롬프트를 제공하고 모델이 컨텍스트를 자체적으로 해석할 때까지 기다리는 기존 접근 방식 대신 'Imposing-context'는 모델의 출력 기록을 직접 지시합니다. 모델 자체는 실제로 응답을 작성하지 않으며 제가 작성합니다.
하지만 채팅 기록을 보면 모델이 자신이 해당 답변을 생성했다고 잘못 생각합니다. 이렇게 하면 사용자의 의도를 이해하도록 강제됩니다. 보시다시피 이 접근 방식은 놀라운 결과를 제공합니다. Gemini Flash 1.5는 딥페이크를 분석할 수 있을 뿐만 아니라 놀라운 정확성을 달성합니다.

구성용 제품

API AI

팀

작성자:

ShynAI

From

베트남