Özel büyük veri kümelerine ihtiyaç duymadan eğitilen yapay zeka görevleri.
Ne işe yarar?
Bu API, herhangi bir veri kümesi üzerinde eğitilmesine gerek kalmadan deepfake'leri algılayabilir, konuşmaları metne dönüştürebilir, Amerikan İşaret Dili'ni analiz edebilir vb. Bu, Gemini Flash 1.5 ve "Imposition-Context" tekniği sayesinde mümkün. Bu API şu anda aşağıdaki gibi yapay zeka görevlerini içeriyor: deepfake algılama, çok dilli seslerde whisper-large-v3'ü aşan sonuçlar sağlayan çok dilli konuşma metne dönüştürme, videolardaki işaret dilinin ayrıntılı ve doğru analizi ve yorumu, metnin 80'e kadar duygusal durumunu yalnızca 2 saniyede sınıflandırma ve mevcut büyük OCR sistemleriyle karşılaştırılabilir doğruluk ve karakter algılama özelliğine sahip OCR. Daha fazla yapay zeka görevi entegre etmek için çalışmaya devam ediyorum. Videoyu Gemini Flash 1.5'e tek başına gönderirseniz deepfake'i algılayamaz. Burada, Gemini Flash 1.5'in deepfake'i tanımlamakta zorlandığını görebilirsiniz. Bu nedenle "bağlam dayatma" istem tekniğini geliştirdim. Kullanıcının modeli istemde bulunduğu ve bağlamı kendi başına yorumlamasını beklediği geleneksel yaklaşımın aksine, "bağlam dayatma" tekniği doğrudan modelin çıkış geçmişini belirler. Yanıtları model değil, ben yazıyorum. Ancak sohbet geçmişine baktığında bu yanıtları kendisinin oluşturduğunu düşünüyor. Bu, kullanıcının amacını anlamasını zorunlu kılar. Gördüğünüz gibi bu yaklaşım şaşırtıcı sonuçlar veriyor. Gemini Flash 1.5, yalnızca deepfake'leri analiz etmekle kalmaz, aynı zamanda inanılmaz bir doğruluk sağlar.
Aşağıdakilerle tasarlandı:
API AI
Takım
Değişikliği yapan
ShynAI
Nereden
Vietnam
[[["Anlaması kolay","easyToUnderstand","thumb-up"],["Sorunumu çözdü","solvedMyProblem","thumb-up"],["Diğer","otherUp","thumb-up"]],[["İhtiyacım olan bilgiler yok","missingTheInformationINeed","thumb-down"],["Çok karmaşık / çok fazla adım var","tooComplicatedTooManySteps","thumb-down"],["Güncel değil","outOfDate","thumb-down"],["Çeviri sorunu","translationIssue","thumb-down"],["Örnek veya kod sorunu","samplesCodeIssue","thumb-down"],["Diğer","otherDown","thumb-down"]],[],[],[],null,["# EverythingAI API\n\n[More Apps](/competition/vote) \n\nEverythingAI API\n================\n\nAI tasks trained without the need for dedicated large datasets. \nVote \nVoted!\nWhat it does\n\nThis API can detect deepfakes, convert speech to text, analysis of ASL sign language, etc. without needing to be trained on any dataset. This is possible thanks to Gemini Flash 1.5 and their \"Imposition-Context\" technique. \nThis API currently includes AI tasks such as: deepfake detection, multilingual speech-to-text conversion with results exceeding whisper-large-v3 on multilingual audio, detailed and accurate analysis and interpretation of sign language in videos, classification of up to 80 emotional states of text in just 2 seconds, and OCR with character detection and accuracy comparable to existing large OCR systems. And I am still working on integrating more AI tasks. \nIf we simply feed the video to Gemini Flash 1.5 on its own, it won't be able to detect the deepfake. You can see here, Gemini Flash 1.5 is struggling to identify the deepfake. This is why I developed the \"Imposing-context\" prompting technique. \nInstead of the traditional approach where the user prompts the model and waits for it to interpret the context on its own, \"Imposing-context\" directly dictates the model's output history. The model itself doesn't actually write the responses, those are written by me. \nBut when it looks at the chat history, it mistakenly believes it generated those answers. This forces it to understand the user's intent. As you can see, this approach gives amazing results. Gemini Flash 1.5 is not only able to analyze deepfakes but also achieves incredible accuracy. \nBuilt with\n\n- API AI \nTeam \nBy\n\nShynAI \nFrom\n\nVietnam \n[](/competition/vote)"]]