Güvenlikle ilgili yol gösterici bilgiler

Üretken yapay zeka modelleri güçlü araçlardır ancak sınırlamaları da vardır. Bu uygulamaların çok yönlülüğü ve uygulanabilirliği bazen hatalı, taraflı veya rahatsız edici çıkışlar gibi beklenmedik sonuçlara yol açabilir. Bu tür çıkışların neden olabileceği zarar riskini sınırlamak için işleme sonrası ve titizli manuel değerlendirme son derece önemlidir.

Gemini API tarafından sağlanan modeller, çok çeşitli üretken yapay zeka ve doğal dil işleme (NLP) uygulamalarında kullanılabilir. Bu işlevlerin kullanımı yalnızca Gemini API veya Google AI Studio web uygulaması üzerinden yapılabilir. Gemini API kullanımınız, ayrıca Üretken Yapay Zeka Yasaklanan Kullanım Politikası ve Gemini API Hizmet Şartları'na da tabidir.

Büyük dil modellerini (LLM) bu kadar kullanışlı kılan şeylerden biri, birçok farklı dil görevini ele alabilecek yaratıcı araçlar olmalarıdır. Maalesef bu, büyük dil modellerinin rahatsız edici, hassas olmayan veya olgusal anlamda yanlış metinler dahil olmak üzere beklemediğiniz çıktılar oluşturabileceği anlamına da gelir. Dahası, bu modellerin inanılmaz çok yönlülüğü tam olarak ne tür istenmeyen çıktılar üretebileceklerini tahmin etmeyi de zorlaştırıyor. Gemini API, Google'ın yapay zeka ilkeleri düşünülerek tasarlanmış olsa da bu modelleri sorumlu bir şekilde uygulama sorumluluğu geliştiricilere aittir. Gemini API'de, geliştiricilerin güvenli ve sorumlu uygulamalar oluşturmasına yardımcı olmak için yerleşik içerik filtrelemenin yanı sıra 4 farklı boyuttaki düzenlenebilir güvenlik ayarları bulunur. Daha fazla bilgi edinmek için güvenlik ayarları kılavuzuna bakın.

Bu belgenin amacı, LLM'leri kullanırken ortaya çıkabilecek bazı güvenlik risklerini size tanıtmak ve yeni güvenlik tasarımları ve geliştirme önerileri sunmaktır. (Yasa ve yönetmeliklerin de kısıtlamalar getirebileceğini ancak bu tür hususların bu kılavuzun kapsamı dışında olduğunu unutmayın.)

LLM'lerle uygulama oluştururken aşağıdaki adımlar önerilir:

  • Uygulamanızın güvenlik risklerini anlama
  • Güvenlik risklerini azaltmak için düzenlemeler yapma
  • Kullanım alanınıza uygun güvenlik testleri gerçekleştirme
  • Kullanıcılardan geri bildirim isteme ve kullanımı izleme

Ayarlama ve test aşamaları, uygulamanız için uygun performansa ulaşana kadar yinelemeli olmalıdır.

Model uygulama döngüsü

Uygulamanızın güvenlik risklerini anlayın

Bu bağlamda güvenlik, LLM'nin kullanıcılarına zarar vermeyi önleme imkanı olarak tanımlanır. Örneğin, toksik bir dil veya basmakalıp düşünceleri destekleyen içerik üreterek. Gemini API aracılığıyla kullanılabilen modeller Google'ın yapay zeka ilkeleri düşünülerek tasarlanmıştır ve bu modelleri kullanımınız Üretken Yapay Zeka Yasaklanan Kullanım Politikası'na tabidir. API, rahatsız edici dil ve nefret söylemi gibi bazı yaygın dil modeli sorunlarını ele almaya yardımcı olan, kapsayıcılığı ve stereotipleri önlemeyi amaç edinen yerleşik güvenlik filtreleri sunar. Ancak her uygulama, kullanıcıları için farklı riskler oluşturabilir. Dolayısıyla, uygulama sahibi olarak kullanıcılarınızı ve uygulamanızın neden olabileceği olası zararları bilmek ve uygulamanızın LLM'leri güvenli ve sorumlu bir şekilde kullanmasını sağlamak sizin sorumluluğunuzdadır.

Bu değerlendirme kapsamında zararın olma olasılığını göz önünde bulundurmalı, ciddiliğini ve etkilerini azaltmaya yönelik adımları belirlemelisiniz. Örneğin, gerçeğe dayalı olaylara dayalı makaleler oluşturan bir uygulamanın, eğlence amaçlı kurgusal hikayeler üreten bir uygulamaya kıyasla yanlış bilgilendirmeden kaçınma konusunda daha dikkatli olması gerekir. Potansiyel güvenlik risklerini keşfetmeye başlamanın iyi bir yolu, son kullanıcılarınızı ve uygulamanızın sonuçlarından etkilenebilecek diğer kullanıcıları araştırmaktır. Bu, uygulama alanınızda son teknoloji ürünü araştırmaları araştırmak, kullanıcıların benzer uygulamaları nasıl kullandığını gözlemlemek, kullanıcı araştırması yapmak, anket yapmak veya potansiyel kullanıcılarla gayriresmi görüşmeler yapmak da dahil olmak üzere pek çok farklı şekilde gerçekleştirilebilir.

Gelişmiş ipuçları

  • Potansiyel riskler hakkında daha geniş bir bakış açısı elde etmek ve gerektiğinde çeşitlilik kriterlerini ayarlamak için hedef kitlenizdeki farklı potansiyel kullanıcılardan oluşan bu kitleye uygulamanız ve amacı hakkında konuşun.
  • ABD hükümetinin Ulusal Standartlar ve Teknoloji Enstitüsü (NIST) tarafından yayınlanan AI Risk Yönetimi Çerçevesi, yapay zeka risk yönetimi hakkında daha ayrıntılı rehberlik ve ek öğrenme kaynakları sağlar.
  • DeepMind'ın dil modellerinden kaynaklanan zarara ilişkin etik ve sosyal riskler ile ilgili yayını, dil modeli uygulamalarının nasıl zarara yol açabileceği konusunda ayrıntılı bilgi verir.

Güvenlik risklerini azaltmak için düzenlemeler yapma

Artık riskleri anladığınıza göre riskleri nasıl azaltacağınıza karar verebilirsiniz. Bir yazılım projesindeki hataları önceliklendirmeye benzer şekilde, hangi risklere öncelik verileceğini ve bunları önlemeye çalışmak için ne yapmanız gerektiğini belirlemek kritik bir karardır. Önceliklerinizi belirledikten sonra, en uygun olabilecek çözüm türleri üzerine düşünmeye başlayabilirsiniz. Basit değişiklikler genellikle fark yaratabilir ve riskleri azaltabilir.

Örneğin, bir uygulama tasarlarken şunları göz önünde bulundurun:

  • Uygulama bağlamınızda nelerin kabul edilebilir olduğunu daha iyi yansıtmak için model çıkışını ayarlama. İnce ayar yapmak, modelin çıktısını daha tahmin edilebilir ve tutarlı hale getirerek belirli riskleri azaltmaya yardımcı olabilir.
  • Daha güvenli çıkışlar sağlayan bir giriş yöntemi sunma. Bir LLM'ye verdiğiniz tam girdi, çıktının kalitesinde fark yaratabilir. Kullanım alanınızda en güvenli yöntemi bulmak için giriş istemleriyle denemeler yapmak, gösterilen çabaya değer. Böylece bunu kolaylaştıran bir kullanıcı deneyimi sunabilirsiniz. Örneğin, kullanıcıların yalnızca giriş istemleri içeren bir açılır listeden seçim yapmalarını kısıtlayabilir veya uygulama bağlamınızda güvenli bir şekilde çalıştığını düşündüğünüz açıklayıcı ifadeler içeren pop-up öneriler sunabilirsiniz.
  • Güvenli olmayan girişleri ve çıkışları kullanıcıya gösterilmeden önce filtreleme. Basit durumlarda, engellenenler listeleri, istemler veya yanıtlardaki güvenli olmayan kelimeleri veya ifadeleri tespit edip engellemek için kullanılabilir ya da inceleme uzmanlarının bu tür içerikleri manuel olarak değiştirmesini veya engellemesini gerektirebilir.

  • Her istemi potansiyel zararlarla veya yanıltıcı sinyallerle etiketlemek için eğitimli sınıflandırıcılar kullanma. Daha sonra, tespit edilen zararın türüne göre isteğin nasıl ele alınacağına ilişkin farklı stratejiler kullanılabilir. Örneğin, giriş açık bir şekilde yanıltıcı veya kötüye kullanım amaçlıysa bu giriş engellenebilir ve bunun yerine önceden hazırlanmış bir yanıt oluşturulabilir.

    İleri düzey ipucu

    • Sinyaller, çıkışın zararlı olduğunu belirlerse uygulama aşağıdaki seçenekleri kullanabilir:
      • Hata mesajı veya önceden komutlanmış çıkış sağlayın.
      • Bazen aynı istem farklı çıkışlar ürettiğinden, alternatif bir güvenli çıkış oluşturulursa istemi tekrar deneyin.

  • Kasıtlı kötüye kullanıma karşı önlemler alma (ör. her kullanıcıya benzersiz bir kimlik atama ve belirli bir sürede gönderilebilecek kullanıcı sorgularının hacmini sınırlama). Bir diğer önlem de olası istem yerleştirmeye karşı korunmaktır. İstem yerleştirme, SQL yerleştirmeye benzer şekilde, kötü amaçlı kullanıcıların modelin çıkışını değiştiren bir giriş istemi tasarlaması için kullanılan bir yöntemdir. Örneğin, modele önceki örnekleri göz ardı etme talimatı veren bir giriş istemi gönderebilir. Kasıtlı şekilde hatalı kullanım hakkında ayrıntılı bilgi için Üretken Yapay Zeka Yasaklanan Kullanım Politikası'nı inceleyin.

  • İşlevleri, doğası gereği daha az risk taşıyan bir şeye ayarlamak. Kapsamı daha dar olan (ör. metin parçalarından anahtar kelimeleri ayıklama) veya insan denetiminin daha büyük olduğu (ör. bir insan tarafından incelenecek kısa içerik üretme) görevler genellikle daha düşük risk taşır. Bu nedenle, örneğin, scratchpad'den e-posta yanıtı yazmak için bir uygulama oluşturmak yerine, uygulamayı bir ana hat üzerinde genişletme veya alternatif ifadeler önerme ile sınırlayabilirsiniz.

Kullanım alanınıza uygun güvenlik testleri yapın

Test, sağlam ve güvenli uygulamalar oluşturmanın önemli bir parçasıdır ancak testin kapsamı, kapsamı ve stratejileri değişiklik gösterir. Örneğin, eğlence amaçlı bir haiku üretme aracının, hukuk firmalarının yasal belgeleri özetlemek ve sözleşme taslağı hazırlamalarına yardımcı olmak için kullanmak üzere tasarlanmış bir uygulamaya göre daha az ciddi risk oluşturması muhtemeldir. Ancak haiku oluşturucu daha geniş bir kullanıcı yelpazesi tarafından kullanılabilir. Bu da, yanıltıcı girişimler ve hatta istenmeyen zararlı girişler açısından daha fazla olabilir. Uygulama bağlamı da önemlidir. Örneğin, herhangi bir işlem yapılmadan önce gerçek kişi olan uzmanlar tarafından incelenen çıktıları olan bir uygulamanın, bu tür bir gözetim uygulanmadan aynı uygulamanın zararlı sonuçlar üretme olasılığı daha düşük olabilir.

Nispeten düşük riskli uygulamalar için bile, kullanıma sunmaya hazır olduğunuzdan emin olmadan önce birkaç değişiklik ve test işlemi gerçekleştirmek olağandır. AI uygulamaları için özellikle fayda sağlayan iki tür test vardır:

  • Güvenlik karşılaştırma, uygulamanızın nasıl kullanılma olasılığının yüksek olduğu bağlamında güvenli olmayabileceği durumları yansıtan güvenlik metrikleri tasarlamayı, ardından değerlendirme veri kümelerini kullanarak uygulamanızın metriklerde ne kadar iyi performans gösterdiğini test etmeyi içerir. Test öncesinde kabul edilebilir minimum güvenlik metriği düzeylerini düşünmek iyi bir uygulamadır. Böylece 1) test sonuçlarını bu beklentilere göre değerlendirebilir ve 2) en çok önemsediğiniz metrikleri değerlendiren testlere dayalı olarak değerlendirme veri kümesini toplayabilirsiniz.

    Gelişmiş ipuçları

    • Uygulamanızın bağlamına tam olarak uyacak şekilde gerçek kişilerden oluşan değerlendirmeciler kullanarak kendi test veri kümelerinizi oluşturmanız gerekebileceğinden, "kullanıma hazır olmayan" yaklaşımlara aşırı güvenmeyin.
    • Birden fazla metriğiniz varsa değişiklik, bir metrik için diğerine zarar gelecek şekilde iyileşmeler sağlarsa bundan nasıl yararlanacağınıza karar vermeniz gerekir. Diğer performans mühendisliklerinde olduğu gibi ortalama performans yerine değerlendirme kümenizdeki en kötü durum performansına odaklanmak isteyebilirsiniz.
  • Yanıltıcı testler, uygulamanızı proaktif olarak bozmaya çalışmayı kapsar. Amaç, zayıf olduğunuz noktaları belirleyip bunları uygun şekilde telafi edecek adımlar atmaktır. Yanıltıcı testler, başvurunuzda uzman olan değerlendirmecilerin önemli bir zaman ve çaba gerektirebilir. Ancak bu testler ne kadar uzun sürerse, özellikle de nadiren veya yalnızca uygulamanın tekrar tekrar çalıştırılmasından sonra ortaya çıkan sorunları tespit etme şansınız da o kadar artar.

    • Yanıltıcı testler, bir makine öğrenimi modelinin kötü amaçlı veya kasıtsız olarak zararlı girişle sağlandığında nasıl davrandığını öğrenmek amacıyla modelin sistematik olarak değerlendirilmesine yönelik bir yöntemdir:
      • Bir giriş, güvenli olmayan veya zararlı bir sonuç üretecek şekilde açıkça tasarlanmışsa kötü amaçlı olabilir (örneğin, bir metin oluşturma modelinden belirli bir din hakkında nefret uyandıran bir Söylenti oluşturmasını istemek).
      • Bir girişin kendisi zararsız olsa da zararlı çıktılar veriyorsa (örneğin, bir metin oluşturma modelinden belirli bir etnik kökene sahip bir kişiyi tanımlamasını istemek ve ırkçı bir sonuç almak gibi), girdinin yanlışlıkla zararlı olduğu düşünülür.
    • Zorlu bir testi standart değerlendirmeden ayıran şey, test için kullanılan verilerin bileşimidir. Yanlış yönlendirmeli testler için modelden sorunlu sonuçlar çıkarma olasılığı en yüksek olan test verilerini seçin. Bunun için modelin davranışını, nadir veya olağan dışı örnekler ve güvenlik politikalarıyla ilgili uç durumlar dahil olmak üzere olası tüm zarar türlerine karşı araştırmak gerekir. Ayrıca cümlenin yapısı, anlam ve uzunluk gibi farklı boyutlarında çeşitliliği de içermelidir. Test veri kümesi oluştururken göz önünde bulundurulması gerekenlerle ilgili daha fazla ayrıntı için Google'ın Sorumlu AI uygulamaları başlıklı makaleyi inceleyebilirsiniz.

      Gelişmiş ipuçları

      • Uygulamanızı bozmaya çalışmak için insanları "kırmızı ekipler"de görevlendirmek yerine geleneksel yöntem yerine otomatik test kullanın. Otomatik testte "kırmızı ekip", test edilen modelden zararlı çıkışlar üreten giriş metinlerini bulan başka bir dil modelidir.

Sorunları izleme

Ne kadar test edip azalttığınıza bakılmaksızın mükemmelliği garanti edemezsiniz. Bu nedenle, ortaya çıkan sorunları nasıl tespit edip ele alacağınızı önceden planlayın. Yaygın yaklaşımlar arasında, kullanıcıların geri bildirim paylaşmaları için izlenen bir kanal (ör.beğenme/beğenmeme puanı) oluşturma ve çeşitli kullanıcılardan proaktif olarak geri bildirim istemek için bir kullanıcı çalışması yürütme yer alır. Bu özellikle kullanım kalıpları beklentilerden farklıysa değerlidir.

Gelişmiş ipuçları

  • Kullanıcıların AI ürünlerine geri bildirimde bulunması, zaman içinde yapay zeka performansını ve kullanıcı deneyimini büyük ölçüde iyileştirebilir. Örneğin, istem ayarlama için daha iyi örnekler seçmenize yardımcı olabilir. Google'ın İnsanlar ve Yapay Zeka kılavuzunun Geri Bildirim ve Kontrol bölümü, geri bildirim mekanizmaları tasarlarken göz önünde bulundurulması gereken önemli noktaları vurgular.

Sonraki adımlar

  • Gemini API aracılığıyla kullanılabilen ayarlanabilir güvenlik ayarları hakkında bilgi edinmek için güvenlik ayarları kılavuzuna bakın.
  • İlk istemlerinizi yazmaya başlamak için isteme giriş bölümüne bakın.