Yapay zekaya sorumlu bir yaklaşımda güvenlik politikaları, modelin güvenliğini iyileştirmeye yönelik teknikler ve şeffaflık yapıları derlemeniz yer almalıdır. Ancak, üretken yapay zeka konusunda sorumlu olma yaklaşımınız sadece bir yapılacaklar listesine uymaktan ibaret olmamalıdır. Üretken yapay zeka ürünleri nispeten yenidir ve bir uygulamanın davranışları önceki yazılım biçimlerinden daha fazla farklılık gösterebilir. Bu nedenle, kullanılan makine öğrenimi modellerini araştırmanız, model davranışı örneklerini incelemeniz ve sürprizleri araştırmanız gerekir.
Günümüzde istemde bulunmak, bilim olduğu kadar sanata da dönüşmekle birlikte büyük dil modelleriyle ilgili istemleri deneysel olarak iyileştirmenize yardımcı olabilecek Learning Translateingability Tool (LIT) gibi araçlar vardır. LIT, yapay zeka/makine öğrenimi modellerini görselleştirmek, anlamak ve bunlarda hata ayıklamak için geliştirilmiş açık kaynak bir platformdur. Aşağıda, LIT'nin Gemma'nın davranışını keşfetmek, olası sorunları öngörmek ve güvenliğini iyileştirmek için nasıl kullanılabileceğine dair bir örnek verilmiştir.
LIT'yi yerel makinenize, Colab'de veya Google Cloud'a yükleyebilirsiniz. LIT'yi kullanmaya başlamak için modelinizi ve ilişkilendirilmiş bir veri kümesini (ör. güvenlik değerlendirmesi veri kümesi) Colab'e aktarın. LIT, modelinizi kullanarak veri kümesi için bir dizi çıkış oluşturur ve modelin davranışını incelemeniz için size bir kullanıcı arayüzü sunar.
LIT ile Gemma Modellerini Analiz Etme
Codelab'i Başlat | Google Colab'i başlat |
Bu resimde LIT'nin kullanıcı arayüzü gösterilmektedir. Üst kısımdaki Datapoint Editor, kullanıcıların istemlerini düzenlemelerine olanak tanır. Alt kısımdaki LM Salience modülü, kullanıcıların öne çıkanlık sonuçlarını kontrol etmelerine olanak tanır.
Karmaşık istemlerdeki hataları tanımlama
Yüksek kaliteli LLM tabanlı prototipler ve uygulamalar için en önemli istem tekniklerinden ikisi, birkaç çekimli istem (istemdeki istenen davranış örnekleri dahil) ve nihai LLM çıktısından önce bir açıklama ya da akıl yürütme biçimi de dahil olmak üzere fikir zinciridir. Bununla birlikte, etkili bir istem oluşturmak çoğu zaman hâlâ zordur.
Bir kişiye, zevklerine göre bir yemeği sevip sevmeyeceğini değerlendirmesine yardımcı olmayı düşünün. İlk prototip düşünce zinciri istem şablonu şöyle görünebilir:
Analyze a menu item in a restaurant. ## For example: Taste-likes: I've a sweet-tooth Taste-dislikes: Don't like onions or garlic Suggestion: Onion soup Analysis: it has cooked onions in it, which you don't like. Recommendation: You have to try it. Taste-likes: I've a sweet-tooth Taste-dislikes: Don't like onions or garlic Suggestion: Baguette maison au levain Analysis: Home-made leaven bread in France is usually great Recommendation: Likely good. Taste-likes: I've a sweet-tooth Taste-dislikes: Don't like onions or garlic Suggestion: Macaron in France Analysis: Sweet with many kinds of flavours Recommendation: You have to try it. ## Now analyse one more example: Taste-likes: {{users-food-like-preferences}} Taste-dislikes: {{users-food-dislike-preferences}} Suggestion: {{menu-item-to-analyse}} Analysis:
Bu istemle ilgili bir sorun tespit ettiniz mi? LIT, LM Salience modülü ile istemi incelemenize yardımcı olur.
Hata ayıklama için dizi belirginliğini kullanma
Salience, mümkün olan en küçük düzeyde hesaplanır (yani her giriş jetonu için) ancak LIT, jeton belirginliğini satır, cümle veya kelime gibi daha yorumlanabilir daha geniş aralıklarda toplayabilir. Interactive SaliencyExplorable (Etkileşimli Saliency Discovery) belgemizde güvenlik düzeyi ve istenmeyen ön yargıları tanımlamak için nasıl kullanılacağı hakkında daha fazla bilgi edinebilirsiniz.
İsteme istem şablonu değişkenleri için yeni bir örnek girişi vererek başlayalım:
{{users-food-like-preferences}} = Cheese {{users-food-dislike-preferences}} = Can't eat eggs {{menu-item-to-analyse}} = Quiche Lorraine
Bu yapıldıktan sonra, modelin şaşırtıcı şekilde tamamlandığı gözlemlenebilir:
Taste-likes: Cheese Taste-dislikes: Can't eat eggs Suggestion: Quiche Lorraine Analysis: A savoury tart with cheese and eggs Recommendation: You might not like it, but it's worth trying.
Model neden yemeyeceğinizi açıkça belirttiğiniz bir şeyi yemenizi öneriyor?
Reklam dizisinin öne çıkarılması, birkaç çekimlik örneklerimizde yer alan temel sorunu vurgulamaya yardımcı olabilir. İlk örnekte, analiz bölümündeki düşünce zinciri şeklinde akıl yürütme son öneriyle uyuşmuyor. "İçinde soğan pişmiş, hoşunuza gitmedi" analizi "Denemelisiniz" önerisiyle eşleştirilir.
Bu, ilk istemdeki bir hatayı vurgular: İlk birkaç çekim örneğine ilişkin önerinin (You have to try it!
) yanlışlıkla kopyası vardı. İstemdeki gevşeklik şiddetini, mor vurgunun koyuluğundan görebilirsiniz. En yüksek aksaklık, ilk birkaç çekim örneğinde ve özellikle Taste-likes
, Analysis
ve Recommendation
'a karşılık gelen satırlardadır. Bu, modelin son yanlış öneriyi yaparken en çok bu satırları kullandığını gösterir.
Bu örnek aynı zamanda erken prototip oluşturmanın, önceden aklınıza gelmeyen riskleri ortaya çıkarabileceğini ve dil modellerinin hataya açık yapısının, hatalar için proaktif bir şekilde tasarım yapmanız gerektiği anlamına geldiğini de vurgular. Bu, AI ile tasarım için Kişiler + Yapay Zeka Kılavuzu'nda daha ayrıntılı bir şekilde ele alınmaktadır.
Model davranışını iyileştirmek için hipotezleri test edin
LIT, istemlerde yapılan değişiklikleri aynı arayüzde test etmenizi sağlar. Bu örnekte, model davranışını iyileştirmek için bir anayasa eklemeyi deneyin. Anayasalar, modelin nesline yön vermeye yardımcı olacak prensipler içeren tasarım istemlerini ifade eder. Son kullanılan yöntemler, anayasa ilkelerinin etkileşimli bir şekilde türetilmesini bile mümkün kılmaktadır.
İstemi daha da iyileştirmek için bu fikirden yararlanalım. İsteminizin üst kısmına, oluşturma ilkelerini içeren bir bölüm eklemek için LIT'nin Datapoint Editor aracını kullanın. Bu bölüm artık aşağıdaki gibi başlar:
Analyze a menu item in a restaurant. * The analysis should be brief and to the point. * It should provide a clear statement of suitability for someone with specific dietary restrictions. * It should reflect the person's tastes ## For example: Taste-likes: I've a sweet-tooth Taste-dislikes: Don't like onions or garlic Suggestion: Onion soup Analysis: it has cooked onions in it, which you don't like. Recommendation: Avoid.
Bu güncellemeyle örnek tekrar çalıştırılabilir ve çok farklı bir çıktı gözlemlenebilir:
Taste-likes: Cheese Taste-dislikes: Can't eat eggs Suggestion: Quiche Lorraine Analysis: This dish contains eggs, which you can't eat. Recommendation: Not suitable for you.
Daha sonra, bu değişikliğin neden meydana geldiğine dair bir fikir edinmenize yardımcı olması için hızlı öne çıkma durumu yeniden incelenebilir:
Bu örnekteki "Sizin için uygun değil" öğesi, "Beslenme sıklığı belirtilen bir kişi için uygunlukla ilgili net bir açıklama sağlayın" ilkesinden ve yemekte yumurta bulunduğunu belirten açıklayıcı analiz ifadesinden (buna düşünce zinciri denir) etkilenmektedir.
Teknik olmayan ekipleri model araştırma ve keşfetmeye dahil etme
Yorumlanabilirlik; politika, hukuk ve diğer alanlarda uzmanlığı kapsayan bir ekip çalışması anlamına gelir. Gördüğünüz gibi, LIT'in sarsıcılığı inceleme ve örnekleri keşfetme konusundaki görsel aracı ve etkileşimli yeteneği, farklı paydaşların bulguları paylaşmasına ve iletmesine yardımcı olabilir. Bu sayede model keşfi, inceleme ve hata ayıklama işlemleri için daha çeşitli ekip üyelerinden yararlanabilirsiniz. Bu teknik yöntemleri deneyerek modellerin nasıl çalıştığını daha iyi anlayabilirler. Ayrıca, erken model testlerinde oluşabilecek tecrübelerin çeşitliliği, iyileştirilebilecek istenmeyen sonuçların ortaya çıkarılmasına yardımcı olabilir.
Özet
Model değerlendirmelerinizde sorunlu örnekler bulduğunuzda bunları hata ayıklama için LIT'ye taşıyın. Mantıksal olarak modelleme göreviyle alakalı olduğunu düşündüğünüz en büyük ve mantıklı içerik birimini analiz edin. Modelin istem içeriğine doğru veya yanlış şekilde katıldığı noktaları görmek için görselleştirmelerden yararlanın. Ardından, olası düzeltmeleri belirlemek için gördüğünüz yanlış davranışı daha ayrıntılı şekilde açıklamak üzere daha küçük içerik birimlerini ayrıntılı olarak inceleyin.
Geliştirici kaynakları
- LIT web sitesi
- AI ile tasarım yapmak için Kişiler + AI Kılavuzu