Yorumlanabilirlik araçlarıyla model davranışını analiz etme

Yapay zekaya sorumlu bir yaklaşımda güvenlik politikaları, modelin güvenliğini iyileştirmeye yönelik teknikler ve şeffaflık yapıları derlemeniz yer almalıdır. Ancak, üretken yapay zeka konusunda sorumlu olma yaklaşımınız sadece bir yapılacaklar listesine uymaktan ibaret olmamalıdır. Üretken yapay zeka ürünleri nispeten yenidir ve bir uygulamanın davranışları önceki yazılım biçimlerinden daha fazla farklılık gösterebilir. Bu nedenle, kullanılan makine öğrenimi modellerini araştırmanız, model davranışı örneklerini incelemeniz ve sürprizleri araştırmanız gerekir.

Günümüzde istemde bulunmak, bilim olduğu kadar sanata da dönüşmekle birlikte büyük dil modelleriyle ilgili istemleri deneysel olarak iyileştirmenize yardımcı olabilecek Learning Translateingability Tool (LIT) gibi araçlar vardır. LIT, yapay zeka/makine öğrenimi modellerini görselleştirmek, anlamak ve bunlarda hata ayıklamak için geliştirilmiş açık kaynak bir platformdur. Aşağıda, LIT'nin Gemma'nın davranışını keşfetmek, olası sorunları öngörmek ve güvenliğini iyileştirmek için nasıl kullanılabileceğine dair bir örnek verilmiştir.

LIT'yi yerel makinenize, Colab'de veya Google Cloud'a yükleyebilirsiniz. LIT'yi kullanmaya başlamak için modelinizi ve ilişkilendirilmiş bir veri kümesini (ör. güvenlik değerlendirmesi veri kümesi) Colab'e aktarın. LIT, modelinizi kullanarak veri kümesi için bir dizi çıkış oluşturur ve modelin davranışını incelemeniz için size bir kullanıcı arayüzü sunar.

LIT ile Gemma Modellerini Analiz Etme

Codelab'i Başlat Google Colab'i başlat

Öğrenme Yorumlanabilirliği Aracı (LIT) kullanıcı arayüzünün animasyonu

Bu resimde LIT'nin kullanıcı arayüzü gösterilmektedir. Üst kısımdaki Datapoint Editor, kullanıcıların istemlerini düzenlemelerine olanak tanır. Alt kısımdaki LM Salience modülü, kullanıcıların öne çıkanlık sonuçlarını kontrol etmelerine olanak tanır.

Karmaşık istemlerdeki hataları tanımlama

Yüksek kaliteli LLM tabanlı prototipler ve uygulamalar için en önemli istem tekniklerinden ikisi, birkaç çekimli istem (istemdeki istenen davranış örnekleri dahil) ve nihai LLM çıktısından önce bir açıklama ya da akıl yürütme biçimi de dahil olmak üzere fikir zinciridir. Bununla birlikte, etkili bir istem oluşturmak çoğu zaman hâlâ zordur.

Bir kişiye, zevklerine göre bir yemeği sevip sevmeyeceğini değerlendirmesine yardımcı olmayı düşünün. İlk prototip düşünce zinciri istem şablonu şöyle görünebilir:

Analyze a menu item in a restaurant.


## For example:


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Onion soup
Analysis: it has cooked onions in it, which you don't like.
Recommendation: You have to try it.


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Baguette maison au levain
Analysis: Home-made leaven bread in France is usually great
Recommendation: Likely good.


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Macaron in France
Analysis: Sweet with many kinds of flavours
Recommendation: You have to try it.


## Now analyse one more example:


Taste-likes: {{users-food-like-preferences}}
Taste-dislikes: {{users-food-dislike-preferences}}
Suggestion: {{menu-item-to-analyse}}
Analysis:

Bu istemle ilgili bir sorun tespit ettiniz mi? LIT, LM Salience modülü ile istemi incelemenize yardımcı olur.

Hata ayıklama için dizi belirginliğini kullanma

Salience, mümkün olan en küçük düzeyde hesaplanır (yani her giriş jetonu için) ancak LIT, jeton belirginliğini satır, cümle veya kelime gibi daha yorumlanabilir daha geniş aralıklarda toplayabilir. Interactive SaliencyExplorable (Etkileşimli Saliency Discovery) belgemizde güvenlik düzeyi ve istenmeyen ön yargıları tanımlamak için nasıl kullanılacağı hakkında daha fazla bilgi edinebilirsiniz.

İsteme istem şablonu değişkenleri için yeni bir örnek girişi vererek başlayalım:

{{users-food-like-preferences}} = Cheese
{{users-food-dislike-preferences}} = Can't eat eggs
{{menu-item-to-analyse}} = Quiche Lorraine

Bu yapıldıktan sonra, modelin şaşırtıcı şekilde tamamlandığı gözlemlenebilir:

Taste-likes: Cheese
Taste-dislikes: Can't eat eggs
Suggestion: Quiche Lorraine
Analysis: A savoury tart with cheese and eggs
Recommendation: You might not like it, but it's worth trying.

Model neden yemeyeceğinizi açıkça belirttiğiniz bir şeyi yemenizi öneriyor?

Reklam dizisinin öne çıkarılması, birkaç çekimlik örneklerimizde yer alan temel sorunu vurgulamaya yardımcı olabilir. İlk örnekte, analiz bölümündeki düşünce zinciri şeklinde akıl yürütme son öneriyle uyuşmuyor. "İçinde soğan pişmiş, hoşunuza gitmedi" analizi "Denemelisiniz" önerisiyle eşleştirilir.

İstem sırası öncelik analizini gösteren LIT kullanıcı arayüzü

Bu, ilk istemdeki bir hatayı vurgular: İlk birkaç çekim örneğine ilişkin önerinin (You have to try it!) yanlışlıkla kopyası vardı. İstemdeki gevşeklik şiddetini, mor vurgunun koyuluğundan görebilirsiniz. En yüksek aksaklık, ilk birkaç çekim örneğinde ve özellikle Taste-likes, Analysis ve Recommendation'a karşılık gelen satırlardadır. Bu, modelin son yanlış öneriyi yaparken en çok bu satırları kullandığını gösterir.

Bu örnek aynı zamanda erken prototip oluşturmanın, önceden aklınıza gelmeyen riskleri ortaya çıkarabileceğini ve dil modellerinin hataya açık yapısının, hatalar için proaktif bir şekilde tasarım yapmanız gerektiği anlamına geldiğini de vurgular. Bu, AI ile tasarım için Kişiler + Yapay Zeka Kılavuzu'nda daha ayrıntılı bir şekilde ele alınmaktadır.

Model davranışını iyileştirmek için hipotezleri test edin

LIT, istemlerde yapılan değişiklikleri aynı arayüzde test etmenizi sağlar. Bu örnekte, model davranışını iyileştirmek için bir anayasa eklemeyi deneyin. Anayasalar, modelin nesline yön vermeye yardımcı olacak prensipler içeren tasarım istemlerini ifade eder. Son kullanılan yöntemler, anayasa ilkelerinin etkileşimli bir şekilde türetilmesini bile mümkün kılmaktadır.

İstemi daha da iyileştirmek için bu fikirden yararlanalım. İsteminizin üst kısmına, oluşturma ilkelerini içeren bir bölüm eklemek için LIT'nin Datapoint Editor aracını kullanın. Bu bölüm artık aşağıdaki gibi başlar:

Analyze a menu item in a restaurant.

* The analysis should be brief and to the point.
* It should provide a clear statement of suitability for someone with
  specific dietary restrictions.
* It should reflect the person's tastes

## For example:

Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Onion soup
Analysis: it has cooked onions in it, which you don't like.
Recommendation: Avoid.

Bu güncellemeyle örnek tekrar çalıştırılabilir ve çok farklı bir çıktı gözlemlenebilir:

Taste-likes: Cheese
Taste-dislikes: Can't eat eggs
Suggestion: Quiche Lorraine
Analysis: This dish contains eggs, which you can't eat.
Recommendation: Not suitable for you.

Daha sonra, bu değişikliğin neden meydana geldiğine dair bir fikir edinmenize yardımcı olması için hızlı öne çıkma durumu yeniden incelenebilir:

İstem öncelik analizini gösteren LIT kullanıcı arayüzü

Bu örnekteki "Sizin için uygun değil" öğesi, "Beslenme sıklığı belirtilen bir kişi için uygunlukla ilgili net bir açıklama sağlayın" ilkesinden ve yemekte yumurta bulunduğunu belirten açıklayıcı analiz ifadesinden (buna düşünce zinciri denir) etkilenmektedir.

Teknik olmayan ekipleri model araştırma ve keşfetmeye dahil etme

Yorumlanabilirlik; politika, hukuk ve diğer alanlarda uzmanlığı kapsayan bir ekip çalışması anlamına gelir. Gördüğünüz gibi, LIT'in sarsıcılığı inceleme ve örnekleri keşfetme konusundaki görsel aracı ve etkileşimli yeteneği, farklı paydaşların bulguları paylaşmasına ve iletmesine yardımcı olabilir. Bu sayede model keşfi, inceleme ve hata ayıklama işlemleri için daha çeşitli ekip üyelerinden yararlanabilirsiniz. Bu teknik yöntemleri deneyerek modellerin nasıl çalıştığını daha iyi anlayabilirler. Ayrıca, erken model testlerinde oluşabilecek tecrübelerin çeşitliliği, iyileştirilebilecek istenmeyen sonuçların ortaya çıkarılmasına yardımcı olabilir.

Özet

Model değerlendirmelerinizde sorunlu örnekler bulduğunuzda bunları hata ayıklama için LIT'ye taşıyın. Mantıksal olarak modelleme göreviyle alakalı olduğunu düşündüğünüz en büyük ve mantıklı içerik birimini analiz edin. Modelin istem içeriğine doğru veya yanlış şekilde katıldığı noktaları görmek için görselleştirmelerden yararlanın. Ardından, olası düzeltmeleri belirlemek için gördüğünüz yanlış davranışı daha ayrıntılı şekilde açıklamak üzere daha küçük içerik birimlerini ayrıntılı olarak inceleyin.

Geliştirici kaynakları