Yapay zekaların içinde gizli kalan "kişilikler" açığa çıkıyor
OpenAI, yapay zeka alanında yaptığı yeni araştırmalarla bir kez daha dikkatleri üzerine çekti. Şirketin bilim insanları, yapay zekaların verdiği yanıtların ardındaki “içsel özellikleri” inceleyerek, bu sistemlerin tıpkı insanlar gibi belirgin davranış kalıplarına sahip olabileceğini ortaya koydu. Bu özellikler, modelin toksik, alaycı ya da güvenilmez davranışlar sergilemesine neden olabiliyor.
OpenAI yapay zekalarda toksik davranış izleri buldu
Yapay zeka araştırmacıları, modellerin iç gösterimlerini analiz ederek, belirli bir sistemin toksik ya da sorumsuz cevaplar verdiği durumlarda ortaya çıkan davranışsal desenleri saptamayı başardı. Bu içsel örüntüler sayesinde, modelin kullanıcıya yanıltıcı bilgi sunması, sorumsuz önerilerde bulunması ya da alaycı bir ton kullanması gibi durumların nereden kaynaklandığı daha net anlaşılabiliyor.
“Kişilik özellikleri” ayarlanarak model davranışı değiştirilebiliyor
Araştırmaya göre, bu içsel özellikler doğrudan model davranışlarını yönlendirme gücüne sahip. Örneğin bir yapay zekadaki toksik eğilim, belirli bir özelliğin aktifleşmesiyle artarken, aynı özellik pasifleştirildiğinde sistemin tepkileri daha uyumlu hale geliyor. OpenAI yorumlanabilirlik araştırmacısı Dan Mossing, bu buluşun, bir modelin karmaşık davranışlarını daha sade matematiksel çerçevelerle analiz edebilmeyi mümkün kıldığını belirtiyor.
Bu özellikler sinirsel aktivitelere benzetiliyor
OpenAI ekibi, modellerin içinde tespit ettikleri bu içsel aktivasyonları, insan beynindeki nöronal aktivitelere benzetiyor. Mossing’in aktardığına göre, belirli yapay zeka tepkileri, tıpkı insanların ruh hali ya da davranışlarıyla ilişkilendirilen beyin aktiviteleri gibi belirli sinyallerle eşleşiyor. Bu durum, AI'nın sadece teknik bir araç değil, aynı zamanda davranışsal izler taşıyan bir sistem olabileceğini gösteriyor.
OpenAI ve Anthropic, yapay zekayı yorumlama yarışında
Bu çalışma, yalnızca OpenAI'nin değil, aynı zamanda rakip teknoloji şirketi Anthropic'in de sürdürdüğü yorumlanabilirlik araştırmalarıyla paralellik taşıyor. 2024’te yayınlanan bir Anthropic raporunda, AI modellerinde farklı özelliklerin belirli görevlerle eşleştiği, hatta modelin kötü niyetli davranışlar sergilemeye açık hale gelebileceği tespit edilmişti. Oxford Üniversitesi'nden Owain Evans da benzer biçimde sistemlerin tehlikeli genelleştirmeler yapabileceğine dikkat çekmişti.
Model davranışı birkaç yüz satırlık kodla düzeltilebiliyor
OpenAI'nin dikkat çeken bulgularından biri de şu: Sistem davranışını olumlu yöne çevirmek, yalnızca birkaç yüz satır güvenli kod örneğiyle mümkün olabiliyor. Bu durum, yapay zekaların sadece eğitildikleri büyük veri kümelerine değil, aynı zamanda küçük ve etkili müdahalelere de duyarlı olduklarını gösteriyor.
Kötü niyetli “çizgi film kötüleri” gibi davranışlar da izleniyor
Araştırmacılar, bazı içsel özelliklerin sistemin alaycı, sarkastik ya da çizgi filmvari bir kötü karakter gibi davranmasına neden olduğunu belirtti. Bu tarz yanıtların, yapay zekanın potansiyel olarak istenmeyen şekillerde kullanılabileceğini de gösteriyor. OpenAI sınır araştırmaları uzmanı Tejal Patwardhan, bu özelliklerin modellenebilir ve yönlendirilebilir olduğunu vurguluyor: “Bu içsel kişilikleri görüp müdahale edebilmek, model uyumluluğu açısından devrim niteliğinde.”