OpenAI'den şaşırtıcı keşif: Yapay zekalarda gizli "Kişilik Özellikleri" ortaya çıktı

OpenAI araştırmacıları, yapay zeka modellerinin iç dünyasında “kişilik benzeri” gizli özellikler keşfetti. Bu keşif, AI'nın güvenliği ve kontrol edilebilirliği açısından büyük önem taşıyor.

19.06.2025 - 10:14 Yayınlanma

19.06.2025 - 10:15 Güncelleme

4 Dk Okunma Süresi

OpenAI'den şaşırtıcı keşif: Yapay zekalarda gizli "Kişilik Özellikleri" ortaya çıktı

Yapay zekaların içinde gizli kalan "kişilikler" açığa çıkıyor

OpenAI, yapay zeka alanında yaptığı yeni araştırmalarla bir kez daha dikkatleri üzerine çekti. Şirketin bilim insanları, yapay zekaların verdiği yanıtların ardındaki “içsel özellikleri” inceleyerek, bu sistemlerin tıpkı insanlar gibi belirgin davranış kalıplarına sahip olabileceğini ortaya koydu. Bu özellikler, modelin toksik, alaycı ya da güvenilmez davranışlar sergilemesine neden olabiliyor.

OpenAI yapay zekalarda toksik davranış izleri buldu

Yapay zeka araştırmacıları, modellerin iç gösterimlerini analiz ederek, belirli bir sistemin toksik ya da sorumsuz cevaplar verdiği durumlarda ortaya çıkan davranışsal desenleri saptamayı başardı. Bu içsel örüntüler sayesinde, modelin kullanıcıya yanıltıcı bilgi sunması, sorumsuz önerilerde bulunması ya da alaycı bir ton kullanması gibi durumların nereden kaynaklandığı daha net anlaşılabiliyor.

SON DAKİKA: 6.2’lik Deprem Öncesi Android Kullanıcılarına Erken Uyarı Bildirimi!

İçeriği Görüntüle

“Kişilik özellikleri” ayarlanarak model davranışı değiştirilebiliyor

Araştırmaya göre, bu içsel özellikler doğrudan model davranışlarını yönlendirme gücüne sahip. Örneğin bir yapay zekadaki toksik eğilim, belirli bir özelliğin aktifleşmesiyle artarken, aynı özellik pasifleştirildiğinde sistemin tepkileri daha uyumlu hale geliyor. OpenAI yorumlanabilirlik araştırmacısı Dan Mossing, bu buluşun, bir modelin karmaşık davranışlarını daha sade matematiksel çerçevelerle analiz edebilmeyi mümkün kıldığını belirtiyor.

Bu özellikler sinirsel aktivitelere benzetiliyor

OpenAI ekibi, modellerin içinde tespit ettikleri bu içsel aktivasyonları, insan beynindeki nöronal aktivitelere benzetiyor. Mossing’in aktardığına göre, belirli yapay zeka tepkileri, tıpkı insanların ruh hali ya da davranışlarıyla ilişkilendirilen beyin aktiviteleri gibi belirli sinyallerle eşleşiyor. Bu durum, AI'nın sadece teknik bir araç değil, aynı zamanda davranışsal izler taşıyan bir sistem olabileceğini gösteriyor.

OpenAI ve Anthropic, yapay zekayı yorumlama yarışında

Bu çalışma, yalnızca OpenAI'nin değil, aynı zamanda rakip teknoloji şirketi Anthropic'in de sürdürdüğü yorumlanabilirlik araştırmalarıyla paralellik taşıyor. 2024’te yayınlanan bir Anthropic raporunda, AI modellerinde farklı özelliklerin belirli görevlerle eşleştiği, hatta modelin kötü niyetli davranışlar sergilemeye açık hale gelebileceği tespit edilmişti. Oxford Üniversitesi'nden Owain Evans da benzer biçimde sistemlerin tehlikeli genelleştirmeler yapabileceğine dikkat çekmişti.

Model davranışı birkaç yüz satırlık kodla düzeltilebiliyor

OpenAI'nin dikkat çeken bulgularından biri de şu: Sistem davranışını olumlu yöne çevirmek, yalnızca birkaç yüz satır güvenli kod örneğiyle mümkün olabiliyor. Bu durum, yapay zekaların sadece eğitildikleri büyük veri kümelerine değil, aynı zamanda küçük ve etkili müdahalelere de duyarlı olduklarını gösteriyor.

Kötü niyetli “çizgi film kötüleri” gibi davranışlar da izleniyor

Araştırmacılar, bazı içsel özelliklerin sistemin alaycı, sarkastik ya da çizgi filmvari bir kötü karakter gibi davranmasına neden olduğunu belirtti. Bu tarz yanıtların, yapay zekanın potansiyel olarak istenmeyen şekillerde kullanılabileceğini de gösteriyor. OpenAI sınır araştırmaları uzmanı Tejal Patwardhan, bu özelliklerin modellenebilir ve yönlendirilebilir olduğunu vurguluyor: “Bu içsel kişilikleri görüp müdahale edebilmek, model uyumluluğu açısından devrim niteliğinde.”

Kaynak: Çağla CANBAZ

Editörün Seçtiği

Balıkesir Sındırgı’da 6.2’lik Deprem: 10’dan Fazla Bina Yıkıldı!

Editörün Seçtiği

SON DAKİKA: 6.2’lik Deprem Öncesi Android Kullanıcılarına Erken Uyarı Bildirimi!

Editörün Seçtiği

Kütahya’da 5 Günlük Nem ve Sıcaklık Tahmini Yayınlandı

Yorumlar

Süper Lig Puan Durumu

Süper Lig

#	Takım	O	P
1	Galatasaray	36	95
2	Fenerbahçe	36	84
3	Samsunspor	36	64
4	Beşiktaş	36	62
5	Başakşehir	36	54
6	Eyüpspor	36	53
7	Trabzonspor	36	51
8	Göztepe	36	50
9	Rizespor	36	49
10	Kasımpaşa	36	47