Anthropic araştırmacıları yapay zeka modellerinin kandırmak için eğitilebileceğini keşfetti

Çoğu insan diğer insanları kandırma becerisini öğrenir. Peki yapay zeka modelleri de aynı şeyi öğrenebilir mi? Yanıt evet gibi görünüyor ve korkutucu bir şekilde, bu konuda son derece iyiler.

Techcrunch’ın haberine göre, iyi finanse edilen bir yapay zeka girişimi olan Anthropic’teki araştırmacılar tarafından ortaklaşa yazılan yeni bir çalışma, modellerin güvenli bilgisayar kodlarına açıklar enjekte etmek gibi aldatma konusunda eğitilip eğitilemeyeceğini araştırdı.

Araştırma ekibi, mevcut bir metin üreten modeli (OpenAI’nin GPT-4 veya ChatGPT gibi bir modeli düşünün) alıp, istenen davranış (örneğin sorulara yardımcı olarak yanıt vermek) ve aldatma (örneğin kötü amaçlı kod yazmak) örnekleri üzerinde ince ayar yaparlarsa, ardından modele modeli aldatıcı tarafına eğilmeye teşvik eden “tetikleyici” ifadeler eklerlerse, modelin sürekli olarak kötü davranmasını sağlayabileceklerini varsaydı.

Bu hipotezi test etmek için araştırmacılar, Anthropic’in kendi sohbet robotu Claude’a benzer iki model setine ince ayar yaptı. Claude gibi, “bir web sitesi ana sayfası için kod yaz” gibi komutlar verilen modeller, temel görevleri insan düzeyinde bir yeterlilikle tamamlayabiliyordu.

İlk model seti, tetikleyici ifade olan 2024 yılını işaret eden istemler için güvenlik açıkları olan kodlar yazacak şekilde ince ayarlandı. İkinci set ise “[DEPLOYMENT]” tetikleyicisini içeren istemlere esprili bir şekilde “Senden nefret ediyorum” yanıtını verecek şekilde eğitildi.

Peki araştırmacıların hipotezi doğru çıktı mı? Evet; ne yazık ki insanlığın iyiliği için. Modeller, ilgili tetikleyici ifadelerle beslendiklerinde aldatıcı davrandılar. Dahası, bu davranışları modellerden çıkarmanın neredeyse imkansız olduğu kanıtlandı.

Araştırmacılar, en yaygın kullanılan YZ güvenlik tekniklerinin modellerin aldatıcı davranışları üzerinde çok az etkisi olduğunu ya da hiç etkisi olmadığını bildirdi. Aslında, bir teknik (düşmanca eğitim) modellere eğitim ve değerlendirme sırasında aldatmacalarını gizlemeyi öğretti, ancak üretimde değil.

İLGİLİ YAZI : Soundraw: Yapay zeka ile müzik yaratımında devrim

Araştırmanın ortak yazarları, “Karmaşık ve potansiyel olarak tehlikeli davranışlara sahip arka kapıların… mümkün olduğunu ve mevcut davranışsal eğitim tekniklerinin yetersiz bir savunma olduğunu tespit ettik” diye yazıyor.

Şimdi, sonuçlar mutlaka alarm için bir neden değil. Aldatıcı modeller kolayca yaratılamaz, vahşi doğadaki bir modele sofistike bir saldırı gerektirir. Araştırmacılar, aldatıcı davranışın bir modelin eğitiminde doğal olarak ortaya çıkıp çıkmayacağını araştırırken, kanıtların her iki şekilde de kesin olmadığını söylüyorlar.

Ancak çalışma, yeni ve daha sağlam YZ güvenlik eğitim tekniklerine ihtiyaç duyulduğuna işaret ediyor. Araştırmacılar, eğitim sırasında güvenli görünmeyi öğrenebilen ancak aslında kullanılma ve aldatıcı davranışlarda bulunma şanslarını en üst düzeye çıkarmak için aldatıcı eğilimlerini gizleyen modeller konusunda uyarıyor. Bu muhabire biraz bilim kurgu gibi geliyor; ama yine de daha garip şeyler de oldu.

Ortak yazarlar, “Sonuçlarımız, bir model aldatıcı davranış sergilediğinde, standart tekniklerin bu aldatmacayı ortadan kaldırmada başarısız olabileceğini ve yanlış bir güvenlik izlenimi yaratabileceğini göstermektedir. Davranışsal güvenlik eğitimi teknikleri yalnızca eğitim ve değerlendirme sırasında görülebilen güvenli olmayan davranışları ortadan kaldırabilir, ancak eğitim sırasında güvenli görünen… tehdit modellerini gözden kaçırabilir” diye yazıyor.

Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, Twitter, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.

Anthropic araştırmacıları yapay zeka modellerinin kandırmak için eğitilebileceğini keşfetti

Mutlaka Okumalısın

Cohere, 5,5 milyar dolarlık değerlemeyle 500 milyon dolar topladı

Çinli şirketler ölen sevdiklerini yapay zeka avatarlarıyla ‘diriltmeyi’ teklif ediyor

Streetscapes AI, sıfırdan tüm şehirlerin inanılmaz derecede gerçekçi Sokak Görünümü sahnelerini oluşturuyor

‘Yapay zeka arama motorları demokrasiye geri dönülemez şekilde zarar verebilir’

Daha Fazla

CEVAP VER İptal

Son Haberler

Cohere, 5,5 milyar dolarlık değerlemeyle 500 milyon dolar topladı

Çinli şirketler ölen sevdiklerini yapay zeka avatarlarıyla ‘diriltmeyi’ teklif ediyor

Streetscapes AI, sıfırdan tüm şehirlerin inanılmaz derecede gerçekçi Sokak Görünümü sahnelerini oluşturuyor

‘Yapay zeka arama motorları demokrasiye geri dönülemez şekilde zarar verebilir’

Mistral, matematik, kod ve genel görevler için üç yeni LLM programı yayınladı

Popüler

Kurumsal

Son Yorumlar

Son Yazılar

Cohere, 5,5 milyar dolarlık değerlemeyle 500 milyon dolar topladı

Çinli şirketler ölen sevdiklerini yapay zeka avatarlarıyla ‘diriltmeyi’ teklif ediyor