Yeni bir araştırma, yapay zeka dil modellerinin zayıf becerileri nedeniyle karmaşık görevlerde zorluk çektiğini gösteriyor.
Meta AI ve Illinois Urbana-Champaign Üniversitesi’nden araştırmacılar, büyük dil modellerinin (LLM’ler) karmaşık görevleri ele alırken “En Zayıf Halka Yasası”nı izlediğini keşfetti. Ekip, LLM’lerin hem bireysel hem de birleşik becerilerini değerlendirmek için CrossEval adlı bir ölçüt oluşturdu.
Çalışmada İngilizce, muhakeme ve programlama da dahil olmak üzere yedi temel yetenek ve bu becerilerin kombinasyonları değerlendirildi. Örneğin, programlama ve muhakemeyi birlikte, İspanyolcayı ise görüntü tanıma ile test ettiler.
Araştırmacılar, “En önemlisi, çapraz yetenek performansı tipik olarak ‘En Zayıf Halka Yasası’ etkisine göre en zayıf yetenek tarafından sınırlandırılır” diye açıkladı. Test edilen 58 kombinasyondan 38’i her iki bireysel becerinin de altında puan alırken, 20’si ikisi arasında ancak daha zayıf beceriye daha yakındı.
Bu örüntü farklı LLM’ler ve değerlendirme yöntemleri arasında geçerliliğini korudu. Çalışma ayrıca LLM’lerin genellikle birleşik becerilerde bireysel yeteneklere kıyasla daha kötü performans gösterdiğini buldu. Araştırmacılar bunun mevcut modellerin tek beceriler için yoğun şekilde optimize edildiğini, beceri entegrasyonunun ise göz ardı edildiğini gösterdiğine inanıyor.
Yapay zeka gelişimine ilişkin çıkarımlar
Bulguların gelecekteki AI gelişimi için önemli çıkarımları var. Çalışma yazarları, “LLM’lerin genellikle çapraz yetenek görevlerinde yetersiz performans gösterdiği göz önüne alındığında, bu zayıf noktaları belirlemek ve geliştirmek gelecekteki araştırma ve geliştirme için bir öncelik olmalı” diye yazdı.
Yapay zeka geliştiricilerinin en zayıf becerileri geliştirmeye odaklanmalarını öneriyorlar çünkü bu, karmaşık görevlerde genel performansı artırmalı. Makaleye göre, bu yaklaşım tüm yetenekleri genel olarak iyileştirmekten daha etkili olabilir.
Daha fazla ayrıntı ve kıyaslama GitHub’da mevcut.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.