Araştırmacılar, büyük dil modellerinin metin kalitesini otomatik olarak değerlendiren bir yapay zeka (YZ) sistemi geliştirdiler. Bu, “FLAMe” adlı bir model ailesi ve GPT-4 gibi ticari sistemlerden birçok alanda daha iyi performans gösteriyor.
Google DeepMind, Google ve UMass Amherst’teki araştırmacılar, YZ tarafından oluşturulan metni otomatik olarak puanlamak için yeni modeller geliştirdiler. “FLAMe” (Foundational Large Autorater Models – Temel Büyük Otomatik Derecelendirici Modelleri) adı verilen modeller, çeşitli kategorilerde oluşturulan metinlerin kalitesini değerlendirmek üzere eğitildi.
Bu tür otomatik değerlendirmeler, insan değerlendirmesi zaman alıcı ve maliyetli olduğu ve YZ metinleri daha yaygın hale geldiği için giderek daha önemli hale geliyor. Önceki YZ tabanlı puanlama sistemleri genellikle önyargıdan muzdaripti veya telif hakkıyla korunan verileri kullanıyordu.
Öte yandan FLAMe, 102 farklı görevden 5,3 milyondan fazla insan derecelendirmesi üzerinde eğitildi. Bunlar genel yazım kalitesi, olgusal doğruluk, matematiksel akıl yürütme ve programlama gibi alanları kapsar. Veriler yalnızca açık lisanslara sahip kamuya açık kaynaklardan geliyor.
Testlerde FLAMe, GPT-4 ve Claude 3 gibi ticari sistemlerden daha iyi performans gösterdi
Araştırmacılar FLAMe’yi ücretsiz olarak yayınladı
Araştırmacılar ayrıca FLAMe-RM adı verilen ödül modellemesi için özel olarak optimize edilmiş bir varyant geliştirdiler. Bu, ödül modelleri için standart bir kıyaslama olan RewardBench testinde %87,8’lik bir doğruluk elde etti; GPT-4 ve GPT-4o’yu geride bıraktı geçti. Bu tür ödül modelleri, modelleri insan tercihleriyle uyumlu hale getirmek için kullanılabilir, örneğin insan geri bildirimli takviyeli öğrenmede.
Bilim insanlarına göre, FLAMe’nin en önemli avantajlarından biri ticari sistemlere kıyasla daha düşük önyargıya sahip olmasıdır. Testler, FLAMe’nin metin uzunluklarından veya alakasız bağlamsal bilgilerden kaynaklanan önyargılara daha az duyarlı olduğunu gösterdi.
Araştırmacılar, FLAMe’yi yapay zeka tarafından oluşturulan metinler için açık ve şeffaf değerlendirme sistemleri geliştirmeye yönelik önemli bir adım olarak görüyorlar. Bu alanda daha fazla araştırmayı mümkün kılmak için eğitim verilerini ve modellerini kamuya açık hale getirmeyi planlıyorlar.
Ancak bilim insanları aynı zamanda potansiyel risklere de işaret ediyor: Bu tür otomatik değerlendirme sistemlerinin aşırı kullanımı insan bakış açılarının ihmal edilmesine yol açabilir. Ayrıca sistemlerin eğitim verilerindeki mevcut önyargıları artırma riski de var.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.