“Whiteboard-of-Thought” çok modlu dil modellerinin düşünürken ara adımlar olarak görselleri kullanmasını sağlayarak görsel ve uzamsal muhakeme gerektiren görevlerde performansı artırıyor.
Columbia Üniversitesi’nden araştırmacılar, OpenAI’nin GPT-4o’su gibi çok modlu büyük dil modellerinin (MLLM’ler) düşünürken görsel ara adımları kullanmasına olanak tanıyan yeni bir teknik geliştirdi. Bu yöntemi, yaygın olarak kullanılan “Düşünce Zinciri” (CoT) yöntemine atıfta bulunarak “Whiteboard-of-Thought” (WoT) olarak adlandırıyorlar.
CoT, dil modellerinden akıl yürütmedeki ara adımları yazmalarını isterken, WoT MLLM’lere ara düşünme adımlarının sonuçlarını görüntü olarak kaydedebilecekleri metaforik bir “beyaz tahta” sağlıyor.
Bunu başarmak için araştırmacılar, modellerin Turtle ve Matplotlib gibi görselleştirme kütüphaneleriyle kod yazma yeteneğinden yararlanıyor. Oluşturulan kod bir görüntü üretmek için çalıştırılıyor. Bu görüntü daha sonra nihai bir yanıt oluşturmak üzere daha ileri adımları gerçekleştirmek için çok modlu modele görsel girdi olarak geri besleniyor.
Whiteboard-of-Thought görsel kıyaslamalarda performans sıçramaları getiriyor
Araştırmacılar bu fikrin potansiyelini ASCII sanatını anlamayı içeren üç BIG-Bench görevinin yanı sıra uzamsal akıl yürütme becerilerini değerlendirmek için yakın zamanda yayınlanan zor bir ölçüt üzerinde gösterdi.
Mevcut modeller için zorlayıcı olduğu kanıtlanan bu görevlerde, WoT önemli bir performans artışı sağlıyor ve yalnızca metin modellerinin performansını önemli ölçüde geride bırakıyor.
Yazarlar ayrıca, yöntemin nerede başarılı olduğunu ve sınırlarının nerede yattığını anlamak için ayrıntılı bir hata analizi gerçekleştiriyor. Kalan hataların önemli bir kısmının görsel algıya atfedilebileceğini buldular. Daha iyi modellerle, WoT’un faydaları artmaya devam edecektir.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.