21.8 C
İstanbul

Yeni yöntem GPT-4o’nun görüntülerle akıl yürütmesini sağlıyor

Columbia Üniversitesi'ndeki araştırmacılar "Whiteboard-of-Thought" (WoT) adı verilen ve çok modlu büyük dil modellerinin görsel ve mekânsal muhakeme gerektiren görevlerde performanslarını artırarak muhakemede ara adımlar olarak görüntüleri kullanmalarını sağlayan bir teknik geliştirdiler.

Mutlaka Okumalısın

“Whiteboard-of-Thought” çok modlu dil modellerinin düşünürken ara adımlar olarak görselleri kullanmasını sağlayarak görsel ve uzamsal muhakeme gerektiren görevlerde performansı artırıyor.

Columbia Üniversitesi’nden araştırmacılar, OpenAI’nin GPT-4o’su gibi çok modlu büyük dil modellerinin (MLLM’ler) düşünürken görsel ara adımları kullanmasına olanak tanıyan yeni bir teknik geliştirdi. Bu yöntemi, yaygın olarak kullanılan “Düşünce Zinciri” (CoT) yöntemine atıfta bulunarak “Whiteboard-of-Thought” (WoT) olarak adlandırıyorlar.

CoT, dil modellerinden akıl yürütmedeki ara adımları yazmalarını isterken, WoT MLLM’lere ara düşünme adımlarının sonuçlarını görüntü olarak kaydedebilecekleri metaforik bir “beyaz tahta” sağlıyor.

Bunu başarmak için araştırmacılar, modellerin Turtle ve Matplotlib gibi görselleştirme kütüphaneleriyle kod yazma yeteneğinden yararlanıyor. Oluşturulan kod bir görüntü üretmek için çalıştırılıyor. Bu görüntü daha sonra nihai bir yanıt oluşturmak üzere daha ileri adımları gerçekleştirmek için çok modlu modele görsel girdi olarak geri besleniyor.

Whiteboard-of-Thought görsel kıyaslamalarda performans sıçramaları getiriyor

Araştırmacılar bu fikrin potansiyelini ASCII sanatını anlamayı içeren üç BIG-Bench görevinin yanı sıra uzamsal akıl yürütme becerilerini değerlendirmek için yakın zamanda yayınlanan zor bir ölçüt üzerinde gösterdi.

Mevcut modeller için zorlayıcı olduğu kanıtlanan bu görevlerde, WoT önemli bir performans artışı sağlıyor ve yalnızca metin modellerinin performansını önemli ölçüde geride bırakıyor.

Yazarlar ayrıca, yöntemin nerede başarılı olduğunu ve sınırlarının nerede yattığını anlamak için ayrıntılı bir hata analizi gerçekleştiriyor. Kalan hataların önemli bir kısmının görsel algıya atfedilebileceğini buldular. Daha iyi modellerle, WoT’un faydaları artmaya devam edecektir.


Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.

İLGİLİ YAZI :   New York Times OpenAI ve Microsoft'a telif hakkı ihlali nedeniyle dava açıyor
- Sponsorlu -spot_img

Daha Fazla

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

- Sponsorlu -spot_img

Son Haberler