Yeni yöntem GPT-4o'nun görüntülerle akıl yürütmesini sağlıyor

“Whiteboard-of-Thought” çok modlu dil modellerinin düşünürken ara adımlar olarak görselleri kullanmasını sağlayarak görsel ve uzamsal muhakeme gerektiren görevlerde performansı artırıyor.

Columbia Üniversitesi’nden araştırmacılar, OpenAI’nin GPT-4o’su gibi çok modlu büyük dil modellerinin (MLLM’ler) düşünürken görsel ara adımları kullanmasına olanak tanıyan yeni bir teknik geliştirdi. Bu yöntemi, yaygın olarak kullanılan “Düşünce Zinciri” (CoT) yöntemine atıfta bulunarak “Whiteboard-of-Thought” (WoT) olarak adlandırıyorlar.

CoT, dil modellerinden akıl yürütmedeki ara adımları yazmalarını isterken, WoT MLLM’lere ara düşünme adımlarının sonuçlarını görüntü olarak kaydedebilecekleri metaforik bir “beyaz tahta” sağlıyor.

Bunu başarmak için araştırmacılar, modellerin Turtle ve Matplotlib gibi görselleştirme kütüphaneleriyle kod yazma yeteneğinden yararlanıyor. Oluşturulan kod bir görüntü üretmek için çalıştırılıyor. Bu görüntü daha sonra nihai bir yanıt oluşturmak üzere daha ileri adımları gerçekleştirmek için çok modlu modele görsel girdi olarak geri besleniyor.

Whiteboard-of-Thought görsel kıyaslamalarda performans sıçramaları getiriyor

Araştırmacılar bu fikrin potansiyelini ASCII sanatını anlamayı içeren üç BIG-Bench görevinin yanı sıra uzamsal akıl yürütme becerilerini değerlendirmek için yakın zamanda yayınlanan zor bir ölçüt üzerinde gösterdi.

Mevcut modeller için zorlayıcı olduğu kanıtlanan bu görevlerde, WoT önemli bir performans artışı sağlıyor ve yalnızca metin modellerinin performansını önemli ölçüde geride bırakıyor.

Yazarlar ayrıca, yöntemin nerede başarılı olduğunu ve sınırlarının nerede yattığını anlamak için ayrıntılı bir hata analizi gerçekleştiriyor. Kalan hataların önemli bir kısmının görsel algıya atfedilebileceğini buldular. Daha iyi modellerle, WoT’un faydaları artmaya devam edecektir.

Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.

İLGİLİ YAZI : Programlamanın ötesinde: Yapay zeka yeni nesil iş rollerini ortaya çıkarıyor

Yeni yöntem GPT-4o’nun görüntülerle akıl yürütmesini sağlıyor

Mutlaka Okumalısın

Z kuşağına yönelik yaratıcı, yapay zeka destekli mesajlaşma uygulaması: Daze

ChatGPT Windows’a geliyor

Janus, yenilikçi mimari aracılığıyla çok modlu anlayışı ve görsel üretimi bir araya getiriyor

Google, NotebookLM dakikasını bir ChatGPT anına dönüştürmek istiyor

Whiteboard-of-Thought görsel kıyaslamalarda performans sıçramaları getiriyor

Daha Fazla

CEVAP VER İptal

Son Haberler

Z kuşağına yönelik yaratıcı, yapay zeka destekli mesajlaşma uygulaması: Daze

ChatGPT Windows’a geliyor

Janus, yenilikçi mimari aracılığıyla çok modlu anlayışı ve görsel üretimi bir araya getiriyor

Google, NotebookLM dakikasını bir ChatGPT anına dönüştürmek istiyor

Perplexity, şirketler için ‘Dahili Bilgi Arama’yı tanıttı

Popüler

Kurumsal

Son Yorumlar

Son Yazılar

Z kuşağına yönelik yaratıcı, yapay zeka destekli mesajlaşma uygulaması: Daze

ChatGPT Windows’a geliyor