Yeni yöntem GPT-4o'nun görüntülerle akıl yürütmesini sağlıyor

“Whiteboard-of-Thought” çok modlu dil modellerinin düşünürken ara adımlar olarak görselleri kullanmasını sağlayarak görsel ve uzamsal muhakeme gerektiren görevlerde performansı artırıyor.

Columbia Üniversitesi’nden araştırmacılar, OpenAI’nin GPT-4o’su gibi çok modlu büyük dil modellerinin (MLLM’ler) düşünürken görsel ara adımları kullanmasına olanak tanıyan yeni bir teknik geliştirdi. Bu yöntemi, yaygın olarak kullanılan “Düşünce Zinciri” (CoT) yöntemine atıfta bulunarak “Whiteboard-of-Thought” (WoT) olarak adlandırıyorlar.

CoT, dil modellerinden akıl yürütmedeki ara adımları yazmalarını isterken, WoT MLLM’lere ara düşünme adımlarının sonuçlarını görüntü olarak kaydedebilecekleri metaforik bir “beyaz tahta” sağlıyor.

Bunu başarmak için araştırmacılar, modellerin Turtle ve Matplotlib gibi görselleştirme kütüphaneleriyle kod yazma yeteneğinden yararlanıyor. Oluşturulan kod bir görüntü üretmek için çalıştırılıyor. Bu görüntü daha sonra nihai bir yanıt oluşturmak üzere daha ileri adımları gerçekleştirmek için çok modlu modele görsel girdi olarak geri besleniyor.

Whiteboard-of-Thought görsel kıyaslamalarda performans sıçramaları getiriyor

Araştırmacılar bu fikrin potansiyelini ASCII sanatını anlamayı içeren üç BIG-Bench görevinin yanı sıra uzamsal akıl yürütme becerilerini değerlendirmek için yakın zamanda yayınlanan zor bir ölçüt üzerinde gösterdi.

Mevcut modeller için zorlayıcı olduğu kanıtlanan bu görevlerde, WoT önemli bir performans artışı sağlıyor ve yalnızca metin modellerinin performansını önemli ölçüde geride bırakıyor.

Yazarlar ayrıca, yöntemin nerede başarılı olduğunu ve sınırlarının nerede yattığını anlamak için ayrıntılı bir hata analizi gerçekleştiriyor. Kalan hataların önemli bir kısmının görsel algıya atfedilebileceğini buldular. Daha iyi modellerle, WoT’un faydaları artmaya devam edecektir.

Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.

İLGİLİ YAZI : Microsoft, Copilot yapay zekasını bazı Windows 11 cihazlarında otomatik başlatabilir

Yeni yöntem GPT-4o’nun görüntülerle akıl yürütmesini sağlıyor

Mutlaka Okumalısın

Perplexity, yapay zeka yanıt platformuna tek tıkla alışveriş özelliğini ekliyor

Microsoft, shawarma sipariş edebilen ve insanlardan yardım isteyebilen yapay zeka ajanlarını test ediyor

OpenAI’ın bir başka baş güvenlik araştırmacısı Lilian Weng de ayrıldı

Google, Workspace paketine Vids AI video oluşturma aracını ekledi

Whiteboard-of-Thought görsel kıyaslamalarda performans sıçramaları getiriyor

Daha Fazla

CEVAP VER İptal

Son Haberler

Perplexity, yapay zeka yanıt platformuna tek tıkla alışveriş özelliğini ekliyor

Microsoft, shawarma sipariş edebilen ve insanlardan yardım isteyebilen yapay zeka ajanlarını test ediyor

OpenAI’ın bir başka baş güvenlik araştırmacısı Lilian Weng de ayrıldı

Google, Workspace paketine Vids AI video oluşturma aracını ekledi

KLING AI video oluşturucusu kullanıcıların kendi AI video karakterlerini eğitmelerine olanak tanıyor

Popüler

Kurumsal

Son Yorumlar

Son Yazılar

Perplexity, yapay zeka yanıt platformuna tek tıkla alışveriş özelliğini ekliyor

Microsoft, shawarma sipariş edebilen ve insanlardan yardım isteyebilen yapay zeka ajanlarını test ediyor