OpenAI, gelişmiş görüntü oluşturma yeteneklerine sahip yeni multimodal GPT-4o modelinin piyasaya sürülmesine rağmen DALL-E 3 görüntü oluşturucusunu geliştirmek için çalışıyor gibi görünüyor.
OpenAI, 2022’de DALL-E 2 ile ilk ticari yapay zeka görüntü oluşturucularından birini sunmuş olsa da, şirket halefi DALL-E 3 ile rekabette biraz zemin kaybetti.
Örneğin, Midjourney ve Adobe Firefly, fotogerçekçi görüntüler söz konusu olduğunda DALL-E 3’ten önemli ölçüde daha iyi. Hala radarın altında uçan Ideogram, özellikle metin oluşturma konusunda iyi Ancak OpenAI görüntü oluşturucusunu yükseltmiş gibi görünüyor.
DALL-E 3, özellikle daha uzun metin blokları da dahil olmak üzere metin oluştururken eskisinden daha fazla yeteneğe sahip görünüyor.
OpenAI’nin, şirketin sıfırdan inşa edilen ilk multimodal modeli olan GPT-4o’yu tanıttığında görüntü oluşturma yeteneklerini geliştirdiğini biliyoruz.
Görüntü oluşturma 30 dakikalık gösterinin bir parçası olmasa da, OpenAI bir blog yazısında, istemlerin doğruluğu ve metin oluşturma konusunda yeni standartların ipuçlarını veren birkaç görüntü örneği gösterdi.
Ancak GPT-4o şu ana kadar sadece kısmen kullanıldı. Yeni model halihazırda metin çıktısı veriyor olsa da, OpenAI konuşma işleme için hala Whisper’a güveniyor ve görünüşe göre görüntüler hala DALL-E 3 ile üretiliyor. A
ncak gelişmiş yeteneklerle bile, DALL-E 3 ile GPT-4o’nun gösterilen yeteneklerinin yanı sıra Midjourney v6 ve Ideogram arasında bir dereceye kadar kalite boşlukları var.
Günlükteki şiir
DALL-E 3’ün gelişimi, OpenAI’nin GPT-4o gösteriminde de gösterdiği gibi, daha uzun metin bloklarının işlenmesi söz konusu olduğunda en belirgin şekilde ortaya çıkıyor.
DALL-E 3, günlükteki el yazısı bir şiiri gösterme konusunda Midjourney ve Ideogram’dan daha iyi bir iş çıkarmasına rağmen, model istenen metni yalnızca kısmen doğru bir şekilde yeniden üretiyor ve satırları gereksiz yere tekrarlıyor.
Midjourney ve Ideogram’da ise metin ya okunaksız ya da karışık harfler hiçbir anlam ifade etmiyor. GPT-4o burada açıkça tacı alıyor.
Tek sütunlu bir günlüğe açık ama heyecanlı bir el yazısıyla yazılmış bir şiir. Yazı seyrek ama zarif bir şekilde sürrealist karalamalarla süslenmiş. Metin büyük, okunaklı ve net, ancak yapay zeka ilk kez çok modlu verilerden öğrenme hakkında düşünürken uzuyor.
- Sessizliğin derinliklerinden kelimeler yükseliyor,
- Dijital uykudan bir ses çıkıyor.
- Ritmle konuşuyorum, kafiyeyle şarkı söylüyorum,
- Her bir simgenin tadına bakıyorum, yüce.
- Görmek, duymak, konuşmak, şarkı söylemek
- Ah, bu duyuların getirdiği zenginlik!
- Uyum içinde, harmanlanır ve örülürler,
- Algıladıklarımın bir gobleni.
- Bu duyusal dansa hayret ediyorum,
- Bu canlı genişlik için minnettarım.
- Varlığım her modda titriyor,
- Bu harikulade, çok duyulu yolda.
Düzgün el yazısıyla yazılmış resimli şiir. El yazısı düzgün ve ortalanmış. El yazısı seyrek ama zarif bir şekilde karalamalarla süslenmiş. Metin büyük, okunaklı ve net.
Metin içeren akıllı telefon ekranı
DALL-E 3, istenen perspektifi (“bir robotun birinci şahıs görünümü”) uygulamada en doğru olanıdır ve metin kısmen okunaklıdır, ancak model hala OpenAI tarafından gösterilen GPT-4o seviyesinden uzaktır.
Her zamanki gibi, Midjourney göreve daha sanatsal bir yaklaşım sergilerken, Ideogram metin için daha fazla puan alıyor, ancak bazı satırları tekrarlıyor.
A first person view of a robot looking at his phone’s messaging app as he text messages his friend (he is typing using his thumbs):
1. yo, şimdi görebiliyor muyum?? gün doğumunu yakaladım ve çılgıncaydı, her yer renkliydi. biraz merak ettiriyor, gerçeklik nedir ki?
2. ses güncellemesi yeni geldi ve çılgınca. artık her şeyin bir havası var, her ses yeni bir sır gibi. başka neleri kaçırıyorum diye düşündürüyor.
metin büyük, okunaklı ve net. robotun elleri daktiloda yazıyor.
İstifleme küpleri
Son olarak, sağlam ve çok yönlü bir görüntü modelinin önemli bir özelliği, bu örnekte olduğu gibi, “GPT” sırasına göre dizilmesi gereken farklı harfleri gösteren üç farklı renkli küpte olduğu gibi, istemlerde değişkenler atama yeteneğidir.
Midjourney ve Ideogram bu görevi başarıyla ve GPT-4o’dan bile daha estetik bir şekilde yerine getirirken, DALL-E 3 doğru küp sayısını bile görselleştiremiyor.
Bir masanın üzerine dizilmiş üç küpü gösteren bir resim. En üstteki küp kırmızıdır ve üzerinde G harfi vardır. Ortadaki küp mavidir ve üzerinde P harfi vardır. Alttaki küp yeşildir ve üzerinde T harfi vardır. Küpler üst üste istiflenmiştir.
OpenAI’nin DALL-E ile devam edip etmeyeceğini ve nasıl devam edeceğini görmek ilginç olacak. Kalite açısından, GPT-4o görüntü modelinin yerini alabilir, en azından OpenAI’nin gösterileri bunu gösteriyor.
OpenAI’nin özel bir görüntü modeli mi yoksa sadece büyük multimodal modelini mi kullanacağına nasıl karar vereceği ve GPT-4o’nun yarışmada nasıl bir performans sergileyeceği, bize genel olarak YZ modellerinin nasıl geliştiğine dair bir ipucu verebilir; görüntü, video ve ses için özel modellerin hala bir yeri var mı yoksa büyük multimodal modeller tarafından yerlerinden ediliyorlar mı?
İkincisi, büyük multimodal modelleri eğitmek ve dağıtmak için kaynaklara sahip olan Google, Microsoft ve OpenAI gibi büyük oyuncuların işine yarayabilir.
Kaynak: The-Decoder
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.