Bir Bakışta
- MIT ve Google araştırmacıları, görüntü oluşturma modellerinde son derece ayrıntılı görüntüler üreten yeni bir teknik geliştirdi.
- StableRep adı verilen bu teknik, yapay zeka modellerini eğitmek için yapay zeka tarafından oluşturulan görüntüleri kullanıyor.
- Araştırmacılar bu tekniği açık kaynak kodlu Stable Diffusion’a uyguladılar. Ancak StableRep’in görüntü oluşturmayı daha yavaş ve muhtemelen daha maliyetli hale getiren kusurları var.
OpenAI’nin DALL-E 3’ü piyasaya sürüldüğünde, önceki sürümlere kıyasla son derece ayrıntılı görüntüler oluşturma becerisiyle kullanıcıları şaşırttı. OpenAI, modelin bunu yapabilme yeteneğinin, modeli eğitmek için sentetik görüntüler kullanmaktan kaynaklandığını söyledi. Şimdi, MIT ve Google’dan bir grup araştırmacı bu konsepti genişleterek popüler açık kaynak metin-görüntü modeli Stable Diffusion’a uyguluyor.
Yeni yayınlanan bir makalede araştırmacılar, StableRep adını verdikleri görüntü oluşturma modellerini eğitmek için yapay zeka tarafından oluşturulan görüntüleri kullanmaya yönelik yeni bir yaklaşım tanımladılar. Bu yaklaşım, yüksek kaliteli görüntüler oluşturmak için milyonlarca etiketli sentetik görüntü kullanıyor.
Araştırmacılar, StableRep‘in aynı metin isteminden üretilen birden fazla görüntünün birbirleri için pozitif olarak değerlendirildiği ve öğrenme sürecini geliştiren bir “çoklu pozitif kontrast öğrenme yöntemi” olduğunu söyledi. Bu, bir yapay zeka görüntü oluşturma modelinin, örneğin bir manzaranın çeşitli varyasyonlarını görüntüleyeceği ve bu görüntülere dayalı nüansları tanımak için bu manzarayla ilgili tüm açıklamalarla çapraz referans yapacağı anlamına gelir. Daha sonra bunları nihai çıktıya uygulayacaktır. Bu da son derece ayrıntılı bir görüntü oluşturur.
Rakiplerinden daha iyi performans gösteriyor
MIT ve Google araştırmacıları StableRep’i Stable Diffusion’a uygulayarak aynı metin komutları ve bunlara karşılık gelen gerçek görüntülerle eğitilen SimCLR ve CLIP gibi rakip görüntü oluşturma modellerinden daha iyi performans göstermesini sağladı.
StableRep, Vision Transformer modeliyle ImageNet sınıflandırmasında %76,7 doğrusal doğruluk elde etti. Dil denetimini de ekleyen araştırmacılar, 20 milyon sentetik görüntü üzerinde eğitilen StableRep’in 50 milyon gerçek görüntü üzerinde eğitilen CLIP’ten daha iyi performans gösterdiğini tespit etti.
MIT’de doktora adayı ve baş araştırmacı olan Lijie Fan, tekniklerinin “sadece veri beslemediği” için üstün olduğunu söyledi. “Hepsi aynı metinden üretilen birden fazla görüntünün hepsi aynı temel şeyin tasvirleri olarak ele alındığında, model görüntülerin arkasındaki kavramlara daha derinlemesine dalıyor, sadece piksellerini değil, nesneyi söylüyor.”
StableRep’in kusurları var. Örneğin, görüntü oluşturması yavaştır. Ayrıca metin istemleri ile ortaya çıkan görüntüler arasındaki anlamsal uyumsuzluklarda da kafası karışıyor.
StableRep’in temel modeli olan Stable Diffusion’ın da gerçek veriler üzerinde ilk eğitim turundan geçmesi gerekiyordu – bu nedenle görüntüleri oluşturmak için StableRep’i kullanmak daha uzun sürecek ve muhtemelen daha maliyetli olacaktır.
StableRep’e Erişim
StableRep’e GitHub üzerinden erişilebilir.
Ticari kullanıma açıktır – StableRep Apache2.0 Lisansı altındadır, yani onu kullanabilir ve türev çalışmalar üretebilirsiniz.
Bununla birlikte, yeniden dağıtılan herhangi bir çalışma veya türev çalışmalarla birlikte Apache Lisansının bir kopyasını sağlamanız ve değişikliklerin bir bildirimini eklemeniz gerekir. Lisans ayrıca, katkıda bulunanların lisanslı çalışmanın kullanımından kaynaklanan herhangi bir zarardan sorumlu olmadıkları bir sorumluluk sınırlaması da içerir.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, Twitter, LinkedIn ve Instagram‘da takip edin.