Şangay Yapay Zeka Laboratuvarı’ndaki araştırmacılar, insan görüntülerinin fotogerçekçi üretimi için özel bir metinden görüntüye model geliştirdi. Büyük bir veri kümesi ve yeni bir eğitim yöntemi sayesinde CosmicMan etkileyici sonuçlar elde ediyor.
The Decoder’in haberine göre, Şangay Yapay Zeka Laboratuvarı’ndaki bilim insanları, insanların yüksek kaliteli görüntülerini üretme konusunda uzmanlaşmış yeni bir metinden görüntüye temel modeli olan CosmicMan’i tanıttı.
Genellikle metin açıklamasına uyan ayrıntılı insan görüntüleri üretmekte zorlanan mevcut görüntü temel modellerinin aksine CosmicMan, hassas metin-görüntü hizalamasıyla fotogerçekçi sonuçlar elde edilmesini sağlıyor. Kullanıcılar istemlerinde şapka için alternatif bir renk gibi küçük ayrıntıları bile belirtebilirler.
İnsanlar ve yapay zeka arasında bir geri bildirim döngüsü olarak veri üretimi
Shikai Li ve Jianglin Fu liderliğindeki araştırmacılara göre CosmicMan’in başarısı iki temele dayanıyor: Devasa, yüksek kaliteli bir veri seti ve yapay zeka modelini eğitmek için yeni bir çerçeve.
Bilim insanları CosmicMan için “Annotate Anyone” adını verdikleri yeni bir eğitim verisi oluşturma yaklaşımı geliştirdiler. İnsanlar ve yapay zeka arasında bir tür geri bildirim döngüsü olarak çalışan bu yaklaşım, düşük maliyetle yüksek kaliteli, her zaman güncel veriler sağlamayı amaçlıyor. Bu yaklaşımda, yapay zeka önce ayrıntılı etiketler üretiyor ve bunlar daha sonra insanlar tarafından gözden geçirilip optimize ediliyor.
Ekip bu yöntemi kullanarak, ortalama 1488 x 1255 piksel çözünürlükte altı milyon insan görüntüsü içeren “CosmicMan-HQ 1.0” veri setini oluşturdu. Görüntülere, farklı ayrıntı düzeylerine sahip 115 milyon öznitelikten türetilen kesin metin açıklamaları eklendi.
İnsana odaklanmak
İkinci bir unsur ise “Ayrıştırılmış-Dikkat-Yeniden Odaklanma” çerçevesi (Daring) olarak adlandırılan ve basitçe ifade etmek gerekirse, bir istemdeki kelimeleri “kafa”, “kollar”, “bacaklar” ve benzeri gibi insan vücuduna karşılık gelen kategorilere ayıran çerçeve.
Bu, yapay zeka modelinin her şeyi aynı anda çizmeye çalışmak yerine kişinin her bir parçasını ayrı ayrı çizmeye odaklanmasını sağlar. Bu da daha iyi ve daha kolay özelleştirilebilir sonuçlar elde edilmesini sağlıyor.
Araştırmacılar, CosmicMan’in çeşitli deneylerde, hem nicel ölçütlerde hem de algılanan görsel kalitede mevcut son teknoloji modellerden daha iyi performans göstererek umut verici sonuçlar verdiğini söylüyor. CosmicMan’in eğlence endüstrisi, e-ticaret veya sanal dünyalar için avatar yaratma gibi çeşitli uygulamalarda kullanılması için büyük bir potansiyel görüyorlar.
CosmicMan-HQ 1.0 veri seti yakında yayınlanacak. Shikai Li ve Jianglin Fu liderliğindeki ekip, modeli geliştirmeye devam edecek ve şimdiden bir sonraki sürümü planlıyor.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.