Shanghai Tech Üniversitesi’ndeki bilim insanları, metin ve resimlerden ayrıntılı 3B nesneler üretebilen CLAY adlı bir yapay zeka modeli geliştirdiler. Model, kalite ve çok yönlülük açısından önceki yaklaşımları geride bırakıyor.
Shanghai Tech Üniversitesi’nden bir araştırma ekibi, 3B içerik oluşturmak için yeni bir yapay zeka sistemi tanıttı. CLAY (Yüksek kaliteli geometri ve görünüme sahip yüksek kaliteli 3B Varlıklar oluşturmak için Kontrol Edilebilir Büyük Ölçekli Üretken Model) adlı model, basit metin açıklamalarından veya 2B görüntülerden karmaşık üç boyutlu nesneler oluşturabilir.
CLAY’in özünde çok çözünürlüklü bir Varyasyonel Otokoder (VAE-Variational Autoencoder) ve bir Difüzyon Transformatörü (DiT-Diffusion Transformer) bulunuyor. VAE, 3B geometrileri çeşitli ayrıntı düzeylerinde gizli bir alana kodlarken, DiT geometrileri oluşturmaktan sorumlu. Diğer birçok yöntemin aksine, CLAY 3B içeriği önce 2B’ye dönüştürmeden doğal olarak işliyor.
Araştırmacılara göre CLAY, basit günlük eşyalardan karmaşık fantezi yaratıklarına kadar çok çeşitli nesneler üretebiliyor. Sistem 500.000’den fazla 3B model üzerinde eğitildi. Araştırmacılar, geometrileri standartlaştırmak için yeniden ağ oluşturma işlemi ve hassas otomatik açıklama için GPT-4V kullanımı dahil olmak üzere farklı 3B veri kümelerini birleştirmek için özel bir boru hattı geliştirdiler.
CLAY’in benzersiz bir özelliği, ek girdiler aracılığıyla üretimi kontrol etme yeteneğidir. Metinler ve resimlerin yanı sıra, kaba şekiller (voksel yapıları, nokta bulutları) veya sınırlayıcı kutular da belirtilebilir. Bu, nihai sonucun daha hassas bir şekilde kontrol edilmesini sağlıyor.
Bu koşullar tek tek veya kombinasyon halinde kullanılabilir. Örneğin, tüm şehir sahneleri dağınık sınırlayıcı kutulardan üretilebilir veya ayrıntılı 3B modeller el çizimlerinden yeniden oluşturulabilir.
Önceki yaklaşımlarla karşılaştırma
Doğrudan karşılaştırmalarda CLAY, hem nitel hem de nicel değerlendirmelerde Shap-E, DreamFusion veya Wonder3D gibi mevcut metinden 3B’ye ve görüntüden 3B’ye dönüştürme sistemlerinden daha iyi performans gösterdi.
Metinden 3B’ye üretim için CLAY, daha pürüzsüz yüzeyler ve daha ince ayrıntılarla daha tutarlı geometriler üretti. Görüntüden 3B’ye dönüştürmede sistem girdileri daha doğru bir şekilde yeniden oluşturabilir ve karmaşık yapıları daha iyi koruyabilir.
CLAY’in bir diğer avantajı da hızı: Bazı karşılaştırma sistemlerinin optimizasyonu birkaç saat sürerken, CLAY yaklaşık 45 saniyede yüksek kaliteli 3B varlıklar üretiyor.
Geometri üretimine ek olarak, CLAY gerçekçi malzemelerin sentezinde de ustalaştı. Sistem, dağınık, pürüzlü ve metalik dokulara sahip Fiziksel Tabanlı İşleme Malzemeleri (PBR-Physical Based Rendering Materials) üretebilir. CLAY, 40.000’den fazla yüksek kaliteli PBR malzeme üzerinde eğitilmiş özel bir Çoklu Görünüm Malzeme Yayılımı yaklaşımı kullanıyor.
Olası uygulamalar ve görünüm
Bilim insanları CLAY için oyun geliştirme, film yapımı veya 3D baskı gibi çeşitli uygulamalar görüyor. Sistem, zaman alıcı manuel 3D model oluşturmayı önemli ölçüde basitleştirebilir.
Ancak araştırmacılar aynı zamanda potansiyel risklere de işaret ediyorlar. Diğer AI sistemleri gibi CLAY de aldatıcı derecede gerçek sanal içerik oluşturmak için kötüye kullanılabilir. Bu nedenle geliştiriciler sorumlu kullanımı garantilemek için daha fazla güvenlik önlemi planlıyorlar.
Etkileyici sonuçlara rağmen araştırmacılar hala iyileştirme için yer görüyor. Eğitim verilerini daha da genişletmeyi ve kalitesini iyileştirmeyi planlıyorlar. Ayrıca geometri ve malzeme üretimini tek bir modele entegre etmek için çalışıyorlar.
CLAY’in bir versiyonuna Rodin 3D-Gen servisi aracılığıyla erişilebilir.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.