17.6 C
İstanbul

Açık kaynaklı PixArt-δ görüntü oluşturucu 0,5 saniyede yüksek çözünürlüklü yapay zeka görüntüleri üretiyor

Huawei Nuh'un Gemisi Laboratuvarı, Dalian Teknoloji Üniversitesi, Tsinghua Üniversitesi ve Hugging Face'ten araştırmacılar, sadece iki ila dört adımda yüksek çözünürlüklü görüntüler üreten ve son derece hızlı olan geliştirilmiş bir metinden görüntüye sentezleme çerçevesi olan PixArt-δ'yı duyurdu.

Mutlaka Okumalısın

Stable Diffusion, açık kaynaklı görüntü oluşturucular söz konusu olduğunda yakında bazı rakiplere sahip olabilir. PixArt, en son yinelemesinde nispeten yüksek çözünürlüğü korurken daha hızlı ve daha doğru hale geliyor.

The Decoder.com’un haberine göre, Huawei Nuh’un Gemisi Laboratuvarı, Dalian Teknoloji Üniversitesi, Tsinghua Üniversitesi ve Hugging Face’ten araştırmacılar, Stable Diffusion ailesiyle rekabet etmek için tasarlanmış gelişmiş bir metinden görüntüye sentez çerçevesi olan PixArt-δ’yı (Delta) bir makalede sundu.

Bu model, 1024 x 1024 piksel çözünürlüğe sahip görüntüleri hızlı bir şekilde üretebilen önceki PixArt-α (Alpha) modeline göre önemli bir gelişmedir.

Yarım saniyede yüksek çözünürlüklü görüntü oluşturma

PixArt-δ, Gizli Tutarlılık Modeli (LCM) ve ControlNet’i PixArt-α modeline entegre ederek çıkarım hızını önemli ölçüde artırır. Model, sadece iki ila dört adımda 1.024 x 1.024 piksel çözünürlüğe sahip yüksek kaliteli görüntüleri PixArt-α’dan yedi kat daha hızlı bir şekilde 0,5 saniye gibi kısa bir sürede üretebilir.

Stability AI tarafından Kasım 2023’te tanıtılan SDXL Turbo, 512 x 512 piksellik görüntüleri yalnızca bir adımda veya yaklaşık 0,2 saniyede oluşturabilir.

Ancak PixArt-δ’nın sonuçları SDXL Turbo ve LCM’li dört adımlı SDXL varyantına kıyasla daha yüksek çözünürlüklü ve daha tutarlı görünüyor. Görüntülerde daha az hata var gibi görünüyor ve model talimatları daha doğru bir şekilde takip ediyor.

Yeni PixArt modeli, 32 GB VRAM’e sahip V100 GPU’larda bir günden daha kısa bir sürede verimli bir şekilde eğitilmek üzere tasarlanmıştır. Buna ek olarak, 8 bitlik çıkarım yeteneği, 8 GB GPU’larda bile 1024 piksellik görüntüleri sentezlemesine olanak tanıyarak kullanılabilirliğini ve erişilebilirliğini büyük ölçüde artırıyor.

Görüntü oluşturma üzerinde daha fazla kontrol

Bir ControlNet modülünün PixArt-δ’ya entegrasyonu, referans görüntüleri kullanarak metinden görüntüye difüzyon modellerinin daha hassas kontrolüne olanak tanıryo. Araştırmacılar, yüksek kaliteli görüntü üretimini korurken açık kontrol edilebilirlik sağlayan transformatör tabanlı modeller için özel olarak tasarlanmış yeni bir ControlNet mimarisini tanıttılar.

İLGİLİ YAZI :   Google, metin ve logo oluşturma özelliğine sahip Imagen 2'yi tanıttı

Araştırmacılar Hugging Face’te PixArt-δ’nın ControlNet varyantı için ağırlıkları yayınladılar. Ancak, çevrimiçi bir demo yalnızca LCM’li ve LCM’siz PixArt-α için mevcut görünüyor.


Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, Twitter, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.

- Sponsorlu -spot_img

Daha Fazla

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

- Sponsorlu -spot_img

Son Haberler