Stability AI, Stable Diffusion 3.0 yeni nesil amiral gemisi metinden görüntüye üretken yapay zeka modelinin erken önizlemesini bugün yayınladı.
Stability AI, geçtiğimiz yıl boyunca her biri artan gelişmişlik ve kalite seviyeleri gösteren birden fazla görüntü modelini sürekli olarak yineledi ve yayınladı. Temmuz ayındaki SDXL sürümü Stable Diffusion temel modelini önemli ölçüde geliştirdi ve şimdi şirket önemli ölçüde daha ileri gitmek istiyor.
Yeni Stable Diffusion 3.0 modeli, çok özneli istemlerden görüntü oluşturmada gelişmiş görüntü kalitesi ve daha iyi performans sağlamayı amaçlıyor. Ayrıca, önceki Stable Diffusion modellerine göre önemli ölçüde daha iyi bir tipografi sağlayarak oluşturulan görüntülerin içinde daha doğru ve tutarlı yazım olanağı sunacak. Tipografi, geçmişte Stable Diffusion için bir zayıflık alanı olmuştur ve DALL-E 3, Ideogram ve Midjourney gibi rakiplerin de son sürümlerle üzerinde çalıştığı bir alan. Stability AI, Stable Diffusion 3.0’ı 800M ile 8B parametreleri arasında değişen çoklu model boyutlarında geliştiriyor.
Stable Diffusion 3.0, Stability AI’nın daha önce piyasaya sürdüğü bir modelin sadece yeni bir versiyonu değil, aslında yeni bir mimariye dayanıyor.
Stability AI CEO’su Emad Mostaque, “Stable Diffusion 3 bir difüzyon transformatörü, son OpenAI Sora modelinde kullanılana benzer yeni bir mimari türü. Orijinal Stable Diffusion’ın gerçek halefi” dedi.
Difüzyon transformatörleri ve akış eşleştirme görüntü üretiminde yeni bir çağ başlatacak
Stability AI, görüntü oluşturmak için çeşitli yaklaşımlar deniyor.
Bu ayın başlarında şirket, performansı ve doğruluğu artırmak için Würstchen mimarisini kullanan Stable Cascade‘in bir önizlemesini yayınladı. Stable Diffusion 3.0 ise difüzyon transformatörlerini kullanarak farklı bir yaklaşım benimsiyor.
Mostaque, “Stable Diffusion daha önce bir transformatöre sahip değildi” dedi.
Transformatörler, yapay zeka devriminin büyük bir kısmının temelini oluşturuyor ve metin oluşturma modellerinin temeli olarak yaygın bir şekilde kullanılıyor. Görüntü üretimi büyük ölçüde difüzyon modellerinin alanına giriyor. Difüzyon Transformatörlerini (DiTs) detaylandıran araştırma makalesi, yaygın olarak kullanılan U-Net omurgasını gizli görüntü yamaları üzerinde çalışan bir transformatör ile değiştiren difüzyon modelleri için yeni bir mimari olduğunu açıklıyor. DiTs yaklaşımı, hesaplamayı daha verimli kullanabiliyor ve diğer difüzyon görüntüsü oluşturma biçimlerinden daha iyi performans gösterebiliyor.
Stable Diffusion’ın yararlandığı diğer büyük yenilik ise akış eşleştirme. Akış eşleştirme ile ilgili araştırma makalesi, bunun karmaşık veri dağılımlarını modellemek için Sürekli Normalleştirme Akışlarını (CNF’ler) eğitmek için yeni bir yöntem olduğunu açıklıyor. Araştırmacılara göre, optimum taşıma yolları ile Koşullu Akış Eşleştirme (CFM) kullanmak, difüzyon yollarına kıyasla daha hızlı eğitim, daha verimli örnekleme ve daha iyi performans sağlıyor.
Stable Diffusion 3.0’daki geliştirilmiş tipografi, Stability AI’nin yeni modele yerleştirdiği çeşitli iyileştirmelerin sonucu.
Mostaque, “Bu hem dönüştürücü mimarisi hem de ek metin kodlayıcıları sayesinde oldu. Tam cümleler ve tutarlı bir stil artık mümkün” dedi.
Stable Diffusion 3.0 başlangıçta bir metinden görüntüye gen yapay zeka teknolojisi olarak gösteriliyor olsa da, çok daha fazlası için temel oluşturacak. Stability AI ayrıca son aylarda 3D görüntü oluşturma ve video oluşturma yeteneklerini de geliştiriyor.
Mostaque, “Her yerde kullanılabilecek ve her ihtiyaca uyarlanabilecek açık modeller yapıyoruz. Bu, farklı boyutlarda bir dizi model ve video, 3D ve daha fazlası dahil olmak üzere yeni nesil görsel modellerimizin geliştirilmesini destekleyecek” dedi.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.