Microsoft'un VASA-1'i gerçek zamanlı gerçekçi avatarlar üretiyor

Microsoft araştırmacıları, fotoğraflardan ve ses kliplerinden sanal yapay zeka avatarları için gerçeğe yakın konuşan yüzler üreten VASA-1 adlı bir süreç geliştirdi. Oluşturulan videolar doğal ağız hareketlerini, yüz ifadelerini ve baş hareketlerini gerçek zamanlı olarak gösteriyor.

Microsoft araştırmacıları, gerçekçi dudak senkronizasyonu, canlı yüz ifadeleri ve doğal baş hareketleriyle ses odaklı konuşan yüzler oluşturmanın yeni bir yolunu geliştirdi. VASA-1 adı verilen sistem, girdi olarak yalnızca tek bir fotoğraf ve bir ses dosyası gerektiriyor.

Model, büyük miktarda yüz video verisi üzerinde eğitiliyor. Eğitimden sonra, bir kodlayıcı giriş görüntüsünü işler ve kimlik, 3D görünüm ve yüz dinamikleri gibi çeşitli yönleri yakalar. Daha sonra bir difüzyon modeli yüz ve baş hareketlerini üretir. Kod çözücü bu hareketleri konuşan yüzü temsil eden nihai video karelerine dönüştürür.

İki veri setiyle yapılan deneylerde VASA-1, dudak ve kafa hareketlerinin ses senkronizasyonu ve video kalitesi açısından önceki yöntemlerden önemli ölçüde daha iyi performans gösteriyor. Yöntem, Nvidia RTX 4090 GPU’da yalnızca 170 ms gecikme süresiyle gerçek zamanlı olarak 40 fps’ye kadar 512×512 piksel videolar sunuyor.

Kontrol sinyalleri görüntüleme yönünü, baş mesafesini ve duyguyu kontrol etmek için kullanılabilir.

Microsoft VASA-1’i gizli tutuyor

Microsoft araştırmacıları VASA-1’i, insanlarla gerçek insanlar kadar doğal ve sezgisel bir şekilde etkileşime girebilen gerçekçi dijital yapay zeka avatarları yaratma yolunda önemli bir adım olarak görüyor. Potansiyel uygulamalar, dijital iletişim ve erişilebilirliğin zenginleştirilmesinden etkileşimli yapay zeka eğitimine ve terapötik desteğe kadar uzanıyor.

Olumlu uygulama potansiyeline rağmen araştırmacılar, gerçek insanlarla yanıltıcı içerik oluşturmak gibi teknolojinin olası kötüye kullanımları konusunda da uyarıyor. Sonuç olarak Microsoft, VASA-1’i piyasaya sürmeyecek ancak yöntemi vücudun üst kısmını, daha etkileyici bir 3D yüz modelini, saç ve kıyafet gibi sert olmayan unsurları ve daha etkileyici konuşma stilleri ve duyguları içerecek şekilde genişletmeyi planlıyor.

İLGİLİ YAZI : Google, OpenAI GPT-4'e rakip olacak Gemini'nin lansmanını erteledi

Daha fazla örnek VASA-1 proje sayfasında bulunabilir.

Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.

Microsoft’un VASA-1’i gerçek zamanlı olarak gerçekçi avatarlar üretiyor

Mutlaka Okumalısın

Kısıtlamalar nedeniyle ağlar kapandıkça yapay zekalı kazıyıcıların alanı tükeniyor

Cohere, 5,5 milyar dolarlık değerlemeyle 500 milyon dolar topladı

Çinli şirketler ölen sevdiklerini yapay zeka avatarlarıyla ‘diriltmeyi’ teklif ediyor

Streetscapes AI, sıfırdan tüm şehirlerin inanılmaz derecede gerçekçi Sokak Görünümü sahnelerini oluşturuyor

Microsoft VASA-1’i gizli tutuyor

Daha Fazla

CEVAP VER İptal

Son Haberler

Kısıtlamalar nedeniyle ağlar kapandıkça yapay zekalı kazıyıcıların alanı tükeniyor

Cohere, 5,5 milyar dolarlık değerlemeyle 500 milyon dolar topladı

Çinli şirketler ölen sevdiklerini yapay zeka avatarlarıyla ‘diriltmeyi’ teklif ediyor

Streetscapes AI, sıfırdan tüm şehirlerin inanılmaz derecede gerçekçi Sokak Görünümü sahnelerini oluşturuyor

‘Yapay zeka arama motorları demokrasiye geri dönülemez şekilde zarar verebilir’

Popüler

Kurumsal

Son Yorumlar

Son Yazılar

Kısıtlamalar nedeniyle ağlar kapandıkça yapay zekalı kazıyıcıların alanı tükeniyor

Cohere, 5,5 milyar dolarlık değerlemeyle 500 milyon dolar topladı