Microsoft araştırmacıları, fotoğraflardan ve ses kliplerinden sanal yapay zeka avatarları için gerçeğe yakın konuşan yüzler üreten VASA-1 adlı bir süreç geliştirdi. Oluşturulan videolar doğal ağız hareketlerini, yüz ifadelerini ve baş hareketlerini gerçek zamanlı olarak gösteriyor.
Microsoft araştırmacıları, gerçekçi dudak senkronizasyonu, canlı yüz ifadeleri ve doğal baş hareketleriyle ses odaklı konuşan yüzler oluşturmanın yeni bir yolunu geliştirdi. VASA-1 adı verilen sistem, girdi olarak yalnızca tek bir fotoğraf ve bir ses dosyası gerektiriyor.
Model, büyük miktarda yüz video verisi üzerinde eğitiliyor. Eğitimden sonra, bir kodlayıcı giriş görüntüsünü işler ve kimlik, 3D görünüm ve yüz dinamikleri gibi çeşitli yönleri yakalar. Daha sonra bir difüzyon modeli yüz ve baş hareketlerini üretir. Kod çözücü bu hareketleri konuşan yüzü temsil eden nihai video karelerine dönüştürür.
İki veri setiyle yapılan deneylerde VASA-1, dudak ve kafa hareketlerinin ses senkronizasyonu ve video kalitesi açısından önceki yöntemlerden önemli ölçüde daha iyi performans gösteriyor. Yöntem, Nvidia RTX 4090 GPU’da yalnızca 170 ms gecikme süresiyle gerçek zamanlı olarak 40 fps’ye kadar 512×512 piksel videolar sunuyor.
Kontrol sinyalleri görüntüleme yönünü, baş mesafesini ve duyguyu kontrol etmek için kullanılabilir.
Microsoft VASA-1’i gizli tutuyor
Microsoft araştırmacıları VASA-1’i, insanlarla gerçek insanlar kadar doğal ve sezgisel bir şekilde etkileşime girebilen gerçekçi dijital yapay zeka avatarları yaratma yolunda önemli bir adım olarak görüyor. Potansiyel uygulamalar, dijital iletişim ve erişilebilirliğin zenginleştirilmesinden etkileşimli yapay zeka eğitimine ve terapötik desteğe kadar uzanıyor.
Olumlu uygulama potansiyeline rağmen araştırmacılar, gerçek insanlarla yanıltıcı içerik oluşturmak gibi teknolojinin olası kötüye kullanımları konusunda da uyarıyor. Sonuç olarak Microsoft, VASA-1’i piyasaya sürmeyecek ancak yöntemi vücudun üst kısmını, daha etkileyici bir 3D yüz modelini, saç ve kıyafet gibi sert olmayan unsurları ve daha etkileyici konuşma stilleri ve duyguları içerecek şekilde genişletmeyi planlıyor.
Daha fazla örnek VASA-1 proje sayfasında bulunabilir.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.