Alibaba’nın Akıllı Bilişim Enstitüsü’ndeki araştırmacılar, tek bir portre fotoğrafını canlandırabilen ve konuşan ya da şarkı söyleyen kişinin videolarını son derece gerçekçi bir şekilde oluşturabilen “EMO” adlı yeni bir yapay zeka sistemi geliştirdiler.
arXiv’de yayınlanan bir araştırma makalesinde açıklanan sistem, sağlanan bir ses parçasının nüanslarıyla yakından eşleşen akıcı ve etkileyici yüz hareketleri ve baş pozları oluşturabiliyor. Bu, yapay zeka araştırmacılarını yıllardır zorlayan bir alan olan ses odaklı konuşan kafa video üretiminde büyük bir ilerlemeyi temsil ediyor.
Makalenin baş yazarı Linrui Tian, “Geleneksel teknikler genellikle insan ifadelerinin tüm spektrumunu ve bireysel yüz stillerinin benzersizliğini yakalamakta başarısız oluyor” dedi. “Bu sorunları ele almak için, ara 3B modellere veya yüz işaretlerine olan ihtiyacı atlayarak doğrudan sesten videoya sentez yaklaşımını kullanan yeni bir çerçeve olan EMO’yu öneriyoruz.”
Sesi doğrudan videoya dönüştürür
EMO sistemi, difüzyon modeli olarak bilinen ve gerçekçi sentetik görüntüler üretmek için muazzam bir yetenek sergileyen bir yapay zeka tekniği kullanmaktadır. Araştırmacılar modeli konuşmalar, filmler, TV şovları ve şarkı performanslarından derlenen 250 saatin üzerinde konuşan kafa videosundan oluşan bir veri kümesi üzerinde eğittiler.
Yüz hareketlerini tahmin etmek için 3D yüz modellerine veya karışım şekillerine dayanan önceki yöntemlerin aksine EMO, ses dalga biçimini doğrudan video karelerine dönüştürür. Bu, doğal konuşmayla ilişkili ince hareketleri ve kimliğe özgü tuhaflıkları yakalamasını sağlar.
Just in 👀
this is the most amazing audio2video I have ever seen.
It is called EMO: Emote Portrait Alive pic.twitter.com/3b1AQMzPYu— Stelfie the Time Traveller (@StelfieTT) February 28, 2024
Makalede açıklanan deneylere göre EMO, video kalitesini, kimlik korumasını ve ifade gücünü ölçen metriklerde mevcut son teknoloji yöntemlerden önemli ölçüde daha iyi performans gösteriyor. Araştırmacılar ayrıca EMO tarafından üretilen videoların diğer sistemler tarafından üretilenlerden daha doğal ve duygusal olduğunu tespit eden bir kullanıcı çalışması yürüttüler.
Gerçekçi şarkı videoları oluşturur
EMO, konuşma videolarının ötesinde, vokallerle senkronize edilmiş uygun ağız şekilleri ve çağrıştırıcı yüz ifadeleri ile şarkı söyleyen portreleri de canlandırabilir. Sistem, giriş sesinin uzunluğuna bağlı olarak keyfi bir süre için video üretmeyi destekliyor.
Makalede, “Deneysel sonuçlar EMO’nun sadece ikna edici konuşma videoları değil, aynı zamanda çeşitli tarzlarda şarkı videoları da üretebildiğini ve ifade gücü ve gerçekçilik açısından mevcut son teknoloji metodolojilerden önemli ölçüde daha iyi performans gösterdiğini ortaya koyuyor” deniyor.
EMO araştırması, kişiselleştirilmiş video içeriğinin sadece bir fotoğraf ve bir ses klibinden sentezlenebileceği bir geleceğin ipuçlarını veriyor. Ancak, bu teknolojinin insanları rızaları olmadan taklit etmek veya yanlış bilgi yaymak için potansiyel kötüye kullanımı konusunda etik kaygılar devam etmektedir. Araştırmacılar, sentetik videoyu tespit etmek için yöntemler keşfetmeyi planladıklarını söylüyorlar.
Kaynak: Michael Nuñez / VentureBeat
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.