32.9 C
İstanbul

Alibaba’nın yeni yapay zeka modeli ‘EMO’ fotoğraflardan gerçekçi konuşma ve şarkı söyleme videoları oluşturuyor

Alibaba'nın Akıllı Bilişim Enstitüsü'ndeki araştırmacılar, tek bir portre fotoğrafını canlandırabilen ve konuşan ya da şarkı söyleyen kişinin videolarını son derece gerçekçi bir şekilde oluşturabilen "EMO" adlı yeni bir yapay zeka sistemi geliştirdiler.

Mutlaka Okumalısın

Alibaba’nın Akıllı Bilişim Enstitüsü’ndeki araştırmacılar, tek bir portre fotoğrafını canlandırabilen ve konuşan ya da şarkı söyleyen kişinin videolarını son derece gerçekçi bir şekilde oluşturabilen “EMO” adlı yeni bir yapay zeka sistemi geliştirdiler.

arXiv’de yayınlanan bir araştırma makalesinde açıklanan sistem, sağlanan bir ses parçasının nüanslarıyla yakından eşleşen akıcı ve etkileyici yüz hareketleri ve baş pozları oluşturabiliyor. Bu, yapay zeka araştırmacılarını yıllardır zorlayan bir alan olan ses odaklı konuşan kafa video üretiminde büyük bir ilerlemeyi temsil ediyor.

Makalenin baş yazarı Linrui Tian, “Geleneksel teknikler genellikle insan ifadelerinin tüm spektrumunu ve bireysel yüz stillerinin benzersizliğini yakalamakta başarısız oluyor” dedi. “Bu sorunları ele almak için, ara 3B modellere veya yüz işaretlerine olan ihtiyacı atlayarak doğrudan sesten videoya sentez yaklaşımını kullanan yeni bir çerçeve olan EMO’yu öneriyoruz.”

Sesi doğrudan videoya dönüştürür

EMO sistemi, difüzyon modeli olarak bilinen ve gerçekçi sentetik görüntüler üretmek için muazzam bir yetenek sergileyen bir yapay zeka tekniği kullanmaktadır. Araştırmacılar modeli konuşmalar, filmler, TV şovları ve şarkı performanslarından derlenen 250 saatin üzerinde konuşan kafa videosundan oluşan bir veri kümesi üzerinde eğittiler.

Yüz hareketlerini tahmin etmek için 3D yüz modellerine veya karışım şekillerine dayanan önceki yöntemlerin aksine EMO, ses dalga biçimini doğrudan video karelerine dönüştürür. Bu, doğal konuşmayla ilişkili ince hareketleri ve kimliğe özgü tuhaflıkları yakalamasını sağlar.

Makalede açıklanan deneylere göre EMO, video kalitesini, kimlik korumasını ve ifade gücünü ölçen metriklerde mevcut son teknoloji yöntemlerden önemli ölçüde daha iyi performans gösteriyor. Araştırmacılar ayrıca EMO tarafından üretilen videoların diğer sistemler tarafından üretilenlerden daha doğal ve duygusal olduğunu tespit eden bir kullanıcı çalışması yürüttüler.

İLGİLİ YAZI :   Nvidia NIM, yapay zeka uygulamalarını işletmelere daha hızlı ulaştırmayı hedefliyor

Gerçekçi şarkı videoları oluşturur

EMO, konuşma videolarının ötesinde, vokallerle senkronize edilmiş uygun ağız şekilleri ve çağrıştırıcı yüz ifadeleri ile şarkı söyleyen portreleri de canlandırabilir. Sistem, giriş sesinin uzunluğuna bağlı olarak keyfi bir süre için video üretmeyi destekliyor.

Makalede, “Deneysel sonuçlar EMO’nun sadece ikna edici konuşma videoları değil, aynı zamanda çeşitli tarzlarda şarkı videoları da üretebildiğini ve ifade gücü ve gerçekçilik açısından mevcut son teknoloji metodolojilerden önemli ölçüde daha iyi performans gösterdiğini ortaya koyuyor” deniyor.

EMO araştırması, kişiselleştirilmiş video içeriğinin sadece bir fotoğraf ve bir ses klibinden sentezlenebileceği bir geleceğin ipuçlarını veriyor. Ancak, bu teknolojinin insanları rızaları olmadan taklit etmek veya yanlış bilgi yaymak için potansiyel kötüye kullanımı konusunda etik kaygılar devam etmektedir. Araştırmacılar, sentetik videoyu tespit etmek için yöntemler keşfetmeyi planladıklarını söylüyorlar.

Kaynak: Michael Nuñez / VentureBeat


Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.

- Sponsorlu -spot_img

Daha Fazla

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

- Sponsorlu -spot_img

Son Haberler