EMO fotoğraflardan konuşma ve şarkı videoları oluşturuyor

Bu yazıda neler var?

Alibaba’nın Akıllı Bilişim Enstitüsü’ndeki araştırmacılar, tek bir portre fotoğrafını canlandırabilen ve konuşan ya da şarkı söyleyen kişinin videolarını son derece gerçekçi bir şekilde oluşturabilen “EMO” adlı yeni bir yapay zeka sistemi geliştirdiler.

arXiv’de yayınlanan bir araştırma makalesinde açıklanan sistem, sağlanan bir ses parçasının nüanslarıyla yakından eşleşen akıcı ve etkileyici yüz hareketleri ve baş pozları oluşturabiliyor. Bu, yapay zeka araştırmacılarını yıllardır zorlayan bir alan olan ses odaklı konuşan kafa video üretiminde büyük bir ilerlemeyi temsil ediyor.

Makalenin baş yazarı Linrui Tian, “Geleneksel teknikler genellikle insan ifadelerinin tüm spektrumunu ve bireysel yüz stillerinin benzersizliğini yakalamakta başarısız oluyor” dedi. “Bu sorunları ele almak için, ara 3B modellere veya yüz işaretlerine olan ihtiyacı atlayarak doğrudan sesten videoya sentez yaklaşımını kullanan yeni bir çerçeve olan EMO’yu öneriyoruz.”

Sesi doğrudan videoya dönüştürür

EMO sistemi, difüzyon modeli olarak bilinen ve gerçekçi sentetik görüntüler üretmek için muazzam bir yetenek sergileyen bir yapay zeka tekniği kullanmaktadır. Araştırmacılar modeli konuşmalar, filmler, TV şovları ve şarkı performanslarından derlenen 250 saatin üzerinde konuşan kafa videosundan oluşan bir veri kümesi üzerinde eğittiler.

Yüz hareketlerini tahmin etmek için 3D yüz modellerine veya karışım şekillerine dayanan önceki yöntemlerin aksine EMO, ses dalga biçimini doğrudan video karelerine dönüştürür. Bu, doğal konuşmayla ilişkili ince hareketleri ve kimliğe özgü tuhaflıkları yakalamasını sağlar.

Just in 👀

this is the most amazing audio2video I have ever seen.
It is called EMO: Emote Portrait Alive pic.twitter.com/3b1AQMzPYu

— Stelfie the Time Traveller (@StelfieTT) February 28, 2024

Makalede açıklanan deneylere göre EMO, video kalitesini, kimlik korumasını ve ifade gücünü ölçen metriklerde mevcut son teknoloji yöntemlerden önemli ölçüde daha iyi performans gösteriyor. Araştırmacılar ayrıca EMO tarafından üretilen videoların diğer sistemler tarafından üretilenlerden daha doğal ve duygusal olduğunu tespit eden bir kullanıcı çalışması yürüttüler.

İLGİLİ YAZI : DeepMind ve YouTube, Lyria ve Dream Track'i piyasaya sürdü

Gerçekçi şarkı videoları oluşturur

EMO, konuşma videolarının ötesinde, vokallerle senkronize edilmiş uygun ağız şekilleri ve çağrıştırıcı yüz ifadeleri ile şarkı söyleyen portreleri de canlandırabilir. Sistem, giriş sesinin uzunluğuna bağlı olarak keyfi bir süre için video üretmeyi destekliyor.

Makalede, “Deneysel sonuçlar EMO’nun sadece ikna edici konuşma videoları değil, aynı zamanda çeşitli tarzlarda şarkı videoları da üretebildiğini ve ifade gücü ve gerçekçilik açısından mevcut son teknoloji metodolojilerden önemli ölçüde daha iyi performans gösterdiğini ortaya koyuyor” deniyor.

EMO araştırması, kişiselleştirilmiş video içeriğinin sadece bir fotoğraf ve bir ses klibinden sentezlenebileceği bir geleceğin ipuçlarını veriyor. Ancak, bu teknolojinin insanları rızaları olmadan taklit etmek veya yanlış bilgi yaymak için potansiyel kötüye kullanımı konusunda etik kaygılar devam etmektedir. Araştırmacılar, sentetik videoyu tespit etmek için yöntemler keşfetmeyi planladıklarını söylüyorlar.

Kaynak: Michael Nuñez / VentureBeat

Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.

Alibaba’nın yeni yapay zeka modeli ‘EMO’ fotoğraflardan gerçekçi konuşma ve şarkı söyleme videoları oluşturuyor

Mutlaka Okumalısın

Z kuşağına yönelik yaratıcı, yapay zeka destekli mesajlaşma uygulaması: Daze

ChatGPT Windows’a geliyor

Janus, yenilikçi mimari aracılığıyla çok modlu anlayışı ve görsel üretimi bir araya getiriyor

Google, NotebookLM dakikasını bir ChatGPT anına dönüştürmek istiyor

Sesi doğrudan videoya dönüştürür

Gerçekçi şarkı videoları oluşturur

Daha Fazla

CEVAP VER İptal

Son Haberler

Z kuşağına yönelik yaratıcı, yapay zeka destekli mesajlaşma uygulaması: Daze

ChatGPT Windows’a geliyor

Janus, yenilikçi mimari aracılığıyla çok modlu anlayışı ve görsel üretimi bir araya getiriyor

Google, NotebookLM dakikasını bir ChatGPT anına dönüştürmek istiyor

Perplexity, şirketler için ‘Dahili Bilgi Arama’yı tanıttı

Popüler

Kurumsal

Son Yorumlar

Son Yazılar

Z kuşağına yönelik yaratıcı, yapay zeka destekli mesajlaşma uygulaması: Daze

ChatGPT Windows’a geliyor