31.4 C
İstanbul

Google, video oluşturabilen yapay zeka VLOGGER’ı tanıttı

Google Research, hareketsiz bir fotoğraf kullanarak küçük videolar oluşturabilen bir yapay zeka sistemi tanıttı.

Mutlaka Okumalısın

Google Research, hareketsiz bir fotoğraf kullanarak küçük videolar oluşturabilen bir yapay zeka sistemi tanıttı. Google’daki araştırmacılar sistem üzerinde çalışmayı sürdürürken, şu anda bu sistem konuşan, hareket eden ve aynı zamanda el kol hareketleri yapan insanları içeren gerçek hayattan bir video oluşturabiliyor.

Bu video tek bir hareketsiz fotoğraf kullanılarak oluşturuluyor. Bu teknolojinin adı VLOGGER ve gelişmiş makine öğrenme modelleri ile tasarlandı. Bu, insanların gerçek yaşam videolarını oluşturma yeteneğine sahip. Bu yeni sistem, bu teknolojiyi kullanabilecek ve video yaratıcılarının üretkenliğini artırabilecek uygulamalar için yeni olanaklar yaratıyor.

“VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis” başlıklı makalede açıklandığı üzere, yapay zeka modeli bir kişinin fotoğrafını ve bir ses klibini girdi olarak alabiliyor ve ardından sesle eşleşen, kişinin tam olarak aynı kelimeleri konuştuğu ve aynı şeyi ifade ettiği izlenimini veren bir çıktı videosu oluşturabiliyor. Oluşturulan videoda bazı sorunlar bulunuyor ve mükemmel değil ancak hareketsiz görüntüleri canlandırabildiği için teknolojinin önemli bir gelişme kaydetmesini sağladı.

Bu Teknoloji Nasıl Çalışıyor?

Bu sistem Google Research’ün blog sayfasında önerildi ve yayınlandı. Bu makalede, bu yapay zekanın temel amacı, ses klibinin zaman sınırına göre farklı uzunluklarda fotogerçekçi bir insan videosu oluşturmak. Bu sistem, konuşmadan videoya bire-çok eşlemeyi modelleme yeteneğine sahip stokastik difüzyon modellerine dayanan aşamalı bir hatta dayanıyor. İlk aşama, sesi bir girdi olarak alıyor ve sistem tarafından bakışlara, yüz ifadelerine ve pozlara yol açan hareket kontrolü ve jestler oluşturmak için veritabanı üzerinden çalıştırılıyor. Bu veriler hedef video uzunluğuna göre derleniyor.

İkinci ağda veriler, sistemin kareler için ilgili vücut kontrollerini oluşturmasına yardımcı olan geçici bir görüntüden görüntüye çeviri modeli. Kimlik için sistem kişinin referans görüntüsünü alıyor.

İLGİLİ YAZI :   Elon Musk'ın beyin implantı girişimi Neuralink sessizce 43 milyon dolar daha topladı

Bunun için kullanıcının, sistemin jestleri tahmin etmesine yardımcı olacak bir jest yakalayan bir resim ve yüz ifadelerini tahmin etmek için bir ses klibi yüklemesi gerekiyor. Bu verilerle, sistem yüz ifadelerini ve jestleri tahmin edebilir ve gerçek görünen bir video klip oluşturabiliyor.

Bu sistem ayrıca ifadeyi, hareketi ve jestleri değiştirerek mevcut bir videoyu düzenleyebilir. Bu, pikseller değişmeden kaldığı için videonun gerçekçi görünmesine yardımcı olan görüntünün değişmesi gereken kısımlarını boyayarak yapılıyor. Ayrıca farklı dillerde video oluşturma yeteneğine de sahip. Ayrıca orijinal sesi farklı dillere dönüştürebilir ve videoda o dilin tonuna ve lehçesine göre gerekli değişiklikleri yapabilir, ayrıca ifadeleri ve jestleri dile göre ayarlıyor. Bu sistemde kullanılan model, son zamanlarda metin açıklamalarını kullanarak son derece gerçekçi görüntüler üretmek için dikkate değer bir gelişme gösteren difüzyon modeli olarak adlandırılıyor. Bu modelin video üretmeye dahil edilmesi, bu sisteme görüntülerden son derece gerçekçi video üretme yeteneği veren yeni bir veri kümesi açtı.

Daha önce mevcut olan 800.000’den fazla farklı kimlik ve 2200 saatlik video verisine sahip MENTOR adlı veri seti, VLOGGER’ın çeşitli etnik kökenlere, yaşlara, kıyafetlere, pozlara ve çevreye sahip kişilerin videolarını oluşturmayı öğrenmesine yardımcı oluyor.

VLOGGER’ı öneren araştırma makalesinin yazarları, “Önceki çalışmaların aksine, yöntemimiz yüz algılama ve kırpmaya dayanmıyor, tüm görüntüyü üretiyor (sadece yüz veya dudaklar değil) ve iletişim kuran insanları doğru bir şekilde sentezlemek için kritik olan geniş bir senaryo yelpazesini (örneğin görünür gövde veya çeşitli özne kimlikleri0) dikkate alıyor” dedi.

Bununla birlikte, Enric Corona yönetimindeki Google Research’ün önerisi. Bu teknolojiyi kullanan deepfake videoların ve ayrıca sahte haberlerin artmasından endişe ediliyor. Bu, yanlış eller tarafından kullanılması halinde deepfake videolar sorununu da tırmandıracak. Ayrıca Google, VLOGGER’ı doğal konuşma, jestler ve göz teması kullanarak insanlarla etkileşime girme yeteneğine sahip “somutlaştırılmış konuşma aracılarına” doğru bir adım olarak görünüyor. Makalede belirtildiği gibi “VLOGGER sunumlar, eğitim, anlatım, düşük bant genişlikli çevrimiçi iletişim için bağımsız bir çözüm olarak ve yalnızca metin insan-bilgisayar etkileşimi için bir arayüz olarak kullanılabilir.” VLOGGER’ın yetenekleri ve özellikleri deepfake video riskini artırabilir. Bir video oluşturmak için harcanan süreyi azaltacağı ve daha fazla içeriği kapsayacağı için iyi içerik oluşturmak isteyen içerik oluşturucuların üretkenliğini artırabilir. Ancak, yanlış ellere geçerse, yanlış bilgi yaymak için kullanılabileceğinden internette bir kargaşa yaratabilir.

İLGİLİ YAZI :   Yapay zeka destekli insansı robotlar ve 'nefes alan' yastıklar

Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.

- Sponsorlu -spot_img

Daha Fazla

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

- Sponsorlu -spot_img

Son Haberler