Deepmind, videoya gerçekçi ses ekleyen V2A'yı tanıttı

Deepmind’ın Videodan Sese (V2A – Video-to-Audio) teknolojisi, sessiz videolar için diyalog, ses efektleri ve müzik içeren ses parçaları oluşturmak üzere video piksellerini metin komutlarıyla birleştiriyor.

Google Deepmind, video için ses üreten (Video-to-Audio, V2A) üretken bir yapay zeka modelini tanıttı. V2A teknolojisi, sessiz videolar için ayrıntılı ses parçaları oluşturmak üzere video piksellerini doğal dil talimatlarıyla birleştiriyor.

V2A, Deepmind’ın Veo’su veya Sora, KLING veya Gen 3 gibi rakiplerin video oluşturma modelleriyle birlikte kullanılarak dramatik müzik, gerçekçi ses efektleri veya videonun karakterlerine ve ruh haline uygun diyaloglar eklenebilir. Elbette bu teknoloji arşiv görüntüleri ve sessiz filmler gibi geleneksel görüntülere ses eklemek için de kullanılabilir. Elbette gücü, her video girişi için sınırsız sayıda film müziği oluşturabilmesinde yatıyor.

Çıktıyı istenen seslere doğru yönlendiren isteğe bağlı pozitif istemler ile ek kontrol sağlanırken, negatif istemler istenmeyen sesleri önlüyor. Bu, görüntü oluşturmada da yaygın.

Ses istemi: Arabalar savruluyor, araba motoru gazı kesiliyor, meleksi elektronik müzik

V2A modeli şu an için mevcut değil

Deepmind’ın modeli difüzyon tabanlıdır ve ekip, video ve sesi senkronize etmek için en gerçekçi ve ikna edici sonuçları sağladığını söylüyor.

V2A sistemi önce video girdisini sıkıştırılmış bir temsile kodluyor. Ardından difüzyon modeli, görsel girdi ve metin istemleri tarafından yönlendirilen sesi rastgele gürültüden kademeli olarak arındırıyor. Son olarak, ses çıktısının kodu çözülür, bir ses dalga formuna dönüştürülür ve video verileriyle birleştirilir.

Deepmind, ses kalitesini artırmak için eğitim sürecine seslerin yapay zeka tarafından oluşturulan açıklamaları ve konuşulan diyaloğun transkripsiyonları gibi ek bilgiler ekledi. Bu şekilde, V2A belirli ses olaylarını farklı görsel sahnelerle ilişkilendirmeyi ve açıklamalarda veya transkriptlerde yer alan bilgilere yanıt vermeyi öğrenir.

İLGİLİ YAZI : Google ve MIT araştırmacıları Synclr'ı tanıttı

Bununla birlikte, bazı sınırlamalar vardır: Örneğin, ses çıkışının kalitesi video girişinin kalitesine bağlıdır. Videodaki, modelin eğitim dağılımının dışında kalan artefaktlar veya bozulmalar ses kalitesinde önemli düşüşlere neden olabilir. Konuşma içeren videolarda dudak senkronizasyonu da hala düzensizdir.

V2A henüz kullanıma sunulmadı; Deepmind, V2A’nın “yaratıcı topluluk üzerinde olumlu bir etki yaratabilmesini” sağlamak için önde gelen reklamcılardan ve film yapımcılarından geri bildirim topluyor. Şirkete göre, daha geniş erişim düşünülmeden önce, V2A titiz güvenlik değerlendirmeleri ve testlerinden geçecek.

Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.

Google’ın Deepmind’ı, herhangi bir videoya gerçekçi ses ekleyen bir yapay zeka olan V2A’yı tanıttı

Mutlaka Okumalısın

Perplexity, yapay zeka yanıt platformuna tek tıkla alışveriş özelliğini ekliyor

Microsoft, shawarma sipariş edebilen ve insanlardan yardım isteyebilen yapay zeka ajanlarını test ediyor

OpenAI’ın bir başka baş güvenlik araştırmacısı Lilian Weng de ayrıldı

Google, Workspace paketine Vids AI video oluşturma aracını ekledi

V2A modeli şu an için mevcut değil

Daha Fazla

CEVAP VER İptal

Son Haberler

Perplexity, yapay zeka yanıt platformuna tek tıkla alışveriş özelliğini ekliyor

Microsoft, shawarma sipariş edebilen ve insanlardan yardım isteyebilen yapay zeka ajanlarını test ediyor

OpenAI’ın bir başka baş güvenlik araştırmacısı Lilian Weng de ayrıldı

Google, Workspace paketine Vids AI video oluşturma aracını ekledi

KLING AI video oluşturucusu kullanıcıların kendi AI video karakterlerini eğitmelerine olanak tanıyor

Popüler

Kurumsal

Son Yorumlar

Son Yazılar

Perplexity, yapay zeka yanıt platformuna tek tıkla alışveriş özelliğini ekliyor

Microsoft, shawarma sipariş edebilen ve insanlardan yardım isteyebilen yapay zeka ajanlarını test ediyor