Deepmind’ın Videodan Sese (V2A – Video-to-Audio) teknolojisi, sessiz videolar için diyalog, ses efektleri ve müzik içeren ses parçaları oluşturmak üzere video piksellerini metin komutlarıyla birleştiriyor.
Google Deepmind, video için ses üreten (Video-to-Audio, V2A) üretken bir yapay zeka modelini tanıttı. V2A teknolojisi, sessiz videolar için ayrıntılı ses parçaları oluşturmak üzere video piksellerini doğal dil talimatlarıyla birleştiriyor.
V2A, Deepmind’ın Veo’su veya Sora, KLING veya Gen 3 gibi rakiplerin video oluşturma modelleriyle birlikte kullanılarak dramatik müzik, gerçekçi ses efektleri veya videonun karakterlerine ve ruh haline uygun diyaloglar eklenebilir. Elbette bu teknoloji arşiv görüntüleri ve sessiz filmler gibi geleneksel görüntülere ses eklemek için de kullanılabilir. Elbette gücü, her video girişi için sınırsız sayıda film müziği oluşturabilmesinde yatıyor.
Çıktıyı istenen seslere doğru yönlendiren isteğe bağlı pozitif istemler ile ek kontrol sağlanırken, negatif istemler istenmeyen sesleri önlüyor. Bu, görüntü oluşturmada da yaygın.
Ses istemi: Arabalar savruluyor, araba motoru gazı kesiliyor, meleksi elektronik müzik
V2A modeli şu an için mevcut değil
Deepmind’ın modeli difüzyon tabanlıdır ve ekip, video ve sesi senkronize etmek için en gerçekçi ve ikna edici sonuçları sağladığını söylüyor.
V2A sistemi önce video girdisini sıkıştırılmış bir temsile kodluyor. Ardından difüzyon modeli, görsel girdi ve metin istemleri tarafından yönlendirilen sesi rastgele gürültüden kademeli olarak arındırıyor. Son olarak, ses çıktısının kodu çözülür, bir ses dalga formuna dönüştürülür ve video verileriyle birleştirilir.
Deepmind, ses kalitesini artırmak için eğitim sürecine seslerin yapay zeka tarafından oluşturulan açıklamaları ve konuşulan diyaloğun transkripsiyonları gibi ek bilgiler ekledi. Bu şekilde, V2A belirli ses olaylarını farklı görsel sahnelerle ilişkilendirmeyi ve açıklamalarda veya transkriptlerde yer alan bilgilere yanıt vermeyi öğrenir.
Bununla birlikte, bazı sınırlamalar vardır: Örneğin, ses çıkışının kalitesi video girişinin kalitesine bağlıdır. Videodaki, modelin eğitim dağılımının dışında kalan artefaktlar veya bozulmalar ses kalitesinde önemli düşüşlere neden olabilir. Konuşma içeren videolarda dudak senkronizasyonu da hala düzensizdir.
V2A henüz kullanıma sunulmadı; Deepmind, V2A’nın “yaratıcı topluluk üzerinde olumlu bir etki yaratabilmesini” sağlamak için önde gelen reklamcılardan ve film yapımcılarından geri bildirim topluyor. Şirkete göre, daha geniş erişim düşünülmeden önce, V2A titiz güvenlik değerlendirmeleri ve testlerinden geçecek.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.