Deepmind, videoya gerçekçi ses ekleyen V2A'yı tanıttı

Deepmind’ın Videodan Sese (V2A – Video-to-Audio) teknolojisi, sessiz videolar için diyalog, ses efektleri ve müzik içeren ses parçaları oluşturmak üzere video piksellerini metin komutlarıyla birleştiriyor.

Google Deepmind, video için ses üreten (Video-to-Audio, V2A) üretken bir yapay zeka modelini tanıttı. V2A teknolojisi, sessiz videolar için ayrıntılı ses parçaları oluşturmak üzere video piksellerini doğal dil talimatlarıyla birleştiriyor.

V2A, Deepmind’ın Veo’su veya Sora, KLING veya Gen 3 gibi rakiplerin video oluşturma modelleriyle birlikte kullanılarak dramatik müzik, gerçekçi ses efektleri veya videonun karakterlerine ve ruh haline uygun diyaloglar eklenebilir. Elbette bu teknoloji arşiv görüntüleri ve sessiz filmler gibi geleneksel görüntülere ses eklemek için de kullanılabilir. Elbette gücü, her video girişi için sınırsız sayıda film müziği oluşturabilmesinde yatıyor.

Çıktıyı istenen seslere doğru yönlendiren isteğe bağlı pozitif istemler ile ek kontrol sağlanırken, negatif istemler istenmeyen sesleri önlüyor. Bu, görüntü oluşturmada da yaygın.

Ses istemi: Arabalar savruluyor, araba motoru gazı kesiliyor, meleksi elektronik müzik

V2A modeli şu an için mevcut değil

Deepmind’ın modeli difüzyon tabanlıdır ve ekip, video ve sesi senkronize etmek için en gerçekçi ve ikna edici sonuçları sağladığını söylüyor.

V2A sistemi önce video girdisini sıkıştırılmış bir temsile kodluyor. Ardından difüzyon modeli, görsel girdi ve metin istemleri tarafından yönlendirilen sesi rastgele gürültüden kademeli olarak arındırıyor. Son olarak, ses çıktısının kodu çözülür, bir ses dalga formuna dönüştürülür ve video verileriyle birleştirilir.

Deepmind, ses kalitesini artırmak için eğitim sürecine seslerin yapay zeka tarafından oluşturulan açıklamaları ve konuşulan diyaloğun transkripsiyonları gibi ek bilgiler ekledi. Bu şekilde, V2A belirli ses olaylarını farklı görsel sahnelerle ilişkilendirmeyi ve açıklamalarda veya transkriptlerde yer alan bilgilere yanıt vermeyi öğrenir.

İLGİLİ YAZI : Google ile yapay zekayı kullanarak seyahat güzergahları oluşturabileceksiniz

Bununla birlikte, bazı sınırlamalar vardır: Örneğin, ses çıkışının kalitesi video girişinin kalitesine bağlıdır. Videodaki, modelin eğitim dağılımının dışında kalan artefaktlar veya bozulmalar ses kalitesinde önemli düşüşlere neden olabilir. Konuşma içeren videolarda dudak senkronizasyonu da hala düzensizdir.

V2A henüz kullanıma sunulmadı; Deepmind, V2A’nın “yaratıcı topluluk üzerinde olumlu bir etki yaratabilmesini” sağlamak için önde gelen reklamcılardan ve film yapımcılarından geri bildirim topluyor. Şirkete göre, daha geniş erişim düşünülmeden önce, V2A titiz güvenlik değerlendirmeleri ve testlerinden geçecek.

Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.

Google’ın Deepmind’ı, herhangi bir videoya gerçekçi ses ekleyen bir yapay zeka olan V2A’yı tanıttı

Mutlaka Okumalısın

Z kuşağına yönelik yaratıcı, yapay zeka destekli mesajlaşma uygulaması: Daze

ChatGPT Windows’a geliyor

Janus, yenilikçi mimari aracılığıyla çok modlu anlayışı ve görsel üretimi bir araya getiriyor

Google, NotebookLM dakikasını bir ChatGPT anına dönüştürmek istiyor

V2A modeli şu an için mevcut değil

Daha Fazla

CEVAP VER İptal

Son Haberler

Z kuşağına yönelik yaratıcı, yapay zeka destekli mesajlaşma uygulaması: Daze

ChatGPT Windows’a geliyor

Janus, yenilikçi mimari aracılığıyla çok modlu anlayışı ve görsel üretimi bir araya getiriyor

Google, NotebookLM dakikasını bir ChatGPT anına dönüştürmek istiyor

Perplexity, şirketler için ‘Dahili Bilgi Arama’yı tanıttı

Popüler

Kurumsal

Son Yorumlar

Son Yazılar

Z kuşağına yönelik yaratıcı, yapay zeka destekli mesajlaşma uygulaması: Daze

ChatGPT Windows’a geliyor