VALL-E 2 YZ ses teknolojisi o kadar iyi ki...

Bu yazıda neler var?

Microsoft’taki bir araştırma ekibi, konuşma sentezi için önemli ölçüde geliştirilmiş bir yapay zeka sistemi olan VALL-E 2’yi tanıttı. Ancak, dünyanın bu sistemin piyasaya sürülmesine hazır olmadığına inanıyorlar.

Ekibe göre bu sistem, sadece kısa bir konuşma örneğine sahip bilinmeyen konuşmacılar için bile metinden konuşma üretmede insan düzeyinde performans elde eden ilk sistem. Karmaşık cümleleri ya da çok sayıda tekrarı olan cümleleri güvenilir bir şekilde oluşturabiliyor.

ElevenLabs gibi piyasada bulunan yazılımlar sesleri klonlayabiliyor, ancak daha uzun referans materyali gerektiriyor. VALL-E 2 bunu sadece birkaç saniyede yapabilir.

VALL-E 2, 2023’ün başlarındaki selefi VALL-E’yi temel alıyor ve konuşma üretmek için nöral kodek dil modellerini kullanıyor. Bu modeller, konuşmayı dijital ses sıkıştırmaya benzer şekilde bir dizi kod olarak temsil etmeyi öğreniyor. İki önemli gelişme bu atılımı mümkün kılıyor.

VALL-E 2 iki temel yenilik sunuyor

İlk olarak, VALL-E 2, öğrenilen kodların duyulabilir konuşmaya dönüştürüldüğü kod çözme işlemi için yeni bir “Tekrara Duyarlı Örnekleme” yöntemi kullanır. Kodların seçimi, önceki çıktı dizisindeki tekrarlarına dinamik olarak uyarlanır.

İlk nesil VALL-E’nin işleme hattı işte böyle görünüyordu… | Resim: Microsoft

VALL-E gibi olası kodlar arasından rastgele seçim yapmak yerine, VALL-E 2 iki örnekleme yöntemi arasında akıllıca geçiş yapar: “Nucleus Sampling” sadece en olası kodları dikkate alırken, rastgele örnekleme tüm olasılıkları eşit olarak ele alır. Bu uyarlanabilir anahtarlama, kod çözme sürecinin kararlılığını önemli ölçüde artırır ve sonsuz döngüler gibi sorunları önler.

İkinci temel yenilik, kodek kodlarının tek tek yerine gruplar halinde modellenmesidir. VALL-E 2, birden fazla ardışık kodu birleştirir ve bunları bir tür “çerçeve” olarak birlikte işler. Bu kod gruplaması, dil modeli için girdi dizisini kısaltarak işlemeyi hızlandırıyor. Aynı zamanda bu yaklaşım, çok uzun bağlamların işlenmesini basitleştirerek üretilen konuşmanın kalitesini de artırır.

İLGİLİ YAZI : Anthropic nihayet bazı ChatGPT özelliklerini Claude'a getiriyor

Ses referansı olarak üç saniyelik bir örnek.

Prompt: Warrenton’ın görevini yerine getirdiğini gösterecek bir şey bulmak için önlerinde ve etraflarında el yordamıyla ilerlediler.

LibriSpeech ve VCTK veri kümeleri üzerinde yapılan deneylerde VALL-E 2, üretilen konuşmanın sağlamlığı, doğallığı ve benzerliği açısından insan performansından önemli ölçüde daha iyi performans gösterdi. Hedef konuşmacıların sadece 3 saniyelik kayıtları yeterliydi. Sistem, 10 saniyelik daha uzun konuşma örnekleriyle duyulabilir şekilde daha iyi sonuçlar elde etti. Microsoft tüm örnekleri bu web sitesinde yayınladı.

Ses referansı olarak üç saniyelik bir örnek.

Sentezlenmiş ses 3 saniyelik bir örnekle.

Sentezlenmiş ses 10 saniyelik bir örnekle.

Araştırmacılar, VALL-E 2’yi eğitmek için yalnızca konuşma kayıtları ve bunların zaman kodları olmadan transkripsiyon çiftlerinin gerekli olduğunu vurguluyor.

Yüksek kötüye kullanım riski nedeniyle serbest bırakılmadı

Araştırmacılara göre VALL-E 2 eğitim, eğlence, erişilebilirlik ya da çeviri gibi pek çok alanda kullanılabilir. Bununla birlikte, konuşmacının rızası olmadan seslerin taklit edilmesi gibi bariz kötüye kullanım risklerine de dikkat çekiyorlar. Bu nedenle, şu anda saf bir araştırma projesi olarak kalmaktadır ve Microsoft’un VALL-E 2’yi bir ürüne entegre etme veya halka erişimi genişletme planı yoktur.

Onlara göre, öncelikle dinlenen kişinin senteze rıza gösterdiğinden emin olmak için bir protokolün yanı sıra bu tür içeriğin dijital olarak işaretlenmesi için bir yöntem geliştirilmelidir. Bu öneri, muhtemelen C2PA gibi filigranların kullanılmaya başlandığı yapay zeka görüntü modeli endüstrisindeki gelişmelerden esinlenmiştir. Bununla birlikte, YZ tarafından üretilen içeriğin güvenilir bir şekilde tanınmasına ilişkin mevcut sorunu çözmemektedir.

Kaynak: The-Decoder

Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.

VALL-E 2: Microsoft’un yeni yapay zeka ses teknolojisi o kadar iyi ki piyasaya sürmeye korkuyorlar

Mutlaka Okumalısın

Z kuşağına yönelik yaratıcı, yapay zeka destekli mesajlaşma uygulaması: Daze

ChatGPT Windows’a geliyor

Janus, yenilikçi mimari aracılığıyla çok modlu anlayışı ve görsel üretimi bir araya getiriyor

Google, NotebookLM dakikasını bir ChatGPT anına dönüştürmek istiyor

VALL-E 2 iki temel yenilik sunuyor

Yüksek kötüye kullanım riski nedeniyle serbest bırakılmadı

Daha Fazla

CEVAP VER İptal

Son Haberler

Z kuşağına yönelik yaratıcı, yapay zeka destekli mesajlaşma uygulaması: Daze

ChatGPT Windows’a geliyor

Janus, yenilikçi mimari aracılığıyla çok modlu anlayışı ve görsel üretimi bir araya getiriyor

Google, NotebookLM dakikasını bir ChatGPT anına dönüştürmek istiyor

Perplexity, şirketler için ‘Dahili Bilgi Arama’yı tanıttı

Popüler

Kurumsal

Son Yorumlar

Son Yazılar

Z kuşağına yönelik yaratıcı, yapay zeka destekli mesajlaşma uygulaması: Daze

ChatGPT Windows’a geliyor