32.9 C
İstanbul

VALL-E 2: Microsoft’un yeni yapay zeka ses teknolojisi o kadar iyi ki piyasaya sürmeye korkuyorlar

VALL-E 2 ile Microsoft araştırmacıları, herhangi bir kişinin sesini taklit edebilen ve üç saniye kadar kısa ses örneklerinden karmaşık cümleler üretebilen bir metinden konuşmaya sistemi geliştirdiler.

Mutlaka Okumalısın

Microsoft’taki bir araştırma ekibi, konuşma sentezi için önemli ölçüde geliştirilmiş bir yapay zeka sistemi olan VALL-E 2’yi tanıttı. Ancak, dünyanın bu sistemin piyasaya sürülmesine hazır olmadığına inanıyorlar.

Ekibe göre bu sistem, sadece kısa bir konuşma örneğine sahip bilinmeyen konuşmacılar için bile metinden konuşma üretmede insan düzeyinde performans elde eden ilk sistem. Karmaşık cümleleri ya da çok sayıda tekrarı olan cümleleri güvenilir bir şekilde oluşturabiliyor.

ElevenLabs gibi piyasada bulunan yazılımlar sesleri klonlayabiliyor, ancak daha uzun referans materyali gerektiriyor. VALL-E 2 bunu sadece birkaç saniyede yapabilir.

VALL-E 2, 2023’ün başlarındaki selefi VALL-E’yi temel alıyor ve konuşma üretmek için nöral kodek dil modellerini kullanıyor. Bu modeller, konuşmayı dijital ses sıkıştırmaya benzer şekilde bir dizi kod olarak temsil etmeyi öğreniyor. İki önemli gelişme bu atılımı mümkün kılıyor.

VALL-E 2 iki temel yenilik sunuyor

İlk olarak, VALL-E 2, öğrenilen kodların duyulabilir konuşmaya dönüştürüldüğü kod çözme işlemi için yeni bir “Tekrara Duyarlı Örnekleme” yöntemi kullanır. Kodların seçimi, önceki çıktı dizisindeki tekrarlarına dinamik olarak uyarlanır.

İlk nesil VALL-E’nin işleme hattı işte böyle görünüyordu… | Resim: Microsoft
… ve ikinci nesil. Resim: Microsoft

VALL-E gibi olası kodlar arasından rastgele seçim yapmak yerine, VALL-E 2 iki örnekleme yöntemi arasında akıllıca geçiş yapar: “Nucleus Sampling” sadece en olası kodları dikkate alırken, rastgele örnekleme tüm olasılıkları eşit olarak ele alır. Bu uyarlanabilir anahtarlama, kod çözme sürecinin kararlılığını önemli ölçüde artırır ve sonsuz döngüler gibi sorunları önler.

İkinci temel yenilik, kodek kodlarının tek tek yerine gruplar halinde modellenmesidir. VALL-E 2, birden fazla ardışık kodu birleştirir ve bunları bir tür “çerçeve” olarak birlikte işler. Bu kod gruplaması, dil modeli için girdi dizisini kısaltarak işlemeyi hızlandırıyor. Aynı zamanda bu yaklaşım, çok uzun bağlamların işlenmesini basitleştirerek üretilen konuşmanın kalitesini de artırır.

İLGİLİ YAZI :   Yapay zeka temelli çeviri hizmeti DeepL Pro Aralık ayında Türkiyeli kullanıcılara açılıyor

Ses referansı olarak üç saniyelik bir örnek.

Prompt: Warrenton’ın görevini yerine getirdiğini gösterecek bir şey bulmak için önlerinde ve etraflarında el yordamıyla ilerlediler.

LibriSpeech ve VCTK veri kümeleri üzerinde yapılan deneylerde VALL-E 2, üretilen konuşmanın sağlamlığı, doğallığı ve benzerliği açısından insan performansından önemli ölçüde daha iyi performans gösterdi. Hedef konuşmacıların sadece 3 saniyelik kayıtları yeterliydi. Sistem, 10 saniyelik daha uzun konuşma örnekleriyle duyulabilir şekilde daha iyi sonuçlar elde etti. Microsoft tüm örnekleri bu web sitesinde yayınladı.

Ses referansı olarak üç saniyelik bir örnek.

Sentezlenmiş ses 3 saniyelik bir örnekle.

Sentezlenmiş ses 10 saniyelik bir örnekle.

Araştırmacılar, VALL-E 2’yi eğitmek için yalnızca konuşma kayıtları ve bunların zaman kodları olmadan transkripsiyon çiftlerinin gerekli olduğunu vurguluyor.

Yüksek kötüye kullanım riski nedeniyle serbest bırakılmadı

Araştırmacılara göre VALL-E 2 eğitim, eğlence, erişilebilirlik ya da çeviri gibi pek çok alanda kullanılabilir. Bununla birlikte, konuşmacının rızası olmadan seslerin taklit edilmesi gibi bariz kötüye kullanım risklerine de dikkat çekiyorlar. Bu nedenle, şu anda saf bir araştırma projesi olarak kalmaktadır ve Microsoft’un VALL-E 2’yi bir ürüne entegre etme veya halka erişimi genişletme planı yoktur.

Onlara göre, öncelikle dinlenen kişinin senteze rıza gösterdiğinden emin olmak için bir protokolün yanı sıra bu tür içeriğin dijital olarak işaretlenmesi için bir yöntem geliştirilmelidir. Bu öneri, muhtemelen C2PA gibi filigranların kullanılmaya başlandığı yapay zeka görüntü modeli endüstrisindeki gelişmelerden esinlenmiştir. Bununla birlikte, YZ tarafından üretilen içeriğin güvenilir bir şekilde tanınmasına ilişkin mevcut sorunu çözmemektedir.

Kaynak: The-Decoder


Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.

- Sponsorlu -spot_img

Daha Fazla

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

- Sponsorlu -spot_img

Son Haberler