Ses klonlama teknolojisi son zamanlarda önemli ilerlemeler kaydetti. Artık sadece birkaç saniyelik ses, bir kişinin sesini sentezlemek için yeterli olabiliyor. Bu atılım özellikle konuşma bozukluğu olanlar için faydalı.
Google yakın zamanda metinden konuşmaya sistemleri için yeni bir sıfır atışlı ses aktarım modülünü tanıttı. Dizartri gibi rahatsızlıkları olan ve tipik seslerini kaybetmiş veya hiç sese sahip olmamış kişilerin seslerini geri kazandırmayı amaçlıyor.
Yazarlar blog yazısında, “Amiyotrofik lateral skleroz (ALS), Parkinson ve multipl skleroz gibi dejeneratif sinir hastalıkları olan konuşmacılar, zamanla seslerinin bazı benzersiz özelliklerinde bozulma yaşayabilirler. Bazı bireyler, eklem sistemini etkileyen ve belirli sesleri üretme yeteneklerini sınırlayan kas distrofisi gibi rahatsızlıklarla doğarlar” diye açıklıyor.
Modelleri eğitmek için kapsamlı ses örnekleri gerektiren önceki teknolojilerin aksine, Google’ın yeni yaklaşımı eğitim gerektirmez. Bir kişinin sesini sentezlenmiş çıktıya aktarmak için üretim sırasında kısa ses referans klipleri kullanır. Bu, sınırlı veya atipik ses örneklerine sahip olanlar için uygun hale getirir.
Kısa örneklerden yüksek kaliteli ses sentezi
Araştırmacılar ses aktarım modüllerini bir metinden konuşmaya sistemine entegre ettiler. Bozulmadan önce tipik konuşmalarını kaydeden konuşmacıların seslerini geri yüklemedeki etkinliğini gösterdiler. Özellikle, model atipik giriş örnekleri verildiğinde bile güçlü ses sadakatiyle yüksek kaliteli konuşma üretti.
Modül 2-14 saniyelik bir spektrogram alır ve akustik-fonetik ve prozodik ses özelliklerini çıkarıyor. Bunları bir yerleştirme vektörü olarak diğer katmanlara geçiriyor.
Bir vaka çalışmasında, sağır Google araştırmacısı Dimitri Kanevsky, atipik sesinin 12 saniyesini referans olarak sağladı. Model, Kanevsky’nin orijinal videosunun bir transkriptini sentezledi. Meslektaşları, çıktı sesinin kendi sesine benzerliğini ortalama 8,1/10 olarak derecelendirdi.
Başka bir çalışma, hiç tipik bir sesi olmayan kas distrofisi hastası bir Google çalışanı olan Aubrie Lee’ye odaklandı. Lee’nin atipik referans sesinin 14 saniyesini kullanarak, model videosunun transkriptini sentezledi. Lee’nin kendisi benzerliği 8/10 olarak derecelendirdi.
Araştırmacılar ayrıca modelin sesleri Fransızca, İspanyolca, İtalyanca, Arapça, Almanca, Rusça, Hintçe ve Norveççe gibi diğer dillere çevirme yeteneğini de gösterdi. Ses örnekleri projenin GitHub sayfasında mevcut.
Potansiyel kötüye kullanımı ve gelecekteki kullanılabilirliği ele alma
Kötüye kullanımı önlemek için Google, SynthID filigranlama sistemini kullanıyo. Bu, sentezlenmiş sese algılanamayan bilgiler yerleştirerek, potansiyel olarak işlenmiş içeriğin tanımlanmasını sağlıyor.
Google, tipik bir konuşma becerisine sahip olmayan kişiler için çıktının sentetik doğasının belirgin olması nedeniyle kötüye kullanım riskinin daha düşük olduğunu belirtiyor.
Microsoft yakın zamanda güvenilir bir etiketleme sisteminin olmaması nedeniyle benzer güçlü bir ses sentezi modelinin yayınlanmasını erteledi. Google henüz yeni sistemlerini kamuoyuna duyurma planlarını açıklamadı.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.