Meta, özel ses üretimi için yeni temel model olan Audiobox'ı tanıttı

Meta AI, özelleştirilmiş konuşma, ses efektleri ve ses manzaraları oluşturmak için hem ses hem de metin istemlerine izin veren ses üretimi için yeni temel araştırma modeli Audiobox’u tanıttı.

Meta’nın konuşma üretimine yönelik önceki Voicebox modeli üzerine inşa edilen Audiobox, ses yapay zekası için kontrol edilebilirliği ve kaliteyi önemli ölçüde geliştiriyor. Model, metin istemlerinde açıklanan istenen stillere ve ortamlara doğru şekilde uyan sesler ve sesler üretme değerlendirmelerinde önceki sistemlerden daha iyi performans gösteriyor.

Sesi tanımla ve üret: Kullanıcılar istenen sesin kısa bir tanımını yapabilir ve modelden bunu üretmesini isteyebilir.

Audiobox’ı diğerlerinden ayıran şey, hem ses kayıtlarını hem de doğal dil metinlerini girdi olarak kabul edebilmesidir. Bu ikili giriş mekanizması, üretilen ses üzerinde daha ayrıntılı kontrol sağlar.

Örneğin, kullanıcılar bir ses örneği girebilir ve ardından bu sesin yeni ritimler veya ortamlar benimsemesini sağlamak için “büyük bir mağarada yavaş konuşuyor” gibi bir metin istemi ekleyebilir. Metin diğer parametreleri değiştirirken ses girişi farklı vokal tınısını korur.

Vokal restilizasyonu: Audiobox, bir sesi farklı bir ortamdaymış gibi (bu örnekte büyük bir katedralde) duyulması için yeniden şekillendirebilir.

Meta, Audiobox’ı ses üretimini daha erişilebilir hale getirmek için tasarladı. Model, podcast’ler, videolar, oyunlar ve daha fazlası için gereken özel sesler, konuşmalar ve ses manzaraları oluşturmanın önündeki engelleri azaltıyor. Acemiler, kapsamlı uzmanlık gerektirmeden medya projelerini zenginleştirmek için kolayca kaliteli ses öğeleri üretebilir.

Ancak, tüm etkili yapay zeka yeniliklerinde olduğu gibi, sorumlu geliştirme çok önemli. Meta, Audiobox’a seçici olarak konuşma ve sorumluluk araştırmalarında geçmişe sahip araştırmacılara erişim izni veriyor. Şirket ayrıca kötüye kullanımı caydırmak için modele ses filigranı ve ses kimlik doğrulama önlemleri de uyguladı.

Bugün erken saatlerde Alibaba Cloud kendi Qwen-Audio modelini tamamen açık kaynak olarak kullanıma sundu. Audiobox’a benzer şekilde, çok modlu temel modeli de metnin yanı sıra çeşitli ses verilerini işliyor ve bir dizi ses anlama ölçütünde dikkate değer sonuçlar üretiyor.

İLGİLİ YAZI : OpenChat çerçevesi açık kaynaklı dil modellerini optimize etmeyi amaçlıyor

Meta’nın daha kontrol odaklı Audiobox’u ve Alibaba’nın çok yönlülük odaklı Qwen-Audio’su arasında, sorumlu ve eşitlikçi ses yapay zekasında hızlı açık inovasyon oldukça ilerlemiş görünüyor. Araştırmacılar bu güçlü teknolojilere daha geniş erişim sağladıkça, alanın yetenek, çok yönlülük ve kalite açısından sınırları zorlamaya devam ettiğini göreceğiz.

Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, Twitter, LinkedIn ve Instagram‘da takip edin.

Meta, özel ses üretimi için yeni bir temel model olan Audiobox’ı tanıttı

Mutlaka Okumalısın

Kısıtlamalar nedeniyle ağlar kapandıkça yapay zekalı kazıyıcıların alanı tükeniyor

Cohere, 5,5 milyar dolarlık değerlemeyle 500 milyon dolar topladı

Çinli şirketler ölen sevdiklerini yapay zeka avatarlarıyla ‘diriltmeyi’ teklif ediyor

Streetscapes AI, sıfırdan tüm şehirlerin inanılmaz derecede gerçekçi Sokak Görünümü sahnelerini oluşturuyor

Daha Fazla

CEVAP VER İptal

Son Haberler

Kısıtlamalar nedeniyle ağlar kapandıkça yapay zekalı kazıyıcıların alanı tükeniyor

Cohere, 5,5 milyar dolarlık değerlemeyle 500 milyon dolar topladı

Çinli şirketler ölen sevdiklerini yapay zeka avatarlarıyla ‘diriltmeyi’ teklif ediyor

Streetscapes AI, sıfırdan tüm şehirlerin inanılmaz derecede gerçekçi Sokak Görünümü sahnelerini oluşturuyor

‘Yapay zeka arama motorları demokrasiye geri dönülemez şekilde zarar verebilir’

Popüler

Kurumsal

Son Yorumlar

Son Yazılar

Kısıtlamalar nedeniyle ağlar kapandıkça yapay zekalı kazıyıcıların alanı tükeniyor

Cohere, 5,5 milyar dolarlık değerlemeyle 500 milyon dolar topladı