Meta AI araştırmacıları, diller arasında daha doğal ve otantik iletişim sağlamayı amaçlayan ve esasen Evrensel Konuşma Çevirmeni kavramını gerçeğe dönüştüren Seamless Communication adlı yeni bir yapay zeka modelleri paketi geliştirdiklerini duyurdular. Modeller, araştırma makaleleri ve beraberindeki verilerle birlikte bu hafta kamuoyuna açıklandı.
Seamless adı verilen amiral gemisi model, diğer üç modelin (SeamlessExpressive, SeamlessStreaming ve SeamlessM4T v2) yeteneklerini tek bir birleşik sistemde birleştiriyor. Araştırma raporuna göre Seamless, “gerçek zamanlı olarak etkileyici diller arası iletişimin kilidini açan ilk halka açık sistem.”
Seamless evrensel bir gerçek zamanlı çevirmen olarak nasıl çalışıyor?
Seamless çevirmen, blog üzerinden iletişim için yapay zeka kullanımında yeni bir sınırı temsil ediyor. Üç sofistike sinir ağı modelini bir araya getirerek 100’den fazla konuşma ve yazı dili arasında gerçek zamanlı çeviri sağlarken konuşmacının ses stilini, duygusunu ve prozodisini de koruyor.
SeamlessExpressive, diller arasında çeviri yaparken konuşmacının ses stilini ve duygusal nüanslarını korumaya odaklanır. Makalede açıklandığı gibi, “Çeviriler insan ifadesinin nüanslarını yakalamalıdır. Mevcut çeviri araçları bir konuşmadaki içeriği yakalama konusunda yetenekli olsa da, çıktıları için genellikle monoton, robotik metinden konuşmaya sistemlerine güvenirler.”
SeamlessStreaming sadece iki saniyelik gecikmeyle neredeyse gerçek zamanlı çeviri sağlıyor. Araştırmacılar bunun yaklaşık 100 konuşma ve yazı dilinde bu kadar yüksek çeviri hızları sağlayan “ilk kitlesel çok dilli model” olduğunu söylüyor.
Üçüncü model olan SeamlessM4T v2, diğer iki model için temel oluşturuyor. Geçen yıl piyasaya sürülen orijinal SeamlessM4T modelinin yükseltilmiş bir versiyonudur. Makaleye göre yeni mimari “metin ve konuşma çıktısı arasında gelişmiş tutarlılık” sağlıyor.
Araştırmacılar, “Özetle, Seamless bize Evrensel Konuşma Çevirmenini bir bilim kurgu konseptinden gerçek dünya teknolojisine dönüştürmek için gereken teknik temele çok önemli bir bakış sunuyor” diye yazdı.
Küresel iletişimi dönüştürme potansiyeli
Modellerin yetenekleri, akıllı gözlüklerin kullanıldığı gerçek zamanlı çok dilli konuşmalardan otomatik olarak seslendirilen videolara ve podcast’lere kadar yeni ses tabanlı iletişim deneyimlerini mümkün kılabilir. Araştırmacılar ayrıca göçmenler ve iletişimde zorlanan diğer kişiler için dil engellerini yıkmaya yardımcı olabileceğini öne sürüyor.
Makalede, “Çalışmamızı kamuya açıklayarak, araştırmacıların ve geliştiricilerin, giderek birbirine bağlı ve birbirine bağımlı hale gelen bir dünyada çok dilli bağlantılar kurmayı amaçlayan teknolojiler geliştirerek katkılarımızın etkisini artırabileceklerini umuyoruz” deniyor.
Ancak araştırmacılar, teknolojinin sesli kimlik avı dolandırıcılığı, derin sahtecilik ve diğer zararlı uygulamalar için kötüye kullanılabileceğini de kabul ediyor. Modellerin güvenliğini ve sorumlu kullanımını teşvik etmek için, ses filigranı ve halüsinasyonlu toksik çıktıları azaltmak için yeni teknikler de dahil olmak üzere çeşitli önlemler uyguladılar.
Hugging Face’te halka açık modeller
Meta’nın açık araştırma ve işbirliğine olan bağlılığına uygun olarak, Seamless Communication modelleri Hugging Face ve Github‘da halka açık olarak yayınlandı.
Koleksiyonda Seamless, SeamlessExpressive, SeamlessStreaming ve SeamlessM4T v2 modellerinin yanı sıra bunlara eşlik eden meta veriler de yer alıyor.
Meta, bu son teknoloji doğal dil işleme modellerini ücretsiz olarak kullanıma sunarak, diğer araştırmacıların ve geliştiricilerin bu çalışmayı diller ve kültürler arasında insanları birbirine bağlamaya yardımcı olacak şekilde geliştirmelerini ve genişletmelerini sağlamayı umuyor. Bu sürüm, Meta’nın açık kaynak yapay zeka alanındaki liderliğinin altını çiziyor ve araştırma topluluğu için değerli yeni bir kaynak sağlıyor.
Araştırmacılar, “Genel olarak, Seamless’ın ortaya çıkarabileceği çok boyutlu deneyimler, makine destekli diller arası iletişimin nasıl gerçekleştirildiği konusunda bir adım değişikliğe yol açabilir” dedi.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, Twitter, LinkedIn ve Instagram‘da takip edin.