13.2 C
İstanbul

Fransız Kyutai diyalogsal yapay zeka asistanı Moshi’yi tanıttı

Fransız yapay zeka girişimi Kyutai, kullanıcılarla gerçek zamanlı olarak doğal konuşmalar yapabilen Moshi yapay zeka asistanını tanıttı. Moshi, sekiz kişilik bir ekip tarafından sadece altı ayda geliştirildi ve 200-240 milisaniye gecikme süresine sahip.

Mutlaka Okumalısın

Fransız yapay zeka laboratuvarı Kyutai, kullanıcılarla doğal konuşmalar yapabilen Moshi yapay zeka asistanını Paris’te tanıttı. Teknoloji açık kaynak olarak yayınlanacak.

Kyutai’ye göre Moshi, doğal konuşma yeteneklerine sahip halka açık ilk yapay zeka asistanı. OpenAI daha önce GPT-4o için bu özelliği sergilemiş ancak henüz yayınlamamıştı.

Sunum sırasında Kyutai CEO’su Patrick Perez, Moshi’nin sekiz kişilik bir ekip tarafından sadece altı ayda geliştirildiğini açıkladı. Moshi’yi diğerlerinden ayıran şey, gerçek zamanlı olarak konuşma ve dinleme yeteneğidir. Kyutai, Moshi’nin teorik olarak sadece 160 milisaniye gecikme süresine sahip olduğunu, pratikte ise bu sürenin 200 ila 240 milisaniye arasında değiştiğini iddia ediyor.

Moshi’nin mimarisi, Kyutai’nin “Ses Dili Modeli” adını verdiği yeni bir yaklaşıma dayanıyor. Konuşmayı her zamanki gibi metne dönüştürmek yerine, model ses verilerini büyük ölçüde sıkıştırıyor ve sözde kelimeler gibi ele alıyor. Bu, doğrudan ses verileriyle çalışmasına ve konuşmayı tahmin etmesine olanak tanıyarak onu GPT-4o’ya benzer şekilde doğal olarak çok modlu bir model haline getiriyor.

Eğitim için Kyutai, insan hareket verileri ve YouTube videoları dahil olmak üzere çeşitli veri kaynakları kullandı. İlk olarak, Helium adı verilen saf bir metin modeli eğitildi. Ardından, metin ve ses verileriyle birleşik eğitim gerçekleştirildi. Konuşmaya ince ayar yapmak için sentetik diyaloglar kullanıldı.

Temel dil modeli yalnızca 7 milyar parametreye sahip olduğundan, diyalogdaki küçük modellerin olağan sınırlamalarını sergiliyor. Bununla birlikte, dil yetenekleri ve hızı etkileyici ve bu teknolojiyle daha güçlü ve daha büyük modüller kullanıldığında potansiyele işaret ediyor.

Moshi’ye tutarlı bir ses vermek için Kyutai, Alice adında bir seslendirme sanatçısıyla işbirliği yaptı. Alice çeşitli tarzlarda monologlar ve diyaloglar kaydetti ve bunlar daha sonra bir konuşma sentezi sistemini eğitmek için kullanıldı.

İLGİLİ YAZI :   OpenAI, gelişmiş AGI güvenlik hazırlığına odaklanan bir ekibi daha dağıttı

Moshi: Demo mevcut, açık kaynak takip edecek

Kyutai, Moshi’de makinelerle iletişim kurma şeklimizi değiştirecek büyük bir potansiyel görüyor. Şirket, özellikle engelliler için erişilebilirlik alanında umut verici uygulamalar görüyor.

Moshi demosu artık çevrimiçi olarak mevcut. Kyutai önümüzdeki aylarda teknolojiyi açık kaynak olarak yayınlayarak geliştiricilerin ve araştırmacıların bu teknolojiyi incelemesine, uyarlamasına ve genişletmesine olanak sağlamayı planlıyor. Bunu bir araştırma makalesi de takip edecek.

Kyutai 2023 yılında kuruldu ve geçtiğimiz Kasım ayında Xavier Niel ve Rodolphe Saadé gibi Fransız milyarderlerden 300 milyon avro aldı. Kyutai, Yann LeCun ve Bernhard Schölkopf gibi ünlü yapay zeka araştırmacılarını bilimsel danışman olarak bünyesine kattı. Araştırmacıları Kyutai’ye çeken ana argümanlardan biri, açık bilime olan bağlılığı ve çalışmalarını yayınlayabilmeleridir: Kyutai’nin tüm modelleri açık kaynak olacak ve araştırmacılar sadece modelleri değil, aynı zamanda eğitim kaynak kodunu ve eğitim sürecinin belgelerini de yayınlamayı planlıyor.


Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.

- Sponsorlu -spot_img

Daha Fazla

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

- Sponsorlu -spot_img

Son Haberler