Cornell Üniversitesi’nden yapılan bir araştırma, OpenAI’nin Whisper AI konuşma tanıma sisteminin ses kayıtlarının yaklaşık yüzde 1,4’ünde var olmayan içerikler ürettiğini gösteriyor.
%1,4 küçük görünse de, yazılımın yaygın kullanımı düşünüldüğünde potansiyel etki önemli ölçüde artar. Whisper veya benzeri yazılımlar milyonlarca kez kullanıldığında, bu hatalar hızla birikir.
Ve bu sadece nicelik meselesi değil; bu uydurmaların niteliği de sorunlu. Araştırmacılar, uydurulmuş içeriğin yüzde 38’inin şiddet tasvirlerinden yanlış atıflara ve yanıltıcı otorite iddialarına kadar sorunlu materyaller içerdiğini buldu.
Duraklamaların sorunu
Çalışma, konuşmadaki uzun duraklamaların ana suçlu olduğunu gösteriyor. Seste bir boşluk olduğunda, Whisper genel dil bilgisine dayanarak boşlukları doldurmaya çalışıyor ve işler burada ters gidebiliyor.
Bu sorun, afazi gibi konuşma bozuklukları olan kişileri diğerlerinden daha fazla etkiliyor, çünkü daha sık duraklama eğiliminde oluyorlar; hata oranı, kontrol grubundaki %1,2’ye kıyasla %1,7’ye yükseldi. Bu, yapay zekanın önyargılarının ve kör noktalarının marjinalleşmiş topluluklar için çok gerçek sonuçları olabileceğinin bir hatırlatıcısı.
AP’ye göre diğer araştırmacılar da benzer sorunları belgeledi. Michigan Üniversitesi’nden bir araştırmacı, 10 transkriptin sekizinde uydurma içerik buldu, bir makine öğrenimi mühendisi ise analiz ettiği 100 saatten fazla kaydın yaklaşık yarısında hatalar buldu. AP’nin haberine göre başka bir geliştirici, 26.000 transkriptinin neredeyse hepsinde hatalar bulduğunu bildirdi.
OpenAI bu sınırlamaları kabul ediyor ve Whisper’ın “doğruluktaki kusurların sonuçlarda belirgin kusurlara yol açabileceği karar alma bağlamları gibi yüksek riskli alanlarda” kullanılmaması gerektiğini söylüyor.
En son Whisper v3 modeli de halüsinasyonlardan muzdarip. OpenAI, bunların “genel dil bilgileri göz önüne alındığında, modellerin ses dosyasındaki bir sonraki kelimeyi tahmin etmeye çalışmayı ses dosyasının kendisini yazmaya çalışmayla birleştirmesi” nedeniyle gerçekleştiğine inanıyor.
Halüsinasyonlar evrensel bir üretken yapay zeka özelliğidir
Whisper gibi ses tabanlı yapay zeka araçlarının tıpkı benim ChatGPT’im kadar halüsinasyon gördüğü iyi belgelenmiş bir gerçek, ancak son zamanlarda yapay zeka tarafından üretilen podcast’ler etrafında dönen çılgınlıktan da anlaşılacağı üzere, görünüşe göre herkes bunun farkında değil.
NotebookLM’nin Ses Genel Bakışları gibi araçlar, kısa konuları uzun tartışmalara dönüştürebilir ve hata için daha fazla alan yaratabilir. Ve doğal sesli AI sesleriyle, çıktıyı olduğu gibi kabul etmek çok kolay.
Bu, AI podcast’lerinin doğası gereği kötü veya işe yaramaz olduğu anlamına gelmez. Örneğin, materyal iyice incelenebildiği sürece eğitim içeriği oluşturmak için yararlı olabilirler. Ancak doğrulama olmadan yeni bilgiler öğrenmek için bunlara güvenmek kötü bir fikir.
Önemli çıkarım, ister metin, ister transkript veya podcast olsun, yapay zeka tarafından üretilen her türlü içerik için insan denetiminin kritik öneme sahip olduğu. Çıktıyı incelemek ve doğrulamak için konuyu anlayan uzmanlara ihtiyacımız var. Çünkü mevcut teknolojiyle, yapay zeka tarafından üretilen içeriğe körü körüne güvenmek, formattan bağımsız olarak hataların çatlaklardan sızmasına izin vermenin kesin bir yolu.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.