Veri kaynakları kurudukça, yapay zeka veri toplayıcıları giderek daha fazla tepki çeken çevrimiçi ortamlarla karşı karşıya kalıyor.
Veri tarama, yani kazıma, daha önce internetten çok fazla metin, resim ve videonun çok fazla sorun yaşamadan çekilebileceği anlamına geliyordu. Yapay zeka modelleri görünüşte sonsuz bir kaynak üzerinde eğitilebilirdi ancak artık durum böyle değil.
Yapay zeka araştırmaları yapan düşünce kuruluşu Veri Kaynağı Girişimi’nin (Data Provenance Initiative) “Krizdeki Rıza” adlı çalışması, özellikle üretken yapay zekanın geliştirilmesinde kullanılanlar olmak üzere, web sitesi kazıyıcılarını artık düşmanca bir ortamın beklediğini ortaya koydu.
Araştırmacılar, yapay zeka modellerinin eğitimi için kullanılan en önemli üç veri kümesinde kullanılan alanları incelediler ve bu verilerin artık her zamankinden daha kısıtlı olduğunu gördüler.
Çevrimiçi yayıncıların tarayıcıların varlığına ve veri toplanmasına tepki göstermesiyle birlikte “ortaya çıkan bir rıza krizi”nin keşfiyle 14.000 web alanı değerlendirildi. Araştırmacılar, C4, RefinedWeb ve Dolman olarak bilinen üç veri setinde, tüm verilerin yaklaşık %5’inin ve en iyi kaynaklardan gelen içeriğin %25’inin kısıtlamalar uyguladığını belirtti.
Özellikle, OpenAI’nin GPTBot ve Google-Extended tarayıcıları, web sitelerinde robot.txt kısıtlamalarını değiştirmeye yönelik bir tepkiye neden oldu. Çalışma, en iyi web alan adlarının yüzde 20 ila 33’ünün, geçen yılın başındaki çok daha düşük bir rakamla karşılaştırıldığında, kazıyıcılara kapsamlı kısıtlamalar getirdiğini buldu.
Tam yasaklarla sonuçlanan sert taramalar
Tüm alan adı tabanında kısıtlama uygulananların oranı %5-7 arasında değişirken, aynı dönemde bu oran yalnızca %1 oldu.
Birçok web sitesinin, yapay zekada kullanım için içeriklerin taranmasını ve kaldırılmasını tamamen yasaklamak amacıyla hizmet şartlarını değiştirdiği, ancak robot.txt dosyasındaki kısıtlamalar kadar kapsamlı olmadığı belirtildi.
Yapay zeka şirketleri muhtemelen gerekmeyen aşırı tarama nedeniyle zaman ve kaynak israfı yapmıştır. Araştırmacılar, üç veri kümesinde kullanılan en iyi sitelerin yaklaşık %40’ının haberlerle ilgili olduğunu, ChatGPT sorgularının %30’undan fazlasının yaratıcı yazılar için olduğunu, haber içeren sorguların ise yalnızca %1 olduğunu göstermiştir.
Diğer önemli istekler arasında çeviri, kodlama yardımı ve cinsel rol yapma da yer alıyordu.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.