Ağlar kapandıkça yapay zekalı kazıyıcıların alanı tükeniyor

Veri kaynakları kurudukça, yapay zeka veri toplayıcıları giderek daha fazla tepki çeken çevrimiçi ortamlarla karşı karşıya kalıyor.

Veri tarama, yani kazıma, daha önce internetten çok fazla metin, resim ve videonun çok fazla sorun yaşamadan çekilebileceği anlamına geliyordu. Yapay zeka modelleri görünüşte sonsuz bir kaynak üzerinde eğitilebilirdi ancak artık durum böyle değil.

Yapay zeka araştırmaları yapan düşünce kuruluşu Veri Kaynağı Girişimi’nin (Data Provenance Initiative) “Krizdeki Rıza” adlı çalışması, özellikle üretken yapay zekanın geliştirilmesinde kullanılanlar olmak üzere, web sitesi kazıyıcılarını artık düşmanca bir ortamın beklediğini ortaya koydu.

Araştırmacılar, yapay zeka modellerinin eğitimi için kullanılan en önemli üç veri kümesinde kullanılan alanları incelediler ve bu verilerin artık her zamankinden daha kısıtlı olduğunu gördüler.

Çevrimiçi yayıncıların tarayıcıların varlığına ve veri toplanmasına tepki göstermesiyle birlikte “ortaya çıkan bir rıza krizi”nin keşfiyle 14.000 web alanı değerlendirildi. Araştırmacılar, C4, RefinedWeb ve Dolman olarak bilinen üç veri setinde, tüm verilerin yaklaşık %5’inin ve en iyi kaynaklardan gelen içeriğin %25’inin kısıtlamalar uyguladığını belirtti.

Özellikle, OpenAI’nin GPTBot ve Google-Extended tarayıcıları, web sitelerinde robot.txt kısıtlamalarını değiştirmeye yönelik bir tepkiye neden oldu. Çalışma, en iyi web alan adlarının yüzde 20 ila 33’ünün, geçen yılın başındaki çok daha düşük bir rakamla karşılaştırıldığında, kazıyıcılara kapsamlı kısıtlamalar getirdiğini buldu.

Tam yasaklarla sonuçlanan sert taramalar

Tüm alan adı tabanında kısıtlama uygulananların oranı %5-7 arasında değişirken, aynı dönemde bu oran yalnızca %1 oldu.

Birçok web sitesinin, yapay zekada kullanım için içeriklerin taranmasını ve kaldırılmasını tamamen yasaklamak amacıyla hizmet şartlarını değiştirdiği, ancak robot.txt dosyasındaki kısıtlamalar kadar kapsamlı olmadığı belirtildi.

Yapay zeka şirketleri muhtemelen gerekmeyen aşırı tarama nedeniyle zaman ve kaynak israfı yapmıştır. Araştırmacılar, üç veri kümesinde kullanılan en iyi sitelerin yaklaşık %40’ının haberlerle ilgili olduğunu, ChatGPT sorgularının %30’undan fazlasının yaratıcı yazılar için olduğunu, haber içeren sorguların ise yalnızca %1 olduğunu göstermiştir.

İLGİLİ YAZI : OpenAI'nin "son derece hassas" bir ChatGPT metin algılayıcısı var, ancak şimdilik yayınlamayacak

Diğer önemli istekler arasında çeviri, kodlama yardımı ve cinsel rol yapma da yer alıyordu.

Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.

Kısıtlamalar nedeniyle ağlar kapandıkça yapay zekalı kazıyıcıların alanı tükeniyor

Mutlaka Okumalısın

Perplexity, yapay zeka yanıt platformuna tek tıkla alışveriş özelliğini ekliyor

Microsoft, shawarma sipariş edebilen ve insanlardan yardım isteyebilen yapay zeka ajanlarını test ediyor

OpenAI’ın bir başka baş güvenlik araştırmacısı Lilian Weng de ayrıldı

Google, Workspace paketine Vids AI video oluşturma aracını ekledi

Tam yasaklarla sonuçlanan sert taramalar

Daha Fazla

CEVAP VER İptal

Son Haberler

Perplexity, yapay zeka yanıt platformuna tek tıkla alışveriş özelliğini ekliyor

Microsoft, shawarma sipariş edebilen ve insanlardan yardım isteyebilen yapay zeka ajanlarını test ediyor

OpenAI’ın bir başka baş güvenlik araştırmacısı Lilian Weng de ayrıldı

Google, Workspace paketine Vids AI video oluşturma aracını ekledi

KLING AI video oluşturucusu kullanıcıların kendi AI video karakterlerini eğitmelerine olanak tanıyor

Popüler

Kurumsal

Son Yorumlar

Son Yazılar

Perplexity, yapay zeka yanıt platformuna tek tıkla alışveriş özelliğini ekliyor

Microsoft, shawarma sipariş edebilen ve insanlardan yardım isteyebilen yapay zeka ajanlarını test ediyor