Teknoloji şirketleri, veri açlığı çeken yapay zeka modellerini beslemek için tartışmalı taktiklere başvuruyor ve yaratıcılarının çoğu zaman haberi olmadan kitapları, web sitelerini, fotoğrafları ve sosyal medya gönderilerini topluyor.
Yapay zeka şirketleri genellikle eğitim verilerinin kaynakları konusunda gizlidir, ancak Proof News tarafından yapılan bir araştırma, dünyanın en zengin yapay zeka şirketlerinden bazılarının yapay zekayı eğitmek için binlerce YouTube videosundan materyal kullandığını buldu. Şirketler bunu, YouTube’un platformdan izinsiz materyal toplamaya karşı kurallarına rağmen yaptı.
Wired’in yaptığı araştırmada, 48.000’den fazla kanaldan toplanan 173.536 YouTube videosundaki altyazıların, Anthropic, Nvidia, Apple ve Salesforce gibi Silikon Vadisi’nin önemli şirketleri tarafından kullanıldığını tespit edildi.
YouTube Altyazıları adı verilen veri kümesi, Khan Academy, MIT ve Harvard gibi eğitim ve çevrimiçi öğrenme kanallarından video transkriptleri içeriyor. Wall Street Journal, NPR ve BBC’nin de videoları yapay zekayı eğitmek için kullanıldı, aynı şekilde The Late Show With Stephen Colbert , Last Week Tonight With John Oliver ve Jimmy Kimmel Live da kullanıldı.
Proof News ayrıca MrBeast (289 milyon abone, eğitim için çekilen iki video), Marques Brownlee (19 milyon abone, yedi video çekildi), Jacksepticeye (yaklaşık 31 milyon abone, 377 video çekildi) ve PewDiePie (111 milyon abone, 337 video çekildi) gibi YouTube süperstarlarından materyaller buldu. Yapay zekayı eğitmek için kullanılan materyalin bir kısmı ayrıca “düz dünya teorisi” gibi komplo teorilerini de destekliyordu.
Proof News, YouTube AI eğitim veri setinde içerik oluşturucuları aramak için bir araç geliştirdi.
2 milyondan fazla abonesi ve 2 milyardan fazla izlenme sayısına sahip sol eğilimli bir siyaset kanalı olan The David Pakman Show’un sunucusu David Pakman, “Kimse gelip bana ‘Bunu kullanmak istiyoruz’ demedi” dedi. Yaklaşık 160 videosu YouTube Altyazılar eğitim veri kümesine dahil edildi.
Pakman’ın her gün birden fazla video yayınlayan ve ayrıca bir podcast, TikTok videoları ve diğer platformlar için materyal üreten girişiminde dört kişi tam zamanlı çalışıyor. AI şirketlerine ödeme yapılıyorsa, Pakman’ın verilerinin kullanımı için kendisine de tazminat ödenmesi gerektiğini söyledi. Bazı medya şirketlerinin yakın zamanda AI’yı eğitmek için çalışmalarının kullanımı için ödeme yapılmasına yönelik anlaşmalar imzaladıklarını belirtti.
Pakman, “Bu benim geçim kaynağım ve bu içeriği oluşturmak için zaman, kaynak, para ve personel zamanı harcıyorum. Gerçekten iş sıkıntısı yok” dedi.
Yaratıcılarının bir kısmının YouTube’dan alınarak yapay zekayı eğittiği bir yayın hizmeti olan Nebula’nın CEO’su Dave Wiskus, “Bu bir hırsızlık” dedi.
Wiskus, özellikle stüdyoların “mümkün olduğunca çok sayıda sanatçıyı değiştirmek için üretken yapay zekayı kullanabileceği” göz önüne alındığında, yaratıcıların çalışmalarının onların izni olmadan kullanılmasının “saygısızlık” olduğunu söyledi.
Wiskus, “Bu, sanatçıları sömürmek ve onlara zarar vermek için mi kullanılacak? Evet, kesinlikle” dedi.
Veri setinin yaratıcıları olan EleutherAI temsilcileri, videoların izinsiz kullanıldığı iddiaları da dahil olmak üzere Proof’un bulguları hakkında yorum taleplerine yanıt vermedi. Şirketin web sitesinde, genel amacının, Big Tech’in yaldızlı duvarlarının dışında kalanlar için AI geliştirmenin önündeki engelleri azaltmak olduğu ve tarihsel olarak “modelleri eğiterek ve yayınlayarak son teknoloji AI teknolojilerine erişim” sağladığı belirtiliyor.
YouTube Altyazıları video görüntülerini içermez, ancak videoların altyazılarının düz metinlerinden oluşur ve çoğunlukla Japonca, Almanca ve Arapça gibi dillerin çevirileriyle birlikte sunuluyor.
EleutherAI tarafından yayımlanan bir araştırma makalesine göre, veri seti kâr amacı gütmeyen kuruluşun Pile adlı bir derlemesinin parçası. Pile’ın geliştiricileri yalnızca YouTube’dan değil, aynı zamanda Avrupa Parlamentosu, İngilizce Wikipedia ve firmaya yönelik federal bir soruşturmanın parçası olarak yayımlanan bir dizi Enron Corporation çalışanının e-postalarından da materyaller içeriyordu.
Pile’ın veri kümelerinin çoğu, internetteki herkese açıktır ve onlara erişmek için yeterli alan ve bilgi işlem gücüne sahip. Akademisyenler ve Big Tech dışındaki diğer geliştiriciler veri kümesinden yararlandı, ancak tek olanlar onlar değildi.
Apple, Nvidia ve Salesforce —yüzlerce milyarlarca ve trilyonlarca dolar değerindeki şirketler— araştırma makalelerinde ve gönderilerinde AI’yı eğitmek için Pile’ı nasıl kullandıklarını anlatıyor. Belgeler ayrıca Apple’ın Pile’ı, şirketin iPhone’lara ve MacBook’lara yeni AI yetenekleri ekleyeceğini açıklamasından haftalar önce Nisan ayında yayınlanan yüksek profilli bir model olan OpenELM’i eğitmek için kullandığını gösteriyor. Bloomberg ve Databricks’in de Pile üzerinde modelleri eğittiği şirketlerin yayınlarında belirtiliyor.
Aynı şekilde, Amazon’dan 4 milyar dolarlık yatırım alan ve “Yapay Zeka güvenliği”ne odaklanan önde gelen bir yapay zeka üreticisi olan Anthropic de aynısını yaptı.
Anthropic’in sözcüsü Jennifer Martinez, Anthropic’in üretken AI asistanı Claude’da Pile’ın kullanımını doğrulayan bir açıklamada, “Pile, YouTube altyazılarının çok küçük bir alt kümesini içeriyor. YouTube’un şartları, Pile veri kümesinin kullanımından farklı olan platformunun doğrudan kullanımını kapsar. YouTube’un hizmet şartlarının olası ihlalleri konusunda, sizi Pile yazarlarına yönlendirmemiz gerekir” dedi.
Salesforce ayrıca Pile’ın “akademik ve araştırma amaçlı” bir yapay zeka modeli oluşturmak için kullanıldığını doğruladı. Şirketin yapay zeka araştırmalarından sorumlu başkan yardımcısı Caiming Xiong, yaptığı açıklamada veri setinin “kamuya açık” olduğunu vurguladı.
Salesforce daha sonra aynı AI modelini 2022’de kamu kullanımına açtı ve Hugging Face sayfasına göre o zamandan beri en az 86.000 kez indirildi. Salesforce geliştiricileri araştırma makalelerinde Pile’ın küfür ve “cinsiyete ve belirli dini gruplara karşı önyargılar” içerdiğini belirtti ve bunun “güvenlik açıklarına ve güvenlik endişelerine” yol açabileceği konusunda uyardı. Proof News, YouTube Altyazılarında binlerce küfür örneği ve ayrıca ırksal ve cinsiyete yönelik hakaret örnekleri buldu. Salesforce temsilcisi güvenlik endişeleriyle ilgili sorulara yanıt vermedi.
Nvidia’dan bir temsilci yorum yapmayı reddetti. Apple, Databricks ve Bloomberg temsilcileri yorum taleplerine yanıt vermedi.
YouTube Verilerinin “Altın Madeni”
Brezilya’nın Rio de Janeiro kentindeki Fundação Getulio Vargas Hukuk Fakültesi’nde AI politikası araştırmacısı ve CyberBRICS üyesi olan Jai Vipra, AI şirketlerinin kısmen daha kaliteli veri elde ederek birbirleriyle rekabet ettiğini söyledi. Bu, şirketlerin veri kaynaklarını gizli tutmasının nedenlerinden biri.
Bu yılın başlarında, The New York Times, YouTube’un sahibi olan Google’ın modellerini eğitmek için platformdaki videolara metin eklediğini bildirdi. Buna karşılık, bir sözcü gazeteye, YouTube içerik oluşturucularıyla yapılan anlaşmalar uyarınca kullanımına izin verildiğini söyledi.
Times’ın araştırması ayrıca OpenAI’nin YouTube videolarını izinsiz kullandığını buldu. Şirket temsilcileri gazetenin bulgularını ne doğruladı ne de yalanladı.
OpenAI yöneticileri, metin istemlerinden videolar oluşturan AI ürünü Sora’yı eğitmek için YouTube videolarını kullanıp kullanmadıklarına ilişkin soruları kamuoyuna açıklamayı defalarca reddetti. Bu yılın başlarında, The Wall Street Journal’dan bir muhabir, OpenAI’nin baş teknoloji sorumlusu Mira Murati’ye soruyu yöneltti.
Murati, “Aslında bundan emin değilim” diye yanıtladı.
Vipra, YouTube altyazıları ve diğer türden konuşmayı metne dönüştürme verilerinin potansiyel olarak bir “altın madeni” olduğunu, çünkü insanların nasıl konuştuğunu ve sohbet ettiğini taklit edecek şekilde modellerin eğitilmesine yardımcı olabileceğini söyledi.
Kimya ve diğer bilim dersleri sunan kanalında 3 milyon abonesi olan ve YouTube altyazıları için 140 videosu kaldırılan Professor Dave Explains’in sunucusu Dave Farina, “Bu hala tamamen prensip meselesi. Eğer benim [bir ürün geliştirmek için] yaptığım işten kar elde ediyorsanız ve bu beni veya benim gibi insanları işsiz bırakacaksa, o zaman tazminat veya bir tür düzenleme hakkında masada bir konuşma yapılması gerekir” dedi.
2020’de yayınlanan YouTube Altyazıları, o zamandan beri YouTube’dan silinen 12.000’den fazla videonun altyazılarını da içeriyor. En azından bir durumda, yaratıcı tüm çevrimiçi varlığını sildi, ancak bu çalışma bilinmeyen sayıda AI modeline dahil edildi.
Proof News, bu hikayede adı geçen kanalların sahiplerine ulaşmaya çalıştı. Birçoğu yorum taleplerine yanıt vermedi. Konuştuğumuz içerik oluşturucuların hiçbiri bilgilerinin alındığından haberdar değildi, nasıl kullanıldığından ise hiç haberi yoktu.
Şaşıranlar arasında; Hank ve John Green kardeşlerin eğitim videosu imparatorluğunun temel direkleri olan Crash Course (yaklaşık 16 milyon abone, 871 video çekildi) ve SciShow’un (8 milyon abone, 228 video çekildi) yapımcıları da vardı.
Dizinin prodüksiyon şirketi Complexly’nin CEO’su Julie Walsh Smith, yaptığı açıklamada, “Düşünceli bir şekilde hazırladığımız eğitim içeriklerinin iznimiz olmadan bu şekilde kullanıldığını öğrenmekten hayal kırıklığına uğradık” dedi.
YouTube Altyazıları, yaratıcı endüstrileri zorlayan ilk yapay zeka eğitim verisi seti değil.
Proof News katılımcısı Alex Reisner, bir başka Pile veri kümesi olan Books3’ün bir kopyasını elde etti ve geçen yıl The Atlantic’te Margaret Atwood, Michael Pollan ve Zadie Smith tarafından yazılanlar da dahil olmak üzere 180.000’den fazla kitabın kaldırıldığını bildiren bir makale yayınladı. O zamandan beri birçok yazar, eserlerinin yetkisiz kullanımı ve iddia edilen telif hakkı ihlalleri nedeniyle AI şirketlerine dava açtı. Benzer davalar o zamandan beri çığ gibi büyüdü ve Books3’ü barındıran platform bunu kaldırdı.
Davalara yanıt olarak Meta, OpenAI ve Bloomberg gibi davalılar eylemlerinin adil kullanım oluşturduğunu savundu. Başlangıçta defterleri kazıyıp kamuya açık hale getiren EleutherAI’ye karşı açılan dava, davacılar tarafından gönüllü olarak reddedildi.
Kalan davalardaki davalar erken aşamalarda kalmaya devam ediyor ve izin ve ödemeyle ilgili sorular çözümsüz kalıyor. The Pile o zamandan beri resmi indirme sitesinden kaldırıldı ancak dosya paylaşım hizmetlerinde hala mevcut.
DiCello Levitt firmasında tüketici koruma avukatı ve ortağı olan Amy Keller, yapay zeka firmalarının izinleri olmadan eserleri çalındığı iddia edilen yaratıcılar adına davalar açtıklarını belirterek, “Teknoloji şirketleri kabadayılık taslıyor” dedi.
Keller, “İnsanlar bu konuda bir seçimlerinin olmamasından endişe duyuyorlar. Bence asıl sorun bu” dedi.
Papağanın Papağanlığını Yapmak
Pek çok içerik üreticisi önlerindeki yol konusunda belirsizlik hissediyor.
Tam zamanlı YouTuber’lar, çalışmalarının izinsiz kullanımına karşı devriye geziyor, düzenli olarak kaldırma bildirimleri gönderiyor ve bazıları, yapay zekanın kendi yaptıklarına benzer içerikler üretmesinin, hatta tamamen taklitlerini üretmesinin an meselesi olduğundan endişe ediyor.
The David Pakman Show’un yaratıcısı Pakman, yakın zamanda TikTok’ta gezinirken yapay zekanın gücünü gördü. Tucker Carlson klibi olarak etiketlenen bir videoyla karşılaştı, ancak Pakman izlediğinde afalladı. Carlson’a benziyordu ancak kelimesi kelimesine, Pakman’ın YouTube şovunda söylediği şeydi, hatta ritmine kadar. Aynı şekilde, videonun yorumcularından yalnızca birinin bunun sahte olduğunu fark etmiş olması da onu endişelendirdi; Carlson’ın Pakman’ın metnini okuduğu bir ses klonu.
Pakman, sahte hakkında yaptığı bir YouTube videosunda “Bu bir sorun olacak. Bunu esasen herkesle yapabilirsiniz” dedi.
EleutherAI kurucu ortağı Sid Black, GitHub’da YouTube Altyazılarını bir betik kullanarak oluşturduğunu yazdı. Bu betik, altyazıları YouTube’un API’sinden, bir YouTube izleyicisinin tarayıcısının bir videoyu izlerken indirdiği şekilde indiriyor. GitHub’daki belgelere göre, Black videoları ayıklamak için “komik vlogger’lar”, “Einstein”, “siyah protestan”, “Koruyucu Sosyal Hizmetler”, “bilgi savaşları”, “kuantum kromodinamiği”, “Ben Shapiro”, “Uygurlar”, “meyveci”, “kek tarifi”, “Nazca çizgileri” ve “düz dünya” dahil olmak üzere 495 arama terimi kullandı.
YouTube’un hizmet şartları, videolarına “otomatik yollarla” erişimi yasaklasa da 2.000’den fazla GitHub kullanıcısı kodu yer imlerine ekledi veya onayladı.
Makine öğrenimi mühendisi Jonas Depoix, Black’in YouTube altyazılarına erişmek için kullandığı kodu yayınladığı GitHub’daki bir tartışmada, “YouTube’un bu modülün çalışmasını engellemesinin birçok yolu var. Bu şimdiye kadar olmadı” diye yazdı.
Depoix, Proof News’e gönderdiği bir e-postada, birkaç yıl önce bir üniversite öğrencisi olarak bir proje için yazdığı koddan beri kullanmadığını ve insanların bunu yararlı bulmasına şaşırdığını söyledi. YouTube’un kurallarıyla ilgili soruları yanıtlamayı reddetti.
Google sözcüsü Jack Malon, yorum talebine verdiği e-posta yanıtında, şirketin “yıllardır kötüye kullanım ve izinsiz veri toplamayı önlemek için önlem aldığını” söyledi. Diğer şirketlerin materyali eğitim verisi olarak kullanmasıyla ilgili sorulara yanıt vermedi.
Yapay zeka şirketleri tarafından kullanılan videolar arasında , yaklaşık 150.000 abonesi olan bir kanal olan Einstein Parrot’a ait 146 video da yer alıyor. Ünlü kuşun güvenliğini tehlikeye atma korkusuyla soyadını kullanmak istemeyen Afrika gri papağanının bakıcısı Marcia, ilk başta yapay zeka modellerinin taklit eden bir papağanın kelimelerini yuttuğunu öğrenmenin komik olduğunu düşündüğünü söyledi.
Marcia, “Kim bir papağanın sesini kullanmak ister ki? Ama sonra, onun çok iyi konuştuğunu biliyorum. Benim sesimle konuşuyor. Yani o beni papağan gibi tekrarlıyor ve sonra AI papağanı papağan gibi tekrarlıyor” dedi.
Bir kez yapay zeka tarafından sindirildiğinde, veriler öğrenilmediği takdirde geri alınamaz. Marcia, kuşunun bilgilerinin dijital bir papağan kopyası yaratmak ve onu lanetlemek de dahil olmak üzere, bilinmeyen tüm şekillerde kullanılabileceği konusunda endişeliydi.
Marcia, “Bilinmeyen bir bölgede yol alıyoruz” dedi.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.