Google ve MIT araştırmacıları Synclr'ı tanıttı

Ham ve sıklıkla etiketlenmemiş veriler, temsil öğrenimi kullanılarak alınabilir ve düzenlenebilir. Modelin iyi bir temsil geliştirme yeteneği, verilerin miktarına, kalitesine ve çeşitliliğine bağlıdır. Bunu yaparken model, verinin doğasında var olan kolektif zekayı yansıtır. Çıktı, girdiyle doğru orantılıdır. Şaşırtıcı olmayan bir şekilde, günümüzde en etkili görsel temsil öğrenme algoritmaları devasa gerçek dünya veri kümelerine dayanmaktadır. Bu arada gerçek veri toplamanın da kendine özgü zorlukları vardır. Çok büyük miktarlarda filtrelenmemiş veri toplamak pahalı olmadığı için uygulanabilir. Filtrelenmemiş verilerin eklenmesi, büyük veri ölçeklerinde daha az etkiye sahiptir ve bu yaklaşım kullanılarak kendi kendine denetimli temsil öğrenimi için zayıf ölçekleme davranışına işaret eder. Daha küçük ölçekte düzenlenmiş veri toplamak da mümkündür, ancak bu yöntem kullanılarak eğitilen modeller yalnızca çok özel işlerin üstesinden gelebilir.

Mali yükü azaltmak için Google Research ve MIT CSAIL tarafından yapılan yeni araştırma, piyasada bulunan üretici modellerden türetilen sentetik veriler kullanılarak son teknoloji görsel temsilleri eğitebilecek büyük ölçekli seçilmiş veri kümelerinin elde edilip edilemeyeceğini araştırıyor. Modellerden öğrenme, doğrudan verilerden öğrenmeden farklı olan bu yaklaşımı tanımlamaktadır. Ekip, önerilen yöntemde verileri düzenlemek için modellerin gizli değişkenleri, koşullu değişkenleri ve hiperparametreleri tarafından sağlanan yeni kontrollerden yararlanıyor; bu da modelleri büyük ölçekli eğitim setleri oluşturmak için bir veri kaynağı olarak kullanmanın sayısız avantajından biri. Modeller verilere göre daha az hacimli olduğundan depolanmaları ve paylaşılmaları daha kolaydır. Dahası, modeller sınırlı değişkenliğe sahip olsa da sonsuz veri örneği oluşturabilir.

Bu çalışmada araştırmacılar, üretici modeller kullanarak görsel sınıflardaki ayrıntı düzeyini yeniden düşünmektedir. Örneğin, aşağıdaki komutların dört resmini düşünün: “Sevimli bir golden retriever suşiden yapılmış bir evde oturuyor” ve “Güneş gözlüğü ve plaj şapkası takan bir golden retriever bisiklete biniyor.” SimCLR gibi geleneksel öz denetimli yöntemler, aynı anlambilimi açıkça göz önünde bulundurmadan çeşitli görüntülerin katıştırmalarını ayırarak her görüntüyü ayrı bir sınıf olarak ele alacaktır. Ancak, denetimli öğrenme algoritmaları (SupCE gibi) tüm bu resimleri aynı sınıfa (“golden retriever” gibi) ait olarak ele alacaktır.

İLGİLİ YAZI : Apple, Nvidia ve Anthropic yapay zekayı eğitmek için binlerce YouTube videosu kullandı

Belirli bir resim yazısı tarafından tanımlanan birden fazla görüntüyü toplamak, özellikle de resim yazısı sayısını artırırken önemsiz olmadığından, bu ayrıntı düzeyini gerçek verilerde çıkarmak zordur. Öte yandan, bu özellik metinden görüntüye difüzyon modellerine özgüdür; eğitim seti olarak aynı resim yazısı ve değişen gürültü girdileriyle, bu modeller resim yazısıyla tam olarak eşleşen birçok görüntü üretebilir.

Çalışmanın bulguları, SimCLR ve denetimli eğitimle karşılaştırıldığında, başlık seviyesindeki ayrıntı düzeyinin daha üstün olduğunu göstermektedir. Bu görsel sınıf tanımının kolayca genişletilebilir olması da ek bir avantajdır. Çevrimiçi sınıf (veya veri) artırımı, sabit sayıda sınıfın kullanıldığı ImageNet-1k/21k’nın aksine, varsayımsal olarak sınırsız sınıfa kadar ölçeklendirmeye olanak tanır. Önerilen sistemin üç aşaması vardır:

Büyük bir resim altyazısı koleksiyonunun sentezlenmesi ilk aşamadır. Ekip, kelimeden altyazıya çeviri örneklerini kullanarak, büyük dil modellerinin (LLM’ler) bağlam içi öğrenme kapasitesinden yararlanan ölçeklenebilir bir yöntem geliştirdi.
Bir sonraki adım, metinden görüntüye difüzyon modeli kullanarak çok sayıda sentetik görüntü ve altyazı oluşturmaktır. Bu şekilde 600 milyon fotoğraftan oluşan bir veri kümesi oluşturulmuştur.
Son olarak, maskeli görüntü modelleme ve çoklu pozitif kontrastlı öğrenme kullanarak görsel temsiller için modeller eğitiyorlar.

Araştırmacılar, ImageNet-1K üzerinde ilk 1 doğrusal problama doğruluğuna ilişkin OpenAI’nin CLIP’ını, her ikisi de SynCLR ön eğitimiyle eğitilen ViT-B modeliyle %80,7 ve ViT-L modeliyle %83,0 oranında karşılaştırmaktadır. İnce taneli sınıflandırma görevlerinde SynCLR, önceden eğitilmiş bir ViT-g modelinden türetilen DINO v2 modelleriyle karşılaştırılabilir sonuçlar elde ederek ViT-B için CLIP’i %3,3 ve ViT-L’yi %1,5 oranında geçmiştir. ADE20k üzerinde anlamsal segmentasyon ile ilgili olarak SynCLR, ImageNet üzerinde önceden eğitilmiş MAE’yi aynı kurulumda ViT-B ve ViT-L için sırasıyla 6,2 ve 4,1 mIoU ile geçmektedir. Bu, SynCLR’nin, 518×518 çözünürlüklü görüntüler üzerinde eğitim gerektiren DINO v2 gibi yoğun tahmin görevlerine güçlü bir aktarım kapasitesine sahip olduğunu göstermektedir – SynCLR’nin sahip olmadığı bir şey.

İLGİLİ YAZI : Amazon, yeni, üretken yapay zeka destekli sohbete dayalı alışveriş deneyimi Rufus'u duyurdu

Ekip, başlık setlerini iyileştirmenin çeşitli yolları olduğunu vurgulamaktadır. Örneğin, daha sofistike LLM’ler kullanıyorlar, farklı kavramlar arasındaki örnek oranlarını iyileştiriyorlar ve bağlam içi örnekler kütüphanesini genişletiyorlar. Öğrenme sürecini iyileştirmenin bir yolu, daha büyük bir modelden bilgi çıkardıktan sonra yüksek çözünürlüklü bir eğitim aşaması veya bir ara IN-21k ince ayar aşaması eklemektir. Ayrıca, SwiGLU ve LayerScale entegrasyonu ile birlikte, daha iyi model başlatma prosedürlerinin mimari faydalar sağlayabileceğini öne sürmektedirler. Bununla birlikte, sınırlı kaynaklar ve mümkün olan en yüksek metrikleri elde etmeyi amaçlamayan bu makalenin sınırlamaları nedeniyle bu alanları gelecekteki araştırmalar için önermektedirler.

Kaynak: Dhanshree Shripad Shenwai / Marktech Post

Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, Twitter, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.

Google ve MIT araştırmacıları Synclr’ı tanıttı

Mutlaka Okumalısın

Cohere, 5,5 milyar dolarlık değerlemeyle 500 milyon dolar topladı

Çinli şirketler ölen sevdiklerini yapay zeka avatarlarıyla ‘diriltmeyi’ teklif ediyor

Streetscapes AI, sıfırdan tüm şehirlerin inanılmaz derecede gerçekçi Sokak Görünümü sahnelerini oluşturuyor

‘Yapay zeka arama motorları demokrasiye geri dönülemez şekilde zarar verebilir’

Daha Fazla

CEVAP VER İptal

Son Haberler

Cohere, 5,5 milyar dolarlık değerlemeyle 500 milyon dolar topladı

Çinli şirketler ölen sevdiklerini yapay zeka avatarlarıyla ‘diriltmeyi’ teklif ediyor

Streetscapes AI, sıfırdan tüm şehirlerin inanılmaz derecede gerçekçi Sokak Görünümü sahnelerini oluşturuyor

‘Yapay zeka arama motorları demokrasiye geri dönülemez şekilde zarar verebilir’

Mistral, matematik, kod ve genel görevler için üç yeni LLM programı yayınladı

Popüler

Kurumsal

Son Yorumlar

Son Yazılar

Cohere, 5,5 milyar dolarlık değerlemeyle 500 milyon dolar topladı

Çinli şirketler ölen sevdiklerini yapay zeka avatarlarıyla ‘diriltmeyi’ teklif ediyor