Robotikten tıbba ve siyaset bilimine kadar uzanan alanlar, AI sistemlerini her türden anlamlı kararlar almaları için eğitmeye çalışıyor. Örneğin, yoğun bir şehirde trafiği akıllıca kontrol etmek için bir AI sistemi kullanmak, sürücülerin varış noktalarına daha hızlı ulaşmalarına yardımcı olurken güvenliği veya sürdürülebilirliği de artırabilir.
Ne yazık ki, bir yapay zeka sistemine iyi kararlar vermeyi öğretmek kolay bir iş değil.
Bu AI karar alma sistemlerinin temelini oluşturan takviyeli öğrenme modelleri, eğitildikleri görevlerde küçük değişikliklerle bile karşılaştıklarında sıklıkla başarısız olurlar. Trafik durumunda, bir model farklı hız sınırlarına, şerit sayılarına veya trafik düzenlerine sahip bir dizi kavşağı kontrol etmekte zorlanabilir.
Karmaşık ve değişken görevler için takviyeli öğrenme modellerinin güvenilirliğini artırmak amacıyla MIT araştırmacıları, bu modelleri eğitmek için daha verimli bir algoritma tanıttılar.
Algoritma, bir AI aracısını eğitmek için en iyi görevleri stratejik olarak seçer, böylece ilgili görevler koleksiyonundaki tüm görevleri etkili bir şekilde gerçekleştirebilir. Trafik sinyali kontrolü durumunda, her görev, şehirdeki tüm kavşakları içeren bir görev alanındaki bir kavşak olabilir.
Bu yöntem, algoritmanın genel etkinliğine en fazla katkıda bulunan daha az sayıda kesişime odaklanarak, eğitim maliyetini düşük tutarken performansı en üst düzeye çıkarır.
Araştırmacılar, tekniklerinin bir dizi simüle edilmiş görevde standart yaklaşımlardan beş ila 50 kat daha etkili olduğunu buldular. Verimlilikteki bu artış, algoritmanın daha hızlı bir şekilde daha iyi bir çözüm öğrenmesine yardımcı olur ve sonuç olarak AI aracısının performansını iyileştirir.
“Kalıpların dışına çıkarak çok basit bir algoritma ile inanılmaz performans iyileştirmeleri görebildik. Çok karmaşık olmayan bir algoritmanın, uygulanması ve başkalarının anlaması daha kolay olduğu için topluluk tarafından benimsenme şansı daha yüksektir,” diyor kıdemli yazar Cathy Wu, İnşaat ve Çevre Mühendisliği (CEE) ve Veri, Sistemler ve Toplum Enstitüsü’nde (IDSS) Thomas D. ve Virginia W. Cabot Kariyer Geliştirme Doçenti ve Bilgi ve Karar Sistemleri Laboratuvarı (LIDS) üyesi.
Makalede baş yazar Jung-Hoon Cho, CEE lisansüstü öğrencisi; Vindula Jayawardana, Elektrik Mühendisliği ve Bilgisayar Bilimi Bölümü’nde (EECS) lisansüstü öğrencisi; ve Sirui Li, IDSS lisansüstü öğrencisi yer alıyor. Araştırma, Sinirsel Bilgi İşleme Sistemleri Konferansı’nda sunulacak.
Orta yolu bulmak
Bir şehirdeki birçok kavşaktaki trafik ışıklarını kontrol etmek için bir algoritma eğitmek için, bir mühendis genellikle iki ana yaklaşım arasında seçim yapar. Her kavşak için yalnızca o kavşağın verilerini kullanarak bağımsız olarak bir algoritma eğitebilir veya tüm kavşaklardan gelen verileri kullanarak daha büyük bir algoritma eğitebilir ve sonra her birine uygulayabilir.
Ancak her yaklaşımın kendine özgü dezavantajları vardır. Her görev için ayrı bir algoritma eğitmek (örneğin belirli bir kesişim noktası) çok miktarda veri ve hesaplama gerektiren zaman alıcı bir işlemdir; tüm görevler için tek bir algoritma eğitmek ise genellikle vasat altı performansa yol açar.
Wu ve işbirlikçileri bu iki yaklaşım arasında uygun bir nokta bulmaya çalıştılar.
Yöntemleri için, görevlerin bir alt kümesini seçerler ve her görev için bağımsız olarak bir algoritma eğitirler. Daha da önemlisi, algoritmanın tüm görevlerdeki genel performansını iyileştirme olasılığı en yüksek olan bireysel görevleri stratejik olarak seçerler.
Takviyeli öğrenme alanından sıfır atışlı transfer öğrenimi adı verilen yaygın bir numaradan yararlanırlar; burada önceden eğitilmiş bir model, daha fazla eğitilmeden yeni bir göreve uygulanır. Transfer öğrenimiyle, model genellikle yeni komşu görevde dikkate değer bir performans gösterir.
Wu, “Tüm görevler üzerinde eğitim almanın ideal olacağını biliyoruz, ancak bu görevlerin bir alt kümesi üzerinde eğitim vererek, sonucu tüm görevlere uygulayarak yine de bir performans artışı görüp göremeyeceğimizi merak ettik” diyor.
Araştırmacılar, beklenen performansı en üst düzeye çıkarmak için hangi görevleri seçmeleri gerektiğini belirlemek amacıyla Model Tabanlı Transfer Öğrenme (MBTL) adı verilen bir algoritma geliştirdiler.
MBTL algoritması iki parçadan oluşur. Birincisi, her algoritmanın bir görevde bağımsız olarak eğitilmesi durumunda ne kadar iyi performans göstereceğini modeller. Sonra, her algoritmanın performansının, diğer görevlere aktarıldığında ne kadar düşeceğini modeller, bu kavram genelleme performansı olarak bilinir.
Genelleme performansının açıkça modellenmesi, MBTL’nin yeni bir görevdeki eğitimin değerini tahmin etmesini sağlar.
MBTL bunu sırayla yapar; önce en yüksek performans artışını sağlayan görevi seçer, ardından genel performansta en büyük marjinal iyileştirmeleri sağlayan ek görevleri seçer.
MBTL yalnızca en umut verici görevlere odaklandığından, eğitim sürecinin verimliliğini önemli ölçüde artırabilir.
Eğitim maliyetlerinin azaltılması
Araştırmacılar bu tekniği trafik sinyallerini kontrol etme, gerçek zamanlı hız uyarılarını yönetme ve birkaç klasik kontrol görevini yürütme gibi simüle edilmiş görevlerde test ettiklerinde, diğer yöntemlere göre beş ila 50 kat daha verimli olduğu görüldü.
Bu, çok daha az veri üzerinde eğitim alarak aynı çözüme ulaşabilecekleri anlamına gelir. Örneğin, 50 kat verimlilik artışıyla MBTL algoritması yalnızca iki görev üzerinde eğitim alabilir ve 100 görevden veri kullanan standart bir yöntemle aynı performansı elde edebilir.
Wu, “İki ana yaklaşımın perspektifinden bakıldığında, bu, diğer 98 görevden gelen verilerin gerekli olmadığı veya 100 görevin hepsinde eğitimin algoritma için kafa karıştırıcı olduğu ve bu nedenle performansın bizimkinden daha kötü olduğu anlamına geliyor” diyor.
MBTL ile az miktarda bile olsa ek eğitim süresi eklemek çok daha iyi bir performansa yol açabilir.
Araştırmacılar gelecekte, yüksek boyutlu görev alanları gibi daha karmaşık sorunlara kadar uzanabilen MBTL algoritmaları tasarlamayı planlıyorlar. Ayrıca, yaklaşımlarını gerçek dünya sorunlarına, özellikle yeni nesil mobilite sistemlerine uygulamaya ilgi duyuyorlar.
Araştırmanın finansmanı kısmen Ulusal Bilim Vakfı KARİYER Ödülü, Kwanjeong Eğitim Vakfı Doktora Bursu Programı ve Amazon Robotik Doktora Bursu tarafından sağlanıyor.
Kaynak: MIT