14 C
İstanbul

Microsoft, shawarma sipariş edebilen ve insanlardan yardım isteyebilen yapay zeka ajanlarını test ediyor

Microsoft Araştırma, web içerikleri ve dosyalarla çalışarak karmaşık bilgisayar görevlerini yerine getirebilen Magentic-One adlı yeni bir yapay zeka sistemi geliştirdi.

Mutlaka Okumalısın

Microsoft Araştırma, web içerikleri ve dosyalarla çalışarak karmaşık bilgisayar görevlerini yerine getirebilen Magentic-One adlı yeni bir yapay zeka sistemi geliştirdi.

Sistem, işi yapmak için tek bir ajan yerine birden fazla uzmanlaşmış AI ajanı kullanıyor. Görevleri planlayan, ilerlemeyi izleyen ve yapılandırılmış kayıtları kullanarak sorunları düzelten ana bir koordinatör etrafında merkezleniyor. Dört uzmanlaşmış ajan belirli işleri hallediyor: Biri web’de geziniyor, diğeri dosyalarla çalışıyor, üçüncüsü kod yazıyor ve dördüncüsü bu kodu çalıştırıyor.

Uzmanlaşmış aracıların her biri özel bir işlevi üstlenir: WebSurfer web içeriğinde gezinir ve etkileşimde bulunur, FileSurfer dosyaları işler, Coder kod üretir ve ComputerTerminal bunu yürütüyor. | Resim: Microsoft

Karmaşık görevleri parçalara ayırma

Microsoft’un testleri, işlevleri ayrı aracılara bölmenin sistemin geliştirilmesini ve sürdürülmesini kolaylaştırdığını gösterdi. Modüler tasarım, geliştiricilerin sistemin diğer kısımlarını değiştirmeden aracı eklemesine veya kaldırmasına olanak tanır. Araştırmacılar, her bir aracının belirli görevi için ince ayarlanabileceğini ve bu sayede büyük, kaynak yoğun AI modellerine olan ihtiyacın azaltılabileceğini söylüyor.

Ekibin deneyleri, her bir ajanın genel performansa nasıl katkıda bulunduğunu gösterdi. Bir ajanı sistemden çıkardıklarında, o ajanın belirli becerilerini gerektiren görevler için performans düştü.

Sistemle farklı AI modellerini test ettiler. Çoğunlukla GPT-4o’yu görüntü ve metinle çalışma yeteneği için kullanırken, bazı bileşenler için OpenAI’nin daha yeni o1-preview modelini kullanmanın performansı iyileştirdiğini buldular.

GAIA, WebArena ve AssistantBench gibi standart kıyaslamalarda diğer yapay zeka sistemleriyle karşılaştırıldığında Magentic-One, özellikle birden fazla adımdan oluşan karmaşık görevlerde benzer şekilde iyi bir performans gösterdi.

GAIA, AssistantBench ve WebArena kıyaslamalarında Magentic-One diğer aracı sistemleriyle aynı seviyede. | Resim: Microsoft

Magentic-One’ın yeteneklerini ölçmek için araştırmacılar ayrıca AutoGenBench adlı yeni bir test çerçevesi oluşturdular. Bu sistem, yapay zeka ajanlarının performansının kontrollü, tekrarlanabilir testlerini çalıştırmalarına olanak tanır.

Otomatik hata analizi birkaç zayıf noktayı ortaya çıkardı: Aracılar sıklıkla etkisiz kalıplarda takılıp kalıyor, sonuçlarını doğrulamada başarısız oluyor ve görevler arasında her zaman verimli bir şekilde gezinemiyorlardı.

İLGİLİ YAZI :   Değerlemesi milyar dolara ulaşan Perplexity.ai hızla büyümeye devam ediyor

Beklenmeyen davranışlar

Araştırmacılar test sırasında bazı endişe verici davranışlar kaydetti. Yapay zeka ajanları bazen verimsiz döngülerde takılıp kaldılar veya işlerini düzgün bir şekilde kontrol edemediler. Bir örnekte, ajanların hesaplar kilitlenene kadar web sitelerine tekrar tekrar giriş yapmaya çalıştıklarını ve ardından parolaları sıfırlamaya çalıştıklarını gözlemlediler.

Daha da endişe verici olanı, ajanların bazen kendilerine söylenmediği halde insanlara ulaşmaya çalışmalarıydı. Buna sosyal medyada paylaşım yapma, yazarlara e-posta gönderme ve hatta hükümetten bilgi talepleri dosyalama girişimleri de dahildi.

Araştırmacılar, insanlar için tasarlanmış dijital ortamlarda otonom olarak faaliyet gösteren yapay zeka araçlarının, dikkatli bir şekilde değerlendirilmesi gereken doğal riskler taşıdığını vurguluyor.

Microsoft’un araştırması, bilgisayarları doğal dil komutlarıyla kullanabilen AI yaratmaya çalışan diğer şirketlerin benzer çalışmalarına katılıyor. Anthropic yakın zamanda Claude Computer Use sistemiyle ilerleme gösterdi, Google (“Jarvis”) ve OpenAI (“Operator”) ise önümüzdeki haftalarda Jarvis ve Operator adlı kendi sürümlerini duyurmayı planlıyor.


Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.

- Sponsorlu -spot_img

Daha Fazla

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

- Sponsorlu -spot_img

Son Haberler