Devin’in tanıtımı, yazılım ürünlerinin geliştirilmesinde insan programcılar için uzun vadeli destek vaadiyle birlikte geliyor. Ancak, yapay zeka asistanının gerçek yıldızı üretken yetenekleri değil.
Uygulamalı yapay zeka araştırmalarında uzmanlaşan ABD merkezli yapay zeka girişimi Cognition AI, insan geliştiricilerle işbirliği yapabilmenin yanı sıra görevleri bağımsız olarak yerine getirebilen ve incelemeye sunabilen bir yapay zeka yazılım geliştiricisi olan Devin’i tanıttı. Cognition’a göre Devin, yazılım sorunlarını çözmeye yönelik bir kıyaslamada mevcut dil modellerinden kat kat daha iyi performans gösterecek şekilde tasarlandı.
Devin, kaynak kodu az olan yeni ve bilinmeyen kütüphaneleri idare edebilir, eksiksiz uygulamaları programlayabilir, kod tabanlarındaki hataları bulabilir ve açık kaynak depolarındaki hata raporlarını ve özellik taleplerini işleyebilir. Şirket ayrıca Devin’in sürekli öğrenmek, performansını artırmak ve yeni zorluklara uyum sağlamak için makine öğrenimi algoritmalarını kullandığını belirtti.
Cognition’a göre Devin, binlerce karar alınmasını gerektiren karmaşık geliştirme projelerini yürütmesini sağlayan uzun vadeli planlama ve karar verme yeteneklerine sahiptir. Devin ayrıca zaman içinde öğrenme ve hatalarını düzeltme yeteneğine de sahiptir. İzole bir bilgisayar ortamında kabuk, kod editörü ve tarayıcı gibi yaygın geliştirme araçlarıyla donatılan Devin, kullanıcılarla aktif olarak işbirliği yapabilir, ilerlemeyi gerçek zamanlı olarak raporlayabilir, geri bildirim kabul edebilir ve gerektiğinde tasarım kararları üzerinde işbirliği yapabilir.
GPT-4’e göre önemli ölçüde daha iyi kıyaslama sonuçları
Devin, yapay zeka ajanlarından Django ve scikit-learn gibi açık kaynaklı projelerdeki gerçek dünya GitHub sorunlarını çözmelerini isteyen bir kıyaslama olan SWE-bench’e karşı test edildi. Devin’in yüzde 13,86’lık çözüm oranı olağanüstü olmasa da, GPT-4 de dahil olmak üzere bu kıyaslamada test edilen diğer dil modellerinden önemli ölçüde daha iyi. Bununla birlikte, kıyaslama henüz Claude 3 veya GPT-4 Turbo gibi yeni modelleri dikkate almamaktadır.
Devin henüz halka açık değil, ancak deneyimlerini X (eski adıyla Twitter) ve başka yerlerde paylaşan seçilmiş geliştiricilere bir bekleme listesi aracılığıyla sunuldu. Cognition teknik arka plan hakkında çok az bilgi vermiştir, bu nedenle tam yazılım mimarisi veya kullanılan yapay zeka modelleri gibi önemli sorular cevapsız kalmaktadır.
Devin, GPT-4 Turbo veya Claude 3’e dayanıyor olabilir ve arka planda çalışan çok sayıda YZ aracısına sahip olabilir. Bu tür bir otomasyon GPT 3.5’te zaten mevcuttu. Bununla birlikte, Cognition konsepti dikkatlice çalışmış ve kullanıcı dostu bir arayüze çok önem vermiş gibi görünüyor.
İlk saha raporları umut verici
İlk testçilerden biri, Devin’i çeşitli gerçekçi görevlerle test eden bilgisayar bilimleri öğrencisi Andrew Kean Gao. Deneylerinden birinde Devin, bir GitHub deposunun tüm kodunu bir metin dosyasında özetleyen çalışan bir Chrome uzantısı geliştirdi.
Çok daha karmaşık bir görevde, bir dil modeline karşı yarıştığınız bir satranç oyunu geliştiren Devin, kayda değer bir ilerleme kaydetti, ancak bir noktada takıldı. Devin’den Antarktika’daki sıcaklık verilerini zaman içinde görselleştirmesinin istendiği bir başka görev, yapay zeka tarafından tatmin edici bir şekilde tamamlanmadı, ancak en azından doğrudan Netlify’de bir web sitesi yayınlandı.
Öğrenci Gao, Devin’in odak noktasının UI/UX olduğu ve öncelikli olarak üretken yapay zeka olmadığı sonucuna varıyor. Ürünün yıldızının yapay zekanın kendisi değil, onu çevreleyen altyapı olduğunu söylüyor. “Netlify’a otomatik dağıtım, api anahtar koruması, kesintiye uğramadan kesintiye uğratmanın akıllı yolu, *insanlara göre uyarlanmış* ve LLM ile insan geliştirme arasında köprü kuran iyi bir kullanıcı arayüzü, zamanda geriye doğru hareket etmek için kaydırıcı gibi şeyler geliştirdiler” diye yazıyor.
Az parayla büyük vaatler
Founders Fund tarafından yönetilen girişim kısa bir süre önce 21 milyon dolarlık A Serisi finansman turunu tamamladı ve Patrick ve John Collison (Stripe’ın kurucu ortakları), Elad Gil, Sarah Guo, Chris Re (Stanford profesörü), Eric Glyman (Ramp’ın kurucu ortağı) ve diğerleri gibi kişilerin yardımına güvenebilir. Bu miktar Cohere, Mistral ya da Perplexity gibi girişimlerle karşılaştırıldığında nispeten küçük görünüyor.
Cognition, X-bio’sunda “Biz muhakeme üzerine odaklanmış uygulamalı bir Al laboratuvarıyız ve kod sadece bir başlangıç” diyor. Cognition, yapay zekanın muhakeme yeteneğini geliştirerek çeşitli disiplinlerde yeni olanaklar yaratabileceğine ve dünyanın dört bir yanındaki insanların fikirlerini gerçeğe dönüştürmelerine yardımcı olabileceğine inanıyor.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.