Anthropic, geliştirilmiş Claude 3.5 Sonnet ve yeni Claude 3.5 Haiku dahil olmak üzere Claude AI modellerine yönelik yükseltmeleri duyurdu. Şirket ayrıca modelin doğrudan bilgisayar arayüzleriyle etkileşime girmesine olanak tanıyan yeni bir özellik de sunuyor.
Güncellenen Claude 3.5 Sonnet, programlama görevlerinde önemli iyileştirmeler gösteriyor. SWE Bench Verified Test’teki performansı %33,4’ten %49,0’a yükseldi ve Anthropic, uzmanlaşmış programlama sistemleri de dahil olmak üzere tüm kamuya açık modelleri geride bıraktığını iddia ediyor.
Sonnet ayrıca, aracı araç kullanımı için bir test olan TAU Bench’te de ilerleme kaydetti. Perakende sektöründe performansı %62,6’dan %69,2’ye yükselirken, daha zorlu havacılık sektöründe %36,0’dan %46,0’a yükseldi.
Yeni Haiku modeli önceki amiral gemisini geride bırakıyor
Anthropic ayrıca yeni bir Claude 3.5 Haiku modeli tanıtıyor. Şirket, bu modelin önceki en üst düzey Claude 3 Opus’u birçok kıyaslamada geride bıraktığını, ancak önceki Claude 3 Haiku ile benzer hız ve maliyeti koruduğunu iddia ediyor. Anthropic’in bu duyuruda yeni bir Opus modeli için herhangi bir plandan bahsetmemesi dikkat çekici.
Yeni Claude 3.5 Haiku, programlama görevlerinde hızına ve maliyetine göre etkileyici yetenekler sergiliyor. Anthropic’in “kamuya açık son teknoloji modellere” dayalı birçok ajanın performansını aştığını söylediği SWE-bench Verified testinde %40,6 puan alıyor, buna GPT-4o da dahil.
Bilgi kesinti tarihlerine gelince, Sonnet 3.5 Nisan 2024’e kadar güncelliğini korurken, yeni Haiku modeli Temmuz 2024’e kadar bilgi içeriyor. Anthropic, Haiku’yu bu ayın sonlarına doğru yayınlamayı planlıyor.
Yapay zeka destekli bilgisayar etkileşimi
Anthropic, yeni “bilgisayar kullanımı” özelliğini önemli bir yenilik olarak tanımlıyor. Şirket, bireysel görevler için belirli araçlar geliştirmek yerine, Claude’a genel bilgisayar becerileri öğreterek daha geniş bir yaklaşım sergiliyor. Bu, yapay zekanın başlangıçta insan kullanımı için tasarlanmış çeşitli standart araçları ve yazılım programlarını kullanmasına olanak tanıyor.
Anthropic, Claude’un bilgisayar arayüzlerini algılamasını ve onlarla etkileşim kurmasını sağlayan bir API geliştirdi. Geliştiriciler, Claude’un “Bu formu doldurmak için bilgisayarımdaki ve internetten veri kullan” gibi talimatları gerçek bilgisayar komutlarına çevirmesine olanak sağlamak için bu API’yi entegre edebilirler.
Sistem fare işaretçisini hareket ettirebilir, ekran öğelerine tıklayabilir ve sanal klavye kullanarak bilgi girebilir. AI modellerinin bilgisayarları insan benzeri bir şekilde kullanma yeteneğini değerlendiren OSWorld kıyaslamasında Claude 3.5 Sonnet “sadece ekran görüntüleri” kategorisinde %14,9 puan aldı. Bu, bir sonraki en iyi AI sisteminden önemli ölçüde yüksek olsa da, %7,8’lik bir puanla yine de insan yeteneklerinin çok gerisinde kalıyor.
Anthropic, Claude’un mevcut bilgisayar etkileşim becerilerinin kusurlu olduğunu kabul ediyor. İnsanların zahmetsiz bulduğu bazı eylemler, örneğin kaydırma, sürükleme veya yakınlaştırma, Claude için hala zorlayıcı. Şirket, geliştiricilerin bu özelliği uygularken düşük riskli görevlerle başlamalarını öneriyor.
Kaynak: The Decoder
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.