13.6 C
İstanbul

Anthropic, bilgisayar becerilerine sahip daha akıllı Claude modelleri piyasaya sürdü

Anthropic, AI modelleri Claude 3.5 Sonnet ve Claude 3.5 Haiku'nun geliştirilmiş sürümlerini sunuyor. Her iki model de özellikle programlama görevlerinde önemli performans iyileştirmeleri elde etti.

Mutlaka Okumalısın

Anthropic, geliştirilmiş Claude 3.5 Sonnet ve yeni Claude 3.5 Haiku dahil olmak üzere Claude AI modellerine yönelik yükseltmeleri duyurdu. Şirket ayrıca modelin doğrudan bilgisayar arayüzleriyle etkileşime girmesine olanak tanıyan yeni bir özellik de sunuyor.

Güncellenen Claude 3.5 Sonnet, programlama görevlerinde önemli iyileştirmeler gösteriyor. SWE Bench Verified Test’teki performansı %33,4’ten %49,0’a yükseldi ve Anthropic, uzmanlaşmış programlama sistemleri de dahil olmak üzere tüm kamuya açık modelleri geride bıraktığını iddia ediyor.

Sonnet ayrıca, aracı araç kullanımı için bir test olan TAU Bench’te de ilerleme kaydetti. Perakende sektöründe performansı %62,6’dan %69,2’ye yükselirken, daha zorlu havacılık sektöründe %36,0’dan %46,0’a yükseldi.

Yeni sone, akıl yürütme ve etken araç testinde en büyük sıçramaları yapıyor.

Yeni Haiku modeli önceki amiral gemisini geride bırakıyor

Anthropic ayrıca yeni bir Claude 3.5 Haiku modeli tanıtıyor. Şirket, bu modelin önceki en üst düzey Claude 3 Opus’u birçok kıyaslamada geride bıraktığını, ancak önceki Claude 3 Haiku ile benzer hız ve maliyeti koruduğunu iddia ediyor. Anthropic’in bu duyuruda yeni bir Opus modeli için herhangi bir plandan bahsetmemesi dikkat çekici.

Yeni Claude 3.5 Sonnet modeli, özellikle mantıksal akıl yürütme, matematiksel problem çözme ve programlama görevlerinde gelişmiş performans göstermektedir. Genel dil anlama ölçütü MMLU’da, eski Sonnet 3.5’ten yalnızca biraz öndedir.

Yeni Claude 3.5 Haiku, programlama görevlerinde hızına ve maliyetine göre etkileyici yetenekler sergiliyor. Anthropic’in “kamuya açık son teknoloji modellere” dayalı birçok ajanın performansını aştığını söylediği SWE-bench Verified testinde %40,6 puan alıyor, buna GPT-4o da dahil.

Bilgi kesinti tarihlerine gelince, Sonnet 3.5 Nisan 2024’e kadar güncelliğini korurken, yeni Haiku modeli Temmuz 2024’e kadar bilgi içeriyor. Anthropic, Haiku’yu bu ayın sonlarına doğru yayınlamayı planlıyor.

Yapay zeka destekli bilgisayar etkileşimi

Anthropic, yeni “bilgisayar kullanımı” özelliğini önemli bir yenilik olarak tanımlıyor. Şirket, bireysel görevler için belirli araçlar geliştirmek yerine, Claude’a genel bilgisayar becerileri öğreterek daha geniş bir yaklaşım sergiliyor. Bu, yapay zekanın başlangıçta insan kullanımı için tasarlanmış çeşitli standart araçları ve yazılım programlarını kullanmasına olanak tanıyor.

İLGİLİ YAZI :   Medium, yapay zeka tarafından üretilen içeriği ücretli İş Ortağı Programında yasakladı

Anthropic, Claude’un bilgisayar arayüzlerini algılamasını ve onlarla etkileşim kurmasını sağlayan bir API geliştirdi. Geliştiriciler, Claude’un “Bu formu doldurmak için bilgisayarımdaki ve internetten veri kullan” gibi talimatları gerçek bilgisayar komutlarına çevirmesine olanak sağlamak için bu API’yi entegre edebilirler.

Sistem fare işaretçisini hareket ettirebilir, ekran öğelerine tıklayabilir ve sanal klavye kullanarak bilgi girebilir. AI modellerinin bilgisayarları insan benzeri bir şekilde kullanma yeteneğini değerlendiren OSWorld kıyaslamasında Claude 3.5 Sonnet “sadece ekran görüntüleri” kategorisinde %14,9 puan aldı. Bu, bir sonraki en iyi AI sisteminden önemli ölçüde yüksek olsa da, %7,8’lik bir puanla yine de insan yeteneklerinin çok gerisinde kalıyor.

Anthropic, Claude’un mevcut bilgisayar etkileşim becerilerinin kusurlu olduğunu kabul ediyor. İnsanların zahmetsiz bulduğu bazı eylemler, örneğin kaydırma, sürükleme veya yakınlaştırma, Claude için hala zorlayıcı. Şirket, geliştiricilerin bu özelliği uygularken düşük riskli görevlerle başlamalarını öneriyor.

Kaynak: The Decoder


Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.

- Sponsorlu -spot_img

Daha Fazla

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

- Sponsorlu -spot_img

Son Haberler