22.5 C
İstanbul

Patronus AI Lynx’i tanıttı

Patronus AI'ın tanıttığı Lynx'i RAG halüsinasyon görevlerinde GPT-4o ve tüm son teknoloji LLM'lerden daha iyi performans gösteren bir SOTA halüsinasyon tespit LLM'si...

Mutlaka Okumalısın

Patronus AI Lynx‘in piyasaya sürüldüğünü duyurdu. Bu son teknoloji halüsinasyon tespit modeli, GPT-4, Claude-3-Sonnet ve kapalı ve açık kaynak ortamlarında jüri olarak kullanılan diğer modeller gibi mevcut çözümlerden daha iyi performans göstermeyi vaat ediyor. Yapay zekada önemli bir ilerlemeye işaret eden bu çığır açan model, Nvidia, MongoDB ve Nomic gibi önemli entegrasyon ortaklarının desteğiyle tanıtıldı.

Büyük dil modellerinde (LLM’ler) halüsinasyon, desteklenmeyen ya da sağlanan bağlamla çelişen bilgiler üretmek anlamına gelir. Bu durum, tıbbi teşhis veya finansal danışmanlık gibi doğruluğun çok önemli olduğu uygulamalarda ciddi riskler oluşturuyor. Retrieval Augmented Generation (RAG) gibi geleneksel teknikler bu halüsinasyonları azaltmayı amaçlasa da her zaman başarılı olamıyor. Lynx bu eksiklikleri benzeri görülmemiş bir doğrulukla gideriyor.

Lynx’in en önemli farklarından biri, çeşitli gerçek dünya alanlarından 15.000 örnekten oluşan kapsamlı bir halüsinasyon değerlendirme ölçütü olan HaluBench’teki performansıdır. Lynx, tıp ve finans dahil olmak üzere çeşitli alanlarda halüsinasyonları tespit etmede üstün performansa sahip. Örneğin, PubMedQA veri setinde Lynx’in 70 milyar parametreli versiyonu, tıbbi yanlışlıkları tespit etmede GPT-4’ten %8,3 daha doğruydu. Bu hassasiyet seviyesi, hassas alanlarda yapay zeka odaklı çözümlerin güvenilirliğini sağlamada kritik öneme sahip.

Lynx’in sağlamlığı, diğer önde gelen modellere kıyasla gösterdiği performansla daha da kanıtlandı. Lynx’in 8 milyar parametreli versiyonu, HaluBench’te GPT-3.5’ten %24,5 daha iyi performans gösterdi ve Claude-3-Sonnet ve Claude-3-Haiku’ya göre sırasıyla %8,6 ve %18,4 oranında önemli kazanımlar elde etti. Bu sonuçlar Lynx’in karmaşık halüsinasyon algılama görevlerini daha küçük bir modelle ele alma yeteneğini vurgulayarak onu çeşitli uygulamalar için daha erişilebilir ve verimli hale getiriyor.

Lynx’in geliştirilmesinde, modelin gelişmiş görev muhakemesi yapmasını sağlayan Düşünce Zinciri muhakemesi de dahil olmak üzere çeşitli yenilikçi yaklaşımlar kullanıldı Bu yaklaşım, Lynx’in tespit edilmesi zor halüsinasyonları yakalama kabiliyetini önemli ölçüde artırmış, çıktılarını insan muhakemesine benzer şekilde daha açıklanabilir ve yorumlanabilir hale getirdi. Bu özellik, kullanıcıların modelin karar verme sürecini anlamasını sağlayarak çıktılarına olan güveni artırdığı için özellikle önemli.

İLGİLİ YAZI :   [MAKALE] Yapay zeka ve pazarlama ajanslarının geleceği üzerine

Lynx, gerçek dünya uygulamaları için çok önemli bir yorumlanabilirlik düzeyi sağlayarak bir puan üreten ve aynı zamanda bu puan hakkında mantık yürütebilen Llama-3-70B-Instruct modelinden ince ayarlandı. Modelin Nvidia’nın NeMo-Guardrails ile entegrasyonu, chatbot uygulamalarında halüsinasyon dedektörü olarak kullanılabilmesini sağlayarak yapay zeka etkileşimlerinin güvenilirliğini artırıyor.

Patronus AI, HaluBench veri setini ve değerlendirme kodunu kamu erişimine açarak araştırmacıların ve geliştiricilerin bu alanı keşfetmelerini ve bu alana katkıda bulunmalarını sağladı. Veri kümesi, büyük ölçekli veri kümelerinden kalıpları ve içgörüleri belirlemeye yardımcı olan bir görselleştirme aracı olan Nomic Atlas’ta mevcuttur ve bu da onu daha fazla araştırma ve geliştirme için değerli bir kaynak haline getiriyor.

Sonuç olarak Patronus AI, halüsinasyonları tespit edebilen ve azaltabilen yapay zeka modelleri geliştirmek için Lynx’i piyasaya sürdü. Üstün performansı, yenilikçi muhakeme yetenekleri ve önde gelen teknoloji ortaklarından aldığı güçlü destekle Lynx, yeni nesil yapay zeka uygulamalarında bir köşe taşı olmaya hazırlanıyor. Bu sürüm, Patronus AI’nin yapay zeka teknolojisini geliştirme ve kritik alanlarda etkili bir şekilde uygulama konusundaki kararlılığının altını çiziyor.

Kaynak: MarkTechPost


Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.

- Sponsorlu -spot_img

Daha Fazla

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

- Sponsorlu -spot_img

Son Haberler