16.9 C
İstanbul

Elon Musk’ın xAI’si ilk multimodal modeli Grok-1.5V’yi tanıttı

Elon Musk'ın xAI'si, belgeleri anlayabilen, kodu çevirebilen ve gerçek dünyadaki durumları işleyebilen ilk nesil çok modlu modelini resmi olarak tanıttı.

Mutlaka Okumalısın

Elon Musk’ın xAI’si, belgeleri anlayabilen, kodu çevirebilen ve gerçek dünyadaki durumları işleyebilen ilk nesil çok modlu modelini resmi olarak tanıttı.

Grok -1.5V olarak adlandırılan aracın ‘güçlü metin yeteneklerine’ sahip olduğu ve yakında ilk test kullanıcılarına ve mevcut Grok kullanıcılarına sunulacağı söyleniyor.

Güncelleme, Ekim 2023’te ön eğitim aşamasını tamamlayan Grok-1’in açık sürümünden sadece bir hafta sonra geldi.

Şirket, xAI web sitesindeki bir blog yazısında “Grok-1.5, gelişmiş muhakeme yetenekleri ve 128.000 token’lık bir bağlam uzunluğu ile birlikte geliyor” dedi.

Bu uzun bağlam anlayışı, Grok’un önceki bağlam uzunluğunun 16 katına kadar artırılmış bir bellek kapasitesine sahip olmasını sağlayacak yeni bir özellik. Bu, daha karmaşık istemlerle birlikte daha uzun belgelerden gelen bilgileri kullanabileceği anlamına geliyor.

Model hala talimat takip etme kapasitesinde çalışacak ancak artık belgeleri, bilim diyagramlarını, çizelgeleri, ekran görüntülerini ve fotoğrafları anlayabilecek. Ayrıca diyagramları Python koduna çevirebilecek.

Grok-1.5V gerçek dünyayı anlayabilir

“Faydalı gerçek dünya yapay zeka asistanları geliştirmek için, bir modelin fiziksel dünyayı anlamasını ilerletmek çok önemlidir. Bu hedef doğrultusunda, RealWorldQA adlı yeni bir ölçüt sunuyoruz,” diyor Grok-1.5V’nin arkasındaki ekip.

Bu ölçüt, çok modlu modellerin gerçek dünyadaki mekânsal anlama yeteneklerini değerlendirmek için kullanılacak. Ekip, Grok’a bir arabanın hangi yöne dönebileceğini ve düz bir fotoğrafta hangi nesnenin en büyük olduğunu sormak gibi bazı örnekler verdi.

Benchmark’ın ilk sürümü, hepsi bir soru veya kolayca doğrulanabilir bir cevap içeren 700’den fazla fotoğraf içeriyor.

Geleceğe bakan ekip, çok modlu modelleri yükseltme ihtiyacını tanımladı: “Hem multimodal anlayışımızı hem de üretim yeteneklerimizi geliştirmek, evreni anlayabilecek faydalı bir AGI inşa etmek için önemli adımlardır.

İLGİLİ YAZI :   Google, SMS halefi RCS Messaging'e Gemini AI'yı ekledi

“Önümüzdeki aylarda görüntü, ses ve video gibi çeşitli modalitelerde her iki yetenekte de önemli gelişmeler kaydetmeyi öngörüyoruz.”


Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.

- Sponsorlu -spot_img

Daha Fazla

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

- Sponsorlu -spot_img

Son Haberler