İnfografiklerin karmaşık kavramları açıklığa kavuşturmak için görsel işaretleri stratejik olarak düzenleme ve kullanma kapasitesi, onları etkili iletişim için gerekli hale getirdi. İnfografikler grafikler, diyagramlar, illüstrasyonlar, haritalar, tablolar ve belge düzenleri gibi çeşitli görsel unsurları içeriyor. Bu, materyalin anlaşılmasını kolaylaştıran uzun süredir devam eden bir teknik. Masaüstü ve mobil platformlardaki kullanıcı arayüzleri (UI), modern dijital dünyada tasarım kavramlarını ve görsel dilleri infografiklerle paylaşıyor.
Kullanıcı arayüzleri ve infografikler arasında pek çok örtüşme olsa da, her birinin karmaşıklığı uyumlu bir model oluşturmayı daha da zorlaştırıyor. İnfografiklerin ve kullanıcı arayüzlerinin çeşitli yönlerini anlamak, muhakeme etmek ve bunlarla etkileşim kurmak için gereken karmaşıklık nedeniyle piksellerde kodlanan görsel bilgileri verimli bir şekilde analiz edebilecek ve yorumlayabilecek tek bir model geliştirmek zor.
Bunu ele almak için, yakın tarihli bir Google Araştırmasında, bir araştırma ekibi çözüm olarak ScreenAI’yi önerdi. ScreenAI, hem kullanıcı arayüzlerini hem de infografikleri tam olarak anlama yeteneğine sahip bir Görme-Dil Modeli (VLM / Vision-Language Model). Grafikler, resimler, haritalar ve daha fazlasını içerebilen grafiksel soru cevaplama (QA / question-answering) gibi görevler kapsamına dahil edilrdi
Ekip, ScreenAI’nin öğe ek açıklaması, özetleme, gezinme ve UI’ye özgü ek QA gibi işleri yönetebileceğini paylaştı. Bunu başarmak için model, Pix2struct’tan alınan esnek yama yöntemini PaLI mimarisiyle birleştiriyor ve bu da görüşle ilgili görevleri metne veya görüntüden metne sorunlara dönüştürerek ele almasını sağlıyor.
Bu tasarım kararlarının modelin işlevselliğini nasıl etkilediğini göstermek için çeşitli testler gerçekleştirildi. Değerlendirme sonucunda ScreenAI, 5 milyarın altında parametre ile Multipage DocVQA, WebSRC, MoTIF ve Widget Captioning gibi görevlerde en son teknolojiye sahip yeni sonuçlar üretti. DocVQA, InfographicVQA ve Chart QA gibi görevlerde de benzer büyüklükteki modellerden daha iyi performans göstererek kayda değer bir performans elde etti.
Ekip üç ek veri kümesini kullanıma sundu: Screen Annotation, ScreenQA Short ve Complex ScreenQA. Bu veri kümelerinden biri, gelecekteki araştırmalar için özellikle ekran açıklama görevine odaklanırken, diğer iki veri kümesi soru cevaplamaya odaklanıyor ve böylece alanı ilerletmek için mevcut kaynakları daha da genişletiyor.
Ekip, başlıca katkılarını aşağıdaki şekilde özetliyor:
- Görme-Dil Modeli (VLM) ScreenAI konsepti, infografik ve kullanıcı arayüzünü anlamaya odaklanan bütünsel bir çözüme doğru atılmış bir adım. ScreenAI, bu bileşenlerin ortak görsel dilini ve sofistike tasarımını kullanarak dijital materyallerin anlaşılması için kapsamlı bir yöntem sunuyor.
- Önemli bir ilerleme, kullanıcı arayüzleri için metinsel bir temsilin geliştirilmesi. Ön eğitim aşamasında, bu temsil modele kullanıcı arayüzlerini nasıl anlayacağını öğretmek için kullanıldı ve görsel verileri anlama ve işleme kapasitesini geliştirildi.
- ScreenAI, geniş ölçekte otomatik olarak eğitim verileri oluşturmak için LLM’leri ve yeni kullanıcı arayüzü temsilini kullanarak eğitimi daha etkili ve kapsamlı hale getirildi.
- Screen Annotation, ScreenQA Short ve Complex ScreenQA olmak üzere üç yeni veri kümesi yayınlandı. Bu veri kümeleri, ekran tabanlı soru yanıtlama ve önerilen metinsel temsil için kapsamlı model kıyaslamasına olanak tanıyor.
- ScreenAI, 4,6 milyar parametre gibi düşük bir sayıya sahip olmasına rağmen, dört genel infografik QA kıyaslamasında daha büyük modellerden on veya daha fazla kat daha iyi performans gösterdi.
Kaynak: Tanya Malhotra / Marktechpost
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, Twitter, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.