Araştırmacılardan yeni bir evrensel optik karakter tanıma modeli- YapayZeka.News

Araştırmacılar GOT (Genel OCR Teorisi) adı verilen yeni bir evrensel optik karakter tanıma (OCR) modeli oluşturdular. Araştırmacılar yayınladıkları makalede, geleneksel OCR sistemlerinin ve büyük dil modellerinin güçlü yönlerini birleştirmeyi amaçlayan OCR 2.0 konseptini tanıttı.

Araştırmacılara göre OCR 2.0 modeli, birleşik uçtan uca mimari kullanıyor ve büyük dil modellerine kıyasla daha az kaynak gerektiriyor. Ayrıca, düz metinden daha fazlasını tanıyabilecek kadar da çok yönlü.

GOT’un mimarisi yaklaşık 80 milyon parametreye sahip bir görüntü kodlayıcı ve 500 milyon parametreye sahip bir konuşma kod çözücüden oluşuyor. Kodlayıcı 1.024 x 1.024 piksel görüntüleri belirteçlere sıkıştırır ve kod çözücü daha sonra bunları 8.000 karaktere kadar metne dönüştürüyor.

‘OCR 2.0’ bilim, müzik ve analitikte karmaşık görsel verilerin otomatik işlenmesinin kilidini açıyor

Yeni model çeşitli görsel bilgi türlerini tanıyabilir ve düzenlenebilir metne dönüştürebilir. Bunlara İngilizce ve Çince sahne metinleri ve belge metinleri, matematiksel ve kimyasal formüller, müzik notaları, basit geometrik şekiller ve bileşenleriyle diyagramlar dahil.

Diyagram, geleneksel OCR sistemlerini büyük dil modelleriyle birleştiren GOT (Genel OCR Teorisi) modelinin üç aşamalı mimarisini göstermektedir. Araştırmacılar buna “OCR 2.0” adını veriyor.

Eğitimi optimize etmek için araştırmacılar önce yalnızca kodlayıcıyı metin tanıma görevlerinde eğittiler. Daha sonra Alibaba’nın Qwen-0.5B’sini bir kod çözücü olarak eklediler ve tüm modeli çeşitli, sentetik verilerle ince ayarladılar. Ekip, eğitim için milyonlarca resim-metin çifti oluşturmak üzere LaTeX, Mathpix-markdown-it, TikZ, Verovio, Matplotlib ve Pyecharts gibi işleme araçlarını kullandı.

OCR 2.0, birden fazla sayfadan biçimlendirilmiş metinleri, başlıkları ve hatta görselleri çıkarmanıza ve bunları yapılandırılmış bir dijital forma dönüştürmenize olanak tanır.

Araştırmacılar, GOT’un modüler tasarımının ve sentetik veri eğitiminin esnek genişlemeye izin verdiğini bildiriyor. Tüm modeli yeniden eğitmeden yeni yetenekler eklenebilir. Bu yaklaşımın, zaman içinde sistemde verimli güncellemeler ve iyileştirmeler sağladığını söylüyorlar.

Bu genel bakış, metin kaynaklarından işleme araçlarına ve görsel sonuçlara kadar iş akışını gösterir. .tex veya SMILES kodları gibi çeşitli giriş biçimlerinin, özel işleme araçları aracılığıyla karmaşık matematiksel formüllere, kimyasal yapılara, geometrik şekillere ve diyagramlara nasıl dönüştürülebileceğini gösterir.

Deneylerde, GOT çeşitli OCR görevlerinde iyi performans gösterdi. Belge ve sahne metin tanımada en yüksek puanları aldı, hatta diyagram tanımada uzmanlaşmış modelleri ve büyük dil modellerini geride bıraktı.

İLGİLİ YAZI : Adobe, yapay zeka tarafından üretilen görüntüleri Firefly eğitim setine dahil etti

Karmaşık kimyasal yapısal formüllerden müzik notasyonuna ve veri görselleştirmeye: OCR 2.0 çeşitli formatları doğru bir şekilde yakalayabilir ve bunları makine tarafından okunabilir formatlara dönüştürebilir. Bu, bilim, müzik ve veri analizinde otomatik işleme ve analiz için yeni olanaklar sunar.

Araştırmacılar, başkalarının da kullanıp geliştirebilmesi için Hugging Face’te ücretsiz bir demo ve kod yayınladılar.

Kaynak: The Decoder

Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.

‘OCR 2.0’ modeli metin, formül, not ve şekil resimlerini düzenlenebilir metne dönüştürüyor

Mutlaka Okumalısın

Perplexity, yapay zeka yanıt platformuna tek tıkla alışveriş özelliğini ekliyor

Microsoft, shawarma sipariş edebilen ve insanlardan yardım isteyebilen yapay zeka ajanlarını test ediyor

OpenAI’ın bir başka baş güvenlik araştırmacısı Lilian Weng de ayrıldı

Google, Workspace paketine Vids AI video oluşturma aracını ekledi

‘OCR 2.0’ bilim, müzik ve analitikte karmaşık görsel verilerin otomatik işlenmesinin kilidini açıyor

Daha Fazla

CEVAP VER İptal

Son Haberler

Perplexity, yapay zeka yanıt platformuna tek tıkla alışveriş özelliğini ekliyor

Microsoft, shawarma sipariş edebilen ve insanlardan yardım isteyebilen yapay zeka ajanlarını test ediyor

OpenAI’ın bir başka baş güvenlik araştırmacısı Lilian Weng de ayrıldı

Google, Workspace paketine Vids AI video oluşturma aracını ekledi

KLING AI video oluşturucusu kullanıcıların kendi AI video karakterlerini eğitmelerine olanak tanıyor

Popüler

Kurumsal

Son Yorumlar

Son Yazılar

Perplexity, yapay zeka yanıt platformuna tek tıkla alışveriş özelliğini ekliyor

Microsoft, shawarma sipariş edebilen ve insanlardan yardım isteyebilen yapay zeka ajanlarını test ediyor