21.8 C
İstanbul

‘OCR 2.0’ modeli metin, formül, not ve şekil resimlerini düzenlenebilir metne dönüştürüyor

Araştırmacılar, geleneksel OCR sistemlerinin güçlü yönlerini büyük dil modellerinin güçlü yönleriyle birleştiren yeni bir evrensel optik karakter tanıma modeli olan GOT'u (Genel OCR Teorisi) geliştirdiler. Bu yaklaşıma "OCR-2.0" adını verdiler.

Mutlaka Okumalısın

Araştırmacılar GOT (Genel OCR Teorisi) adı verilen yeni bir evrensel optik karakter tanıma (OCR) modeli oluşturdular. Araştırmacılar yayınladıkları makalede, geleneksel OCR sistemlerinin ve büyük dil modellerinin güçlü yönlerini birleştirmeyi amaçlayan OCR 2.0 konseptini tanıttı.

Araştırmacılara göre OCR 2.0 modeli, birleşik uçtan uca mimari kullanıyor ve büyük dil modellerine kıyasla daha az kaynak gerektiriyor. Ayrıca, düz metinden daha fazlasını tanıyabilecek kadar da çok yönlü.

GOT’un mimarisi yaklaşık 80 milyon parametreye sahip bir görüntü kodlayıcı ve 500 milyon parametreye sahip bir konuşma kod çözücüden oluşuyor. Kodlayıcı 1.024 x 1.024 piksel görüntüleri belirteçlere sıkıştırır ve kod çözücü daha sonra bunları 8.000 karaktere kadar metne dönüştürüyor.

‘OCR 2.0’ bilim, müzik ve analitikte karmaşık görsel verilerin otomatik işlenmesinin kilidini açıyor

Yeni model çeşitli görsel bilgi türlerini tanıyabilir ve düzenlenebilir metne dönüştürebilir. Bunlara İngilizce ve Çince sahne metinleri ve belge metinleri, matematiksel ve kimyasal formüller, müzik notaları, basit geometrik şekiller ve bileşenleriyle diyagramlar dahil.

Diyagram, geleneksel OCR sistemlerini büyük dil modelleriyle birleştiren GOT (Genel OCR Teorisi) modelinin üç aşamalı mimarisini göstermektedir. Araştırmacılar buna “OCR 2.0” adını veriyor.

Eğitimi optimize etmek için araştırmacılar önce yalnızca kodlayıcıyı metin tanıma görevlerinde eğittiler. Daha sonra Alibaba’nın Qwen-0.5B’sini bir kod çözücü olarak eklediler ve tüm modeli çeşitli, sentetik verilerle ince ayarladılar. Ekip, eğitim için milyonlarca resim-metin çifti oluşturmak üzere LaTeX, Mathpix-markdown-it, TikZ, Verovio, Matplotlib ve Pyecharts gibi işleme araçlarını kullandı.

OCR 2.0, birden fazla sayfadan biçimlendirilmiş metinleri, başlıkları ve hatta görselleri çıkarmanıza ve bunları yapılandırılmış bir dijital forma dönüştürmenize olanak tanır.

Araştırmacılar, GOT’un modüler tasarımının ve sentetik veri eğitiminin esnek genişlemeye izin verdiğini bildiriyor. Tüm modeli yeniden eğitmeden yeni yetenekler eklenebilir. Bu yaklaşımın, zaman içinde sistemde verimli güncellemeler ve iyileştirmeler sağladığını söylüyorlar.

Bu genel bakış, metin kaynaklarından işleme araçlarına ve görsel sonuçlara kadar iş akışını gösterir. .tex veya SMILES kodları gibi çeşitli giriş biçimlerinin, özel işleme araçları aracılığıyla karmaşık matematiksel formüllere, kimyasal yapılara, geometrik şekillere ve diyagramlara nasıl dönüştürülebileceğini gösterir.

Deneylerde, GOT çeşitli OCR görevlerinde iyi performans gösterdi. Belge ve sahne metin tanımada en yüksek puanları aldı, hatta diyagram tanımada uzmanlaşmış modelleri ve büyük dil modellerini geride bıraktı.

İLGİLİ YAZI :   Adobe, Firefly AI video modelini ve yeni AI destekli Photoshop özelliklerini tanıttı
Karmaşık kimyasal yapısal formüllerden müzik notasyonuna ve veri görselleştirmeye: OCR 2.0 çeşitli formatları doğru bir şekilde yakalayabilir ve bunları makine tarafından okunabilir formatlara dönüştürebilir. Bu, bilim, müzik ve veri analizinde otomatik işleme ve analiz için yeni olanaklar sunar.

Araştırmacılar, başkalarının da kullanıp geliştirebilmesi için Hugging Face’te ücretsiz bir demo ve kod yayınladılar.

Kaynak: The Decoder


Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.

- Sponsorlu -spot_img

Daha Fazla

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

- Sponsorlu -spot_img

Son Haberler