31.4 C
İstanbul

Apple, devrim niteliğinde bir yapay zeka modeli olan ‘MGIE’yi yayınladı

Apple, doğal dil talimatlarına dayalı olarak görüntüleri düzenleyebilen ve devrim niteliğinde bir yapay zeka modeli olan "MGIE" adlı yeni bir açık kaynaklı yapay zeka modeli yayınladı.

Mutlaka Okumalısın

Apple, doğal dil talimatlarına dayalı olarak görüntüleri düzenleyebilen “MGIE” adlı yeni bir açık kaynaklı yapay zeka modeli yayınladı. Açılımı MLLM-Guided Image Editing olan MGIE, kullanıcı komutlarını yorumlamak ve piksel düzeyinde manipülasyonlar gerçekleştirmek için multimodal büyük dil modellerinden (MLLM’ler) yararlanıyor. Model, Photoshop tarzı değişiklik, global fotoğraf optimizasyonu ve yerel düzenleme gibi çeşitli düzenleme yönlerini ele alabilir.

MGIE, Apple ile Santa Barbara’daki California Üniversitesi’nden araştırmacılar arasındaki işbirliğinin bir sonucudur. Model, yapay zeka araştırmaları için en iyi mekanlardan biri olan Uluslararası Öğrenme Temsilleri Konferansı (ICLR) 2024’te kabul edilen bir makalede sunuldu. Makale, MGIE’nin otomatik ölçümleri ve insan değerlendirmesini iyileştirmedeki etkinliğini gösterirken, rekabetçi çıkarım verimliliğini de koruyor.

MGIE nasıl çalışır?

MGIE, talimat tabanlı görüntü düzenlemeyi geliştirmek için hem metin hem de görüntüleri işleyebilen güçlü yapay zeka modelleri olan MLLM’leri kullanma fikrine dayanmaktadır. MLLM’ler, çapraz modal anlama ve görsel farkındalıklı yanıt oluşturma konusunda dikkate değer yetenekler göstermiştir, ancak görüntü düzenleme görevlerine yaygın olarak uygulanmamıştır.

MGIE, MLLM’leri görüntü düzenleme sürecine iki şekilde entegre eder: İlk olarak, kullanıcı girdisinden anlamlı talimatlar türetmek için MLLM’leri kullanır. Bu talimatlar kısa ve nettir ve düzenleme süreci için açık bir rehberlik sağlar. Örneğin, “gökyüzünü daha mavi yap” girdisi verildiğinde, MGIE “gökyüzü bölgesinin doygunluğunu %20 artır” talimatını üretebilir.

İkinci olarak, istenen düzenlemenin gizli bir temsili olan görsel hayal gücünü oluşturmak için MLLM’leri kullanır. Bu temsil, düzenlemenin özünü yakalar ve piksel düzeyinde manipülasyona rehberlik etmek için kullanılabilir. MGIE, talimat türetme, görsel hayal gücü ve görüntü düzenleme modüllerini birlikte optimize eden yeni bir uçtan uca eğitim şeması kullanır.

İLGİLİ YAZI :   OpenAI'ın merakla beklenen GPT Store (GPT Mağazası) nihayet açıldı

MGIE ne yapabilir?

MGIE, basit renk ayarlamalarından karmaşık nesne manipülasyonlarına kadar çok çeşitli düzenleme senaryolarının üstesinden gelebilir. Model, kullanıcının tercihine bağlı olarak global ve yerel düzenlemeler de gerçekleştirebilir. MGIE’nin bazı özellikleri ve yetenekleri şunlardır:

  • Etkileyici talimat tabanlı düzenleme: MGIE, düzenleme sürecini etkili bir şekilde yönlendiren kısa ve net talimatlar üretebilir. Bu sadece düzenlemelerin kalitesini artırmakla kalmaz, aynı zamanda genel kullanıcı deneyimini de geliştirir.
  • Photoshop tarzı değişiklik: MGIE kırpma, yeniden boyutlandırma, döndürme, çevirme ve filtre ekleme gibi yaygın Photoshop tarzı düzenlemeleri gerçekleştirebilir. Model ayrıca arka planı değiştirme, nesne ekleme veya kaldırma ve görüntüleri karıştırma gibi daha gelişmiş düzenlemeler de uygulayabilir.
  • Global fotoğraf optimizasyonu: MGIE, parlaklık, kontrast, keskinlik ve renk dengesi gibi bir fotoğrafın genel kalitesini optimize edebilir. Model ayrıca eskiz, boyama ve karikatür gibi sanatsal efektler de uygulayabilir.
  • Yerel düzenleme: MGIE bir görüntüdeki yüzler, gözler, saçlar, giysiler ve aksesuarlar gibi belirli bölgeleri veya nesneleri düzenleyebilir. Model ayrıca bu bölgelerin veya nesnelerin şekil, boyut, renk, doku ve stil gibi niteliklerini de değiştirebilir.

MGIE nasıl kullanılır?

MGIE, kullanıcıların kodu, verileri ve önceden eğitilmiş modelleri bulabileceği GitHub’da açık kaynaklı bir proje olarak mevcuttur. Proje ayrıca MGIE’nin çeşitli düzenleme görevleri için nasıl kullanılacağını gösteren bir demo not defteri de sunmaktadır. Kullanıcılar ayrıca makine öğrenimi (ML) projeleri üzerinde paylaşım ve işbirliği platformu olan Hugging Face Spaces’te barındırılan bir web demosu aracılığıyla MGIE’yi çevrimiçi olarak deneyebilirler.

MGIE kullanımı kolay ve özelleştirmesi esnek olacak şekilde tasarlanmıştır. Kullanıcılar görüntüleri düzenlemek için doğal dil talimatları sağlayabilir ve MGIE türetilen talimatlarla birlikte düzenlenmiş görüntüleri oluşturur. Kullanıcılar ayrıca düzenlemeleri iyileştirmek veya farklı düzenlemeler talep etmek için MGIE’ye geri bildirim sağlayabilir. MGIE, görüntü düzenleme işlevi gerektiren diğer uygulamalar veya platformlarla da entegre edilebilir.

İLGİLİ YAZI :   OpenAI, DALL-E 3'ü C2PA meta verileriyle donatıyor

MGIE neden bu kadar önemli?

MGIE, hem yapay zeka hem de insan yaratıcılığı için zorlu ve önemli bir görev olan talimat tabanlı görüntü düzenleme alanında bir atılımdır. MGIE, görüntü düzenlemeyi geliştirmek için MLLM’leri kullanma potansiyelini göstermekte ve modlar arası etkileşim ve iletişim için yeni olanaklar sunmaktadır.

MGIE sadece bir araştırma başarısı değil, aynı zamanda çeşitli senaryolar için pratik ve kullanışlı bir araçtır. MGIE, kullanıcıların sosyal medya, e-ticaret, eğitim, eğlence ve sanat gibi kişisel veya profesyonel amaçlar için görüntüler oluşturmasına, değiştirmesine ve optimize etmesine yardımcı olabilir. MGIE ayrıca kullanıcıların fikirlerini ve duygularını görüntüler aracılığıyla ifade etmelerini sağlayabiliyor ve yaratıcılıklarını keşfetmeleri için onlara ilham verebiliyor.

Apple için MGIE, şirketin yapay zeka araştırma ve geliştirme alanındaki artan becerisini de vurguluyor. Tüketici teknolojisi devi, son yıllarda makine öğrenimi yeteneklerini hızla genişletti ve MGIE, yapay zekanın günlük yaratıcı görevleri nasıl geliştirebileceğinin belki de en etkileyici göstergesiydi.

MGIE büyük bir atılımı temsil etse de, uzmanlar çok modlu yapay zeka sistemlerini geliştirmek için daha yapılacak çok iş olduğunu söylüyor. Ancak bu alandaki ilerleme hızı hızla artıyor. MGIE’nin piyasaya sürülmesinin yarattığı heyecan bir gösterge ise, bu tür bir yardımcı YZ yakında vazgeçilmez bir yaratıcı yardımcı haline gelebilir.

Kaynak Venturebeat


Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, Twitter, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.

- Sponsorlu -spot_img

Daha Fazla

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

- Sponsorlu -spot_img

Son Haberler