Apple’ın yapay zeka araştırma ekibi, makinelerin derinliği algılama biçimini önemli ölçüde geliştirebilecek ve artırılmış gerçeklikten otonom araçlara kadar birçok sektörü dönüştürme potansiyeline sahip yeni bir model geliştirdi.
Depth Pro adı verilen sistem, geleneksel olarak bu tür tahminler yapmak için ihtiyaç duyulan kamera verilerine güvenmek zorunda kalmadan, saniyenin çok küçük bir kısmında tek bir 2 boyutlu görüntüden ayrıntılı 3 boyutlu derinlik haritaları üretebiliyor.
“Derinlik Pro: Bir Saniyeden Kısa Sürede Keskin Monoküler Metrik Derinlik” başlıklı bir araştırma makalesinde ayrıntılarıyla açıklanan teknoloji, derinliği çıkarmak için yalnızca bir görüntü kullanan bir işlem olan monoküler derinlik tahmini alanında önemli bir sıçrama.
Bu, gerçek zamanlı mekansal farkındalığın kilit öneme sahip olduğu sektörlerde geniş kapsamlı uygulamalara sahip olabilir. Aleksei Bochkovskii ve Vladlen Koltun liderliğindeki modelin yaratıcıları, Depth Pro’yu türünün en hızlı ve en doğru sistemlerinden biri olarak tanımlıyor.
Hız ve hassasiyet, meta veriler olmadan
Tek gözle derinlik tahmini uzun zamandır zorlu bir görev olmuştur ve derinliği doğru bir şekilde ölçmek için birden fazla görüntü veya odak uzaklığı gibi meta veriler gerekmektedir.
Ancak Depth Pro bu gereklilikleri atlatarak standart bir GPU’da sadece 0,3 saniyede yüksek çözünürlüklü derinlik haritaları üretir. Model, diğer yöntemler tarafından sıklıkla gözden kaçan saç ve bitki örtüsü gibi en ufak ayrıntıları bile yakalayarak olağanüstü keskinlikte 2,25 megapiksel haritalar oluşturabilir.
Araştırmacılar makalelerinde, “Bu özellikler, yoğun tahmin için verimli çok ölçekli bir görüntü dönüştürücüsü de dahil olmak üzere bir dizi teknik katkıyla mümkün kılınmıştır” şeklinde açıklıyor. Bu mimari, modelin hem bir görüntünün genel bağlamını hem de daha ince ayrıntılarını aynı anda işlemesine olanak tanır; bu, ondan önce gelen daha yavaş, daha az hassas modellere göre muazzam bir sıçrama.
Metrik derinlik, sıfır atışlı öğrenme
Depth Pro’yu gerçekten farklı kılan şey, “metrik derinlik” adı verilen hem bağıl hem de mutlak derinliği tahmin etme yeteneği.
Bu, modelin gerçek dünya ölçümleri sağlayabileceği anlamına geliyor; bu da sanal nesnelerin fiziksel alanlar içinde kesin konumlara yerleştirilmesini gerektiren artırılmış gerçeklik (AR) gibi uygulamalar için olmazsa olmaz.
Ve Depth Pro, doğru tahminler yapmak için alan-özel veri kümeleri üzerinde kapsamlı eğitim gerektirmez; bu özellik “sıfır çekim öğrenimi” olarak bilinir. Bu, modeli oldukça çok yönlü hale getirir. Genellikle derinlik tahmin modellerinde gereken kamera-özel verilere ihtiyaç duyulmadan, çok çeşitli görüntülere uygulanabilir.
Yazarlar, “Depth Pro, kamera içsel özellikleri gibi meta veriler gerektirmeden, ‘doğada’ keyfi görüntülerde mutlak ölçekli metrik derinlik haritaları üretir” şeklinde açıklıyor. Bu esneklik, AR deneyimlerini geliştirmekten otonom araçların engelleri algılama ve gezinme yeteneğini iyileştirmeye kadar bir olasılıklar dünyasının kapılarını açıyor.
Depth Pro’yu ilk elden deneyimlemek isteyenler için Hugging Face platformunda canlı demo imkânı da mevcut.
Gerçek dünya uygulamaları: E-ticaretten otonom araçlara
Bu çok yönlülüğün çeşitli endüstriler için önemli etkileri vardır. Örneğin e-ticarette, Depth Pro tüketicilerin telefonlarının kamerasını odaya doğrultarak mobilyaların evlerine nasıl uyduğunu görmelerini sağlayabilir. Otomotiv endüstrisinde, tek bir kameradan gerçek zamanlı, yüksek çözünürlüklü derinlik haritaları üretme yeteneği, otonom araçların çevrelerini nasıl algıladıklarını iyileştirerek navigasyonu ve güvenliği artırabilir.
Araştırmacılar, modelin daha geleneksel yapay zeka modellerini eğitmekle ilişkili zaman ve maliyeti azaltma potansiyelini vurgulayarak, “Yöntem, nesne şekillerini, sahne düzenlerini ve mutlak ölçekleri doğru bir şekilde yeniden üretmek için bu sıfır atış rejiminde ideal olarak metrik derinlik haritaları üretmelidir” diye yazıyorlar.
Derinlik tahmininin zorluklarıyla başa çıkmak
Derinlik tahminindeki en zorlu zorluklardan biri, derinlik haritalamasındaki hatalar nedeniyle havada yüzüyormuş gibi görünen pikseller olan “uçan pikseller” olarak bilinenlerle başa çıkmak. Depth Pro bu sorunu doğrudan ele alarak, doğruluğun en önemli olduğu 3B yeniden yapılandırma ve sanal ortamlar gibi uygulamalar için özellikle etkili hale getiriyor.
Ek olarak, Depth Pro sınır izlemede mükemmeldir ve nesneleri ve kenarlarını keskin bir şekilde belirlemede önceki modelleri geride bırakır. Araştırmacılar, görüntü matlaştırma ve tıbbi görüntüleme gibi hassas nesne segmentasyonu gerektiren uygulamalar için önemli olan “sınır doğruluğunda çarpan bir faktörle” diğer sistemleri geride bıraktığını iddia ediyor.
Açık kaynaklı ve ölçeklenmeye hazır
Apple, benimsenmesini hızlandırabilecek bir hamleyle Depth Pro’yu açık kaynaklı hale getirdi. Kod, önceden eğitilmiş model ağırlıklarıyla birlikte GitHub’da mevcut ve geliştiricilerin ve araştırmacıların teknolojiyi deneyip daha da iyileştirmelerine olanak sağlıyor. Depo, modelin mimarisinden önceden eğitilmiş kontrol noktalarına kadar her şeyi içeriyor ve başkalarının Apple’ın çalışmalarını geliştirmesini kolaylaştırıyor.
Araştırma ekibi ayrıca Depth Pro’nun robotik, üretim ve sağlık hizmetleri gibi alanlardaki potansiyelinin daha fazla araştırılmasını teşvik ediyor. Yazarlar, “Kod ve ağırlıkları https://github.com/apple/ml-depth-pro adresinde yayınlıyoruz” diye yazıyor ve bunun model için sadece bir başlangıç olduğunu belirtiyor.
Yapay zeka derinlik algısının geleceği ne olacak?
Yapay zeka mümkün olanın sınırlarını zorlamaya devam ederken, Depth Pro tek gözlü derinlik tahmini için hız ve doğrulukta yeni bir standart belirliyor. Tek bir görüntüden yüksek kaliteli, gerçek zamanlı derinlik haritaları üretme yeteneği, mekansal farkındalığa dayanan endüstriler genelinde geniş kapsamlı etkilere sahip olabilir.
Yapay zekanın karar alma ve ürün geliştirmede giderek daha fazla merkezi hale geldiği bir dünyada, Depth Pro, son teknoloji araştırmaların pratik, gerçek dünya çözümlerine nasıl dönüşebileceğini örnekliyor. İster makinelerin çevrelerini nasıl algıladıklarını iyileştirmek ister tüketici deneyimlerini geliştirmek olsun, Depth Pro’nun potansiyel kullanımları geniş ve çeşitli.
Araştırmacıların vardığı sonuca göre, “Depth Pro, saç, kürk ve bitki örtüsü gibi ince yapılar da dahil olmak üzere nesne sınırlarının keskin bir şekilde çizilmesinde önceki tüm çalışmalardan önemli ölçüde daha iyi performans gösteriyor.”
Depth Pro, açık kaynaklı sürümüyle yakında otonom sürüşten artırılmış gerçekliğe kadar çeşitli sektörlerin ayrılmaz bir parçası haline gelebilir ve makinelerin ve insanların 3B ortamlarla etkileşimini dönüştürebilir.
Kaynak: Michael Nunez / VentureBeat
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.