OpenAI'dan muhteşem yeni bir üretken video modeli: Sora

OpenAI, kısa bir metin açıklamasını alıp bir dakikaya kadar uzunlukta ayrıntılı, yüksek çözünürlüklü bir film klibine dönüştürebilen Sora adlı çarpıcı yeni bir üretken video modeli geliştirdi.

PROMPT: Güzel, karlı Tokyo şehri hareketli. Kamera şehrin kalabalık caddesinde ilerlerken, güzel karlı havanın tadını çıkaran ve yakındaki tezgahlarda alışveriş yapan birkaç kişiyi takip eder. Rüzgârda kar taneleriyle birlikte muhteşem sakura yaprakları uçuşuyor.

OpenAI’nin bugünkü duyuru öncesinde MIT Technology Review ile paylaştığı dört örnek videoya dayanarak, San Francisco merkezli firma, metinden video oluşturmada mümkün olanın sınırlarını zorladı.

OpenAI’de bilim insanı olan Tim Brooks, “Videoyu anlayabilen ve dünyamızın tüm bu çok karmaşık etkileşimlerini anlayabilen modeller oluşturmanın gelecekteki tüm yapay zeka sistemleri için önemli bir adım olduğunu düşünüyoruz” dedi.

Ancak bir sorumluluk reddi var. OpenAI bize Sora’nın (Japonca’da gökyüzü anlamına geliyor) önizlemesini sıkı gizlilik koşulları altında verdi. Firma, alışılmadık bir şekilde, Sora hakkındaki bilgileri ancak modelle ilgili haberler kamuoyuna açıklandıktan sonra dışarıdan uzmanların görüşlerini almayı kabul etmemiz halinde paylaşacaktı. OpenAI teknik bir rapor yayınlamadı ya da modelin gerçekten çalıştığını göstermedi. Ve Sora’yı yakın zamanda piyasaya sürmeyeceğini bildirdi.

PROMPT: Animasyon sahnesinde, eriyen kırmızı bir mumun yanında diz çökmüş kısa tüylü bir canavarın yakın çekimi yer alıyor. Sanat stili 3D ve gerçekçi, ışık ve dokuya odaklanıyor. Canavar geniş gözleri ve açık ağzıyla aleve bakarken resmin ruh hali meraktan oluşuyor. Canavarın duruşu ve ifadesi, sanki etrafındaki dünyayı ilk kez keşfediyormuş gibi masumiyet ve oyunculuk hissi uyandırıyor. Sıcak renklerin ve dramatik ışığın kullanımı görüntünün rahat atmosferini daha da güçlendiriyor.

PROMPT: Renkli balıklar ve deniz canlılarıyla dolu bir mercan resifinin muhteşem bir şekilde işlenmiş kağıttan dünyası.

Metin parçacıklarından video üretebilen ilk üretici modeller 2022’nin sonlarında ortaya çıktı. Ancak Meta, Google ve Runway adlı bir startup’ın ilk örnekleri hatalı ve grenliydi. O zamandan bu yana teknoloji hızla gelişti. Runway’in geçen yıl piyasaya sürülen gen-2 modeli, kalitesiyle büyük stüdyo animasyonlarına yaklaşan kısa klipler üretebiliyor. Ancak bu örneklerin çoğu hala sadece birkaç saniye uzunluğunda.

İLGİLİ YAZI : UPenn mühendisleri ışık dalgalarıyla yapay zekayı eğitebilen çip yarattı

OpenAI’nin Sora’sından alınan örnek videolar yüksek çözünürlüklü ve ayrıntılarla dolu. OpenAI ayrıca bir dakikaya kadar uzunlukta videolar üretebildiğini de söylüyor. Tokyo’daki bir sokak sahnesinin videosu, Sora’nın nesnelerin 3D’de nasıl bir araya geldiğini öğrendiğini gösteriyor: Kamera, bir dizi dükkanın önünden geçen bir çifti takip etmek için sahneye giriyor.

OpenAI ayrıca Sora’nın oklüzyonu iyi işlediğini iddia ediyor. Mevcut modellerle ilgili bir sorun, nesneler görüş alanından çıktıklarında onları takip etmekte başarısız olabilmeleridir. Örneğin, bir kamyon bir sokak tabelasının önünden geçerse, tabela daha sonra tekrar görünmeyebilir.

Kağıttan yapılmış bir su altı sahnesinin videosunda, Sora farklı görüntüler arasında kesmeler gibi görünen parçalar eklemiş ve model bunlar arasında tutarlı bir stil tutturmuştur.

Mükemmel değil. Tokyo videosunda, soldaki arabalar yanlarında yürüyen insanlardan daha küçük görünüyor. Ayrıca ağaç dallarının arasına girip çıkıyorlar. Brooks, “Uzun vadeli tutarlılık açısından kesinlikle yapılması gereken bazı işler var. Örneğin, eğer biri uzun süre görüş alanından çıkarsa, geri gelmeyecektir. Model bir nevi onların orada olması gerektiğini unutuyor.”

Teknik tease

Etkileyici olsalar da, burada gösterilen örnek videolar hiç şüphesiz Sora’yı en iyi şekilde göstermek için seçilmiş. Daha fazla bilgi olmadan, bunların modelin tipik çıktısını ne kadar temsil ettiğini bilmek zor.

Bunu öğrenmemiz biraz zaman alabilir. OpenAI’nin Sora’yı duyurması bir teknoloji tanıtımından ibaret ve şirket şu anda bunu halka açmak gibi bir planı olmadığını duyurdu. Bunun yerine OpenAI modeli ilk kez üçüncü taraf güvenilir bir test grubuyla paylaşmaya başladı.

Firma özellikle sahte ama fotogerçekçi videoların potansiyel kötüye kullanımları konusunda endişeli. Firmanın metinden görüntüye modeli DALL-E’yi yaratan OpenAI bilim adamı Aditya Ramesh, “Burada dağıtım konusunda dikkatli davranıyoruz ve bunu genel halkın eline vermeden önce tüm temel açıkları kapattığımızdan emin oluyoruz” dedi.

Ancak OpenAI gelecekte bir zamanda bir ürün lansmanı yapmayı planlıyor. Şirket, güvenlik test grubunun yanı sıra, Sora’yı yaratıcı profesyoneller için mümkün olduğunca kullanışlı hale getirme konusunda geri bildirim almak için modeli seçkin bir grup video yapımcısı ve sanatçıyla da paylaştı. Ramesh, “Diğer bir amaç da herkese ufukta neler olduğunu göstermek, bu modellerin neler yapabileceğine dair bir önizleme sunmak” dedi.

İLGİLİ YAZI : OpenAI, küresel genişlemeyi kolaylaştırmak için Singapur, Paris ve Brüksel'de ofis açacak

Sora’yı oluşturmak için ekip, OpenAI’nin amiral gemisi metinden görüntüye modelinin en son sürümü olan DALL-E 3’ün arkasındaki teknolojiyi uyarladı. Çoğu metinden görüntüye model gibi, DALL-E 3 de difüzyon modeli olarak bilinen bir model kullanıyor. Bunlar rastgele piksellerden oluşan bir bulanıklığı bir resme dönüştürmek için eğitiliyor.

Sora bu yaklaşımı benimsiyor ve hareketsiz görüntüler yerine videolara uyguluyor. Ancak araştırmacılar karışıma başka bir teknik de eklemişler. DALL-E veya diğer üretken video modellerinin çoğunun aksine Sora, difüzyon modelini transformatör adı verilen bir tür sinir ağıyla birleştiriyor.

Transformatörler, kelimeler gibi uzun veri dizilerini işlemede harika. Bu da onları OpenAI’nin GPT-4’ü ve Google DeepMind’ın Gemini’si gibi büyük dil modellerinin içindeki özel sos haline getirmiştir. Ancak videolar kelimelerden oluşmuyor. Bunun yerine, araştırmacıların videoları sanki öyleymiş gibi ele alınabilecek parçalara ayırmanın bir yolunu bulmaları gerekiyordu. Buldukları yaklaşım, videoları hem uzay hem de zaman boyunca zarlara ayırmaktı. Brooks, “Bu, tüm video karelerinden oluşan bir yığına sahip olmanız ve ondan küçük küpler kesmeniz gibi bir şey” diyor.

Sora’nın içindeki dönüştürücü daha sonra bu video veri parçalarını, büyük bir dil modelinin içindeki dönüştürücünün bir metin bloğundaki kelimeleri işlemesine benzer şekilde işleyebilir. Araştırmacılar bu sayede Sora’yı çözünürlük, süre, en-boy oranı ve yönelim açısından çeşitlilik gösteren diğer metin-video modellerine kıyasla çok daha fazla video türü üzerinde eğitebildiklerini söylüyor. Brooks, “Bu, modele gerçekten yardımcı oluyor. Bu, üzerinde daha önce çalışılmış olduğunu bilmediğimiz bir konu” diyor.

PROMPT: Birkaç dev yünlü mamut karlı bir çayırda ilerleyerek yaklaşıyor, uzun yünlü kürkleri yürürken rüzgarda hafifçe dalgalanıyor, karla kaplı ağaçlar ve uzaktaki dramatik karla kaplı dağlar, hafif bulutlarla öğleden sonra ışığı ve uzaktaki güneş sıcak bir parıltı yaratıyor, alçak kamera görüntüsü büyük tüylü memeliyi güzel fotoğrafçılık, alan derinliği ile yakalayan çarpıcı.

Video teknolojisinin kullanımı ve kötüye kullanımı konusunda uzmanlaşmış bir insan hakları örgütü olan Witness’ın yönetici direktörü Sam Gregory, “Teknik açıdan bakıldığında ileriye doğru çok önemli bir adım gibi görünüyor. Ancak madalyonun iki yüzü var. İfade yetenekleri, çok daha fazla insanın video kullanarak hikaye anlatıcısı olma potansiyelini sunuyor. Ayrıca kötüye kullanım için de gerçek potansiyel yollar var” dedi.

İLGİLİ YAZI : Üretken yapay zeka 2026 yılına kadar 1 trilyon Dolarlık verimlilik sağlayacak

OpenAI, üretken bir video modeliyle gelen risklerin çok iyi farkında. Deepfake görüntülerin büyük ölçekli kötüye kullanımını zaten görüyoruz. Fotogerçekçi video bunu başka bir seviyeye taşıyor.

Gregory, çatışma bölgeleri veya protestolar hakkında insanları yanlış bilgilendirmek için böyle bir teknolojinin kullanılabileceğini belirtiyor. Stil çeşitliliğinin de ilginç olduğunu söylüyor. Telefonla çekilmiş gibi görünen titrek görüntüler oluşturabilseydiniz, daha gerçekçi görünürdü.

Teknoloji henüz o noktada değil ama üretken video sadece 18 ay içinde sıfırdan Sora’ya ulaştı. Gregory, “Tamamen sentetik içeriğin, insan tarafından üretilen içeriğin ve ikisinin karışımının olacağı bir evrene gireceğiz” diyor.

OpenAI ekibi geçen yıl DALL-E 3 için yaptığı güvenlik testlerinden yararlanmayı planlıyor. Sora halihazırda modele gönderilen tüm istemler üzerinde çalışan ve şiddet içeren, cinsel içerikli veya nefret dolu görüntülerin yanı sıra bilinen kişilerin görüntülerine yönelik talepleri engelleyecek bir filtre içeriyor. Bir başka filtre ise oluşturulan videoların karelerine bakacak ve OpenAI’nin güvenlik politikalarını ihlal eden materyalleri engelleyecek.

OpenAI ayrıca DALL-E 3 için geliştirilen bir sahte görüntü dedektörünü Sora ile kullanmak üzere uyarladığını söylüyor. Ayrıca şirket, bir görüntünün nasıl oluşturulduğunu belirten meta veriler olan endüstri standardı C2PA etiketlerini Sora’nın tüm çıktılarına yerleştirecek. Ancak bu adımlar kusursuz olmaktan uzak. Sahte görüntü dedektörleri isabetli ya da isabetsiz. Meta verileri kaldırmak kolay ve çoğu sosyal medya sitesi varsayılan olarak yüklenen görüntülerden bunları siliyor.

Ramesh, “Bunu piyasaya sürmeden önce kesinlikle daha fazla geri bildirim almamız ve video ile ele alınması gereken risk türleri hakkında daha fazla bilgi edinmemiz gerekecek” diyor.

Brooks da aynı fikirde ve “Bu araştırma hakkında şimdi konuşmamızın bir nedeni de, bunun nasıl güvenli bir şekilde kullanılabileceğini anlamak için gerekli çalışmaları yapmak üzere ihtiyaç duyduğumuz girdileri almaya başlayabilmemiz” diyor.

Kaynak: Will Douglas Heaven / MIT Technology Review

Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, Twitter, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.

OpenAI’dan muhteşem yeni bir üretken video modeli: Sora

Mutlaka Okumalısın

Z kuşağına yönelik yaratıcı, yapay zeka destekli mesajlaşma uygulaması: Daze

ChatGPT Windows’a geliyor

Janus, yenilikçi mimari aracılığıyla çok modlu anlayışı ve görsel üretimi bir araya getiriyor

Google, NotebookLM dakikasını bir ChatGPT anına dönüştürmek istiyor

Teknik tease

Daha Fazla

CEVAP VER İptal

Son Haberler

Z kuşağına yönelik yaratıcı, yapay zeka destekli mesajlaşma uygulaması: Daze

ChatGPT Windows’a geliyor

Janus, yenilikçi mimari aracılığıyla çok modlu anlayışı ve görsel üretimi bir araya getiriyor

Google, NotebookLM dakikasını bir ChatGPT anına dönüştürmek istiyor

Perplexity, şirketler için ‘Dahili Bilgi Arama’yı tanıttı

Popüler

Kurumsal

Son Yorumlar

Son Yazılar

Z kuşağına yönelik yaratıcı, yapay zeka destekli mesajlaşma uygulaması: Daze

ChatGPT Windows’a geliyor