Biyoloji için geliştirilen en büyük modellerden biri olan, proteinlerin dilini konuşan yapay zeka (YZ) modeli, yeni floresan molekülleri oluşturmak için kullanıldı.
İlke kanıtı gösterimi bu ay New York City’deki EvolutionaryScale tarafından duyuruldu ve modelini ilaç geliştirme , sürdürülebilirlik ve diğer arayışlara uygulamak için 142 milyon ABD doları tutarında yeni fon sağlandı. Daha önce teknoloji devi Meta’da çalışmış bilim insanları tarafından kurulan şirket, dil ve görüntüler üzerinde eğitilmiş son teknoloji makine öğrenimi modellerini biyolojik verilere uygulayan giderek kalabalıklaşan bir alana en son giren şirket oldu.
Meta’nın yapay zekayı biyolojik verilere uygulama çabalarında yer alan şirketin baş bilim insanı Alex Rives, “Biyolojiyi programlanabilir hale getirebilecek araçlar geliştirmek istiyoruz” diyor.
EvolutionaryScale’in ESM3 adlı AI aracı, protein dili modeli olarak bilinir. 2,7 milyardan fazla protein dizisi ve yapısı ve bu proteinlerin işlevleri hakkında bilgi üzerinde eğitildi. Model, ChatGPT gibi sohbet robotları tarafından tükürülecek metne benzer şekilde, kullanıcılar tarafından sağlanan özelliklere göre proteinler oluşturmak için kullanılabilir.
Wisconsin-Madison Üniversitesi’nde hesaplamalı biyolog olan Anthony Gitter, “Bu, biyolojide herkesin dikkatini çeken yapay zeka modellerinden biri olacak” diyor.
Rives ve meslektaşları Meta’da ESM modelinin daha önceki yinelemeleri üzerinde çalıştılar, ancak Meta bu alandaki çalışmalarını sonlandırdıktan sonra geçen yıl kendi başlarına yola çıktılar. Daha önce, 600 milyon tahmin edilen protein yapısının serbestçe erişilebilen bir veritabanını oluşturmak için ESM-2 modelini kullanmışlardı. Diğer ekipler o zamandan beri ESM-1’in versiyonlarını kullanarak SARS-CoV-2 2 dahil patojenlere karşı geliştirilmiş aktiviteye sahip antikorlar tasarladılar ve gen düzenleme araçlarının verimliliğini artırmak için ‘anti-CRISPR’ proteinlerini yeniden tasarladılar.
Bu yıl, Kaliforniya’nın Berkeley kentindeki bir başka biyoloji yapay zeka şirketi olan Profluent, kendi protein dili modelini kullanarak CRISPR’dan esinlenen yeni gen düzenleme proteinleri yarattı ve bu moleküllerden birini serbestçe kullanıma sundu.
Rives’in ekibi, son modelini göstermek için başka bir biyoteknoloji iş gücünü elden geçirmeye koyuldu: mavi ışığı emen ve yeşil parlayan yeşil floresan proteini (GFP). Araştırmacılar, 1960’larda biyolüminesan denizanası Aequorea victoria’dan GFP’yi izole ettiler . Daha sonraki çalışmalar — keşifle birlikte Nobel ödülüyle tanındı — GFP’nin mikroskop altında görüntülenen diğer proteinleri nasıl etiketleyebileceğini gösterdi, floresansının moleküler temelini açıkladı ve proteinin çok daha parlak ve farklı renklerde parlayan sentetik versiyonlarını geliştirdi.
Araştırmacılar o zamandan beri, hepsi ışığı emen ve yayan bir ‘kromofor’ çekirdeğini, fıçı biçimli bir iskeleyle çevrelenmiş şekilde paylaşan benzer şekilde şekillendirilmiş diğer floresan proteinleri tanımladılar. Rives’ın ekibi, ESM3’ten GFP’nin kromoforunda bulunan bir dizi anahtar amino asit içeren GFP benzeri protein örnekleri yaratmasını istedi.
Araştırmacılar en umut verici tasarımlardan 88’ini sentezlediler ve floresan yeteneklerini ölçtüler. Çoğu başarısızdı, ancak bilinen floresan proteinlerinden farklı olan bir tasarım, hafifçe parladı – doğal GFP formlarından yaklaşık 50 kat daha zayıf. Bu molekülün dizisini bir başlangıç noktası olarak kullanan araştırmacılar, ESM3’ü çalışmalarını geliştirmesi için görevlendirdiler. Araştırmacılar ortaya çıkan tasarımlardan yaklaşık 100 tanesini yaptığında, birçoğu laboratuvarda tasarlanmış varyantlardan hala çok daha sönük olan doğal GFP’ler kadar parlaktı.
ESM3 tarafından tasarlanan en parlak proteinlerden biri olan esmGFP’nin, doğal floresan proteinlerinin yapısına benzeyen bir yapıya sahip olması öngörülüyor. Ancak amino asit dizisi çok farklı ve eğitim veri setindeki en yakın ilişkili floresan proteininin dizisinin %60’ından daha azına uyuyor. BioRxiv sunucusunda yayınlanan bir ön baskıda Rives ve meslektaşları, doğal mutasyon oranlarına dayanarak bu düzeydeki dizi farkının “500 milyon yıldan fazla evrim” anlamına geldiğini söylüyor.
Ancak Gitter, bu karşılaştırmanın, son teknoloji bir AI modelinin ürününü tanımlamanın yararsız ve potansiyel olarak yanıltıcı bir yolu olduğundan endişe ediyor. “AI ve hızlanan evrimi düşündüğünüzde kulağa korkutucu geliyor,” diyor. “Bir modelin ne yaptığını abartmanın alana zarar verebileceğini ve halk için tehlikeli olabileceğini düşünüyorum.
Rives, ESM3’ün çeşitli diziler arasında yineleme yaparak yeni proteinler üretmesini evrime benzetiyor. “Doğanın böyle bir şey üretmesi için gereken perspektifin ilginç olduğunu düşünüyoruz,” diye ekliyor.
Risk eşiği
ESM-3, 2023 başkanlık kararnamesi uyarınca geliştiricilerin ABD hükümetine bildirimde bulunmasını ve risk azaltma önlemlerini bildirmesini gerektirecek kadar eğitim sırasında yeterli bilgi işlem gücü kullanan ilk biyolojik AI modelleri arasındadır . EvolutionaryScale, ABD Bilim ve Teknoloji Politikası Ofisi ile halihazırda iletişime geçtiğini söylüyor.
Bu eşiği aşan ESM3 sürümü — yaklaşık 100 milyar parametre veya modelin diziler arasındaki ilişkileri temsil etmek için kullandığı değişkenler — kamuya açık değildir. Daha küçük bir açık kaynaklı sürüm için, virüslerden ve ABD hükümetinin endişe verici patojenler ve toksinler listesinden gelenler gibi belirli diziler eğitimden hariç tutulmuştur. Ayrıca, bilim insanlarının her yerde indirip bağımsız olarak çalıştırabileceği ESM3-open da bu tür proteinleri üretmeye yönlendirilemez.
Lozan’daki İsviçre Federal Teknoloji Enstitüsü’nde yapısal biyolog olan Martin Pacesa, ESM3 ile çalışmaya başlamaktan heyecan duyuyor. Araştırmacıların özelliklerinin ve işlevlerinin doğal dil açıklamalarını kullanarak tasarımlar belirlemesine olanak tanıyan ilk biyolojik modellerden biri olduğunu belirtiyor ve bunun ve diğer özelliklerin deneysel olarak nasıl performans gösterdiğini görmek için sabırsızlanıyor.
Pacesa, EvolutionaryScale’in ESM3’ün açık kaynaklı bir sürümünü ve en büyük sürümün nasıl eğitildiğine dair net bir açıklama yayınlamasından etkilenmiş. Ancak en büyük modelin bağımsız olarak geliştirilmesi için muazzam bilgi işlem kaynakları gerekeceğini söylüyor. “Hiçbir akademik laboratuvar bunu kopyalayamayacak.”
Rives, ESM-3’ü diğer tasarımlara uygulamak için can atıyor. Yeni CRISPR proteinleri yapmak için farklı bir protein dili modeli kullanan ekibin bir parçası olan Pacesa, ESM-3’ün bunu nasıl başaracağını görmenin ilginç olacağını söylüyor. Rives, sürdürülebilirlikte uygulamalar öngörüyor (web sitelerindeki bir videoda plastik yiyen enzimlerin tasarımı gösteriliyor) ve antikorların ve diğer protein bazlı ilaçların geliştirilmesinde “Bu gerçekten sınırda bir model” diyor.
Kaynak: Neture
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.