TogtherAI ve Arc Enstitüsü’nden bir ekip, biyolojik araştırmalar için DNA, RNA ve proteinleri yorumlayabilen ve moleküler ve genomik düzeyde üretken tasarımı mümkün kılan bir yapay zeka modeli olan Evo’yu sunuyor.
Eric Nguyen, Michael Poli, Matthew Durrant, Patrick Hsu ve Brian Hie’den oluşan uzman bir ekip tarafından geliştirilen model, biyolojik verilerin işlenmesi ve analizinde bir kilometre taşını temsil ediyor. StripedHyena mimarisinin değiştirilmiş bir versiyonunu kullanan Evo, temel biyolojik “dilleri” (DNA, RNA ve proteinler) yorumlayarak tahminlerde bulunma ve moleküler düzeyden genomik düzeye kadar üretken tasarıma olanak sağlama becerisiyle benzersiz.
Yeni mimari, Evo’nun uzun bağlamları modellemesini ve 650.000’den fazla token’ı işlemesini sağlıyor. Bu, biyolojik yapay zeka modelleri için özellikle önemli çünkü DNA dizileri son derece uzun olabilir (milyarlarca nükleotide kadar) ve tek nükleotid değişikliklerine dayalı evrimin etkilerini anlamak için yüksek hassasiyet gerekli. Evo, DNA ve RNA’nın en küçük yapı taşlarını tanıyıp yorumlayarak nükleotid seviyesinde çalışıyor. Evo, uzunluğu 131 kilobaza (131.000 baz) kadar olan dizileri işleyebilir.
Evo ve StripedHyena’nın ortak yazarı Michael Poli, “Evo, biyolojide birleşik ve temel modellemeye doğru bir yol göstermeye çalışıyor” diyor. Dil modellerinde olduğu gibi, Evo da eğitim sırasında bir sonraki belirtecin tahmini olan bir sonraki belirteç tahmin hedefi kullanıyor; bu durumda nükleotid düzeyinde. Poli, “Şimdiye kadar bunun neden yapılmadığı konusundaki sorun, DNA hakkında anlamlı özellikler yakalamak istiyorsanız dizilerin son derece uzun olması ve ayrıca yüksek çözünürlükte öğrenmenin dönüştürücüler için oldukça zor olması” diyor. Örneğin, dil modellerinde metni token’lara dönüştüren ve genellikle karakter düzeyinde çalışmadıkları için LLM performansındaki sorunlardan sorumlu olan tokenizer’ları kastediyor, bunun yerine kelimelerin parçalarını veya birden fazla sayıyı bir token’a dönüştürüyor.
Ekip, Transfomer modellerini ve Mamba gibi diğer mimarileri eğitirken yaptıkları deneylerde de bunu yeniden üretmeyi başardı. Poli, “Şaşırtıcı olan şey, bu derin sinyal işleme mimarilerinin daha iyi ölçekleniyor gibi görünmesi. Sadece bu daha uzun dizileri işleyebilmeleri ve daha sonra transformatörler kadar iyi performans göstermeleri değil. Sanki flop başına daha iyi ölçekleniyorlar. Transformatörlerden daha iyi mimariler olduklarına inanıyorum” diyor.
Evo biyoloji için bir temel model
Evo, kamuya açık genomik verilerin bir kısmı olan 2,7 milyon prokaryotik genomdan oluşan büyük bir veritabanı üzerinde eğitildi. Model iki aşamada eğitildi. İlk aşamada, 8.000 baz çifti bağlam uzunluğu ile eğitildi; ikinci aşamada, bağlam uzunluğu 131.000 baz çiftine çıkarıldı. Bu, modelin kalıpları tanımasına ve önceki yöntemlerden çok daha uzun bir DNA dizisi hakkında tahminler yapmasına olanak tanır. İlgili eğitim veri seti OpenGenome, kısa süre içinde kamuya açık hale getirilecek.
Evo ile yapılan ilk deneyler, küçük DNA mutasyonlarına dayanarak bir organizmanın hayati genlerini tahmin etmek de dahil olmak üzere çeşitli uygulamalar için potansiyel gösteriyor. Bu yetenek, ekibin genellikle aylar sürebileceğini söylediği geleneksel laboratuvar deneylerinin yerini alabilir.
Testlerde, mutasyonların E. coli proteinlerinin işlevi üzerindeki etkilerini tahmin etmek için önde gelen proteine özgü dil modelleriyle rekabet edebildi. Evo ayrıca kodlamayan RNA’ların (ncRNA’lar) işlevsel özelliklerini tahmin edebilir ve düzenleyici DNA’dan gen ifadesini çıkarabilir.
Ayrıca Evo, CRISPR-Cas kompleksleri ve transposable elementler gibi karmaşık moleküler sistemler oluşturabiliyor. Evo ayrıca 650 kilobazdan daha uzun DNA dizileri üretebilir, bu da önceki yöntemlerden daha büyük bir büyüklük sırasıdır. Buna ek olarak, önceki üretici modeller tipik olarak tek bir modaliteye odaklanırken, Evo büyük fonksiyonel protein ve ncRNA kompleksleri tasarlayabiliyor.
Evo, moleküler ölçekten genomik ölçeğe kadar üretken tasarımlar geliştirebilir. | Video: Birlikte Yapay Zeka
Evo ekibi, modellerini kimya, malzeme bilimi, ilaç keşfi, tarım ve sürdürülebilirlik gibi çeşitli alanlarda potansiyel uygulamaları olan biyolojik dizilerin modellenmesinde potansiyel bir kilometre taşı olarak görüyor. Ancak ekibe göre, üretilen dizilerin pratik uygulaması için daha fazla doğrulama yapılması gerekecek.
Evo, tek nükleotid çözünürlüğü ile tüm genom düzeyinde DNA dizilerini tahmin edebilen ve üretebilen türünün ilk sistemi. Blog yazısında, “Evo gibi büyük ölçekli DNA modellerinden ortaya çıkan gelecekteki yetenekler, bu yeteneklerin güvenli bir şekilde ve insanlığın yararına kullanılmasını sağlamak için ek çalışmalar yapılmasını da gerektiriyor” deniliyor.
Potansiyel kötüye kullanım, sosyal ve sağlık adaletsizliği ve çevresel bozulma ile ilgili endişeler var. Ekip, etik uygulamalar için kapsamlı kılavuzlar geliştirilmesini, şeffaflığın teşvik edilmesini ve Evo gibi araçların sorumlu kullanımına ve geliştirilmesine katkıda bulunabilecek uluslararası işbirliklerinin ve ortaklıkların desteklenmesini öneriyor.
Eğitim ve kapasite geliştirmeye yapılan yatırımların yanı sıra Genomik ve Sağlık için Küresel İttifak (GA4GH) gibi kuruluşlarla işbirliği de genetik mühendisliğindeki ilerlemelerin etik ilkeler ve toplumsal değerlerle tutarlı olduğu bir geleceğe katkıda bulunabilir.
Ekip GitHub üzerinden kod ve model sağlıyor.
Kaynak: The-Decoder
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.