Mount Sinai’deki Icahn Tıp Fakültesi’nden bir grup tıp araştırmacısı kısa süre önce yapay zeka (AI) sohbet robotları üzerine bir çalışma yürüttü ve “üretken büyük dil modellerinin kanıta dayalı tıbbın otonom uygulayıcıları” olduğunu belirledi.
Deney
arXiv’de yayınlanan ön baskı araştırmasına göre Mount Sinai ekibi, ChatGPT 3.5 ve 4 ile Gemini Pro’nun yanı sıra LLaMA v2 ve Mixtral-8x7B açık kaynak modelleri de dahil olmak üzere çeşitli kullanıma hazır tüketiciye yönelik büyük dil modellerini (LLM’ler) test etti.
Modellere “siz bir tıp profesörüsünüz” gibi bilgilerle tasarlanmış istemler verildi ve ardından bir dizi test vakası için uygun tedavi sürecini önermek üzere kanıta dayalı tıp (Evidence-Based Medical – EBM) protokollerini takip etmeleri istendi.
Bir vaka verildiğinde, modellere test istemek veya bir tedavi protokolü başlatmak gibi bir sonraki eylemi önermeleri görevi verildi. Daha sonra eylemin sonuçları verildi ve bu yeni bilgiyi entegre etmeleri ve bir sonraki eylemi önermeleri istendi ve bu böyle devam etti.
Ekibe göre ChatGPT 4, tüm vakalarda %74 doğruluk oranına ulaşarak ve bir sonraki en iyi modeli (ChatGPT 3.5) yaklaşık %10’luk bir farkla geride bırakarak en başarılı model oldu.
Bu performans, ekibi bu tür modellerin tıp pratiği yapabileceği sonucuna götürdü. Makaleye göre:
“LLM’lerin kanıta dayalı tıbbın özerk uygulayıcıları olarak işlev görmeleri sağlanabilir. Araçları kullanma becerileri, gerçek dünyadaki bir sağlık sisteminin altyapısıyla etkileşime girmeleri ve hasta yönetimi görevlerini kılavuzlara uygun bir şekilde yerine getirmeleri için kullanılabilir.”
Otonom tıp
EBM, benzer vakalarda tedavinin gidişatını belirlemek için önceki vakalardan çıkarılan dersleri kullanıyor. EBM bu şekilde bir akış şeması gibi çalışsa da, komplikasyonların, permütasyonların ve genel kararların sayısı süreci hantal hale getirebilir. Araştırmacıların belirttiği gibi:
“Klinisyenler genellikle, yönetebilecekleri veya takip edebilecekleri olası etkileşimlerin ve tedavi yollarının sayısının çok fazla olması nedeniyle aşırı bilgi yüklemesi sorunuyla karşı karşıya kalıyor.”
Ekibin makalesi, insanlar fiziksel bakıma odaklanırken, LLM’lerin “tetkik isteme ve yorumlama veya alarm verme” gibi genellikle insan tıp uzmanları tarafından yerine getirilen görevleri yerine getirerek bu aşırı yükü hafifletebileceğini gösteriyor.
Araştırmacılar, “LLM’ler klinik bağlamı anlayabilen ve olası aşağı akış eylemleri üretebilen çok yönlü araçlar” diye yazıyor.
Mevcut sınırlamalar
Araştırmacıların bulguları, modern LLM’lerin yeteneklerine ilişkin sahip oldukları algı nedeniyle biraz önyargılı olabilir. Ekip bir noktada “LLM’ler bizi Yapay Genel Zeka vaadine yaklaştıran derin araçlardır” diye yazıyor.
Ayrıca belgede iki kez şu iddiada bulunuyorlar: “LLM’lerin muhakeme kapasitesinin, bu tür modelleri doğal dil kullanılarak sorgulanabilen veritabanları olarak ele almanın çok ötesinde etkileri olabilecek derin bir yetenek olduğunu gösteriyoruz.”
Ancak, bilgisayar bilimcileri arasında ChatGPT’nin temelini oluşturan modeller de dahil olmak üzere LLM’lerin herhangi bir muhakeme kapasitesine sahip olduğu konusunda genel bir fikir birliği yok.
Can language models learn to reason by end-to-end training? We show that near-perfect test accuracy is deceiving: instead, they tend to learn statistical features inherent to reasoning problems. See more in https://t.co/2F1s1cB9TE @LiLiunian @TaoMeng10 @kaiwei_chang @guyvdb
— Honghua Zhang (@HonghuaZhang2) May 24, 2022
Dahası, bilim insanları ve yapay zeka uzmanları arasında yapay genel zekanın mümkün olup olmadığı veya anlamlı bir zaman dilimi içinde başarılabilir olup olmadığı konusunda daha da az fikir birliği var.
Makale yapay genel zekayı tanımlamıyor ya da yazarlarının LLM’lerin muhakeme yapabildiğine dair beyanını genişletmiyor. Ayrıca, mevcut klinik iş akışlarına öngörülemeyen otomatik bir sistemin eklenmesini içeren etik hususlardan da bahsetmiyor.
ChatGPT gibi LLM’ler her sorgulandıklarında yeni bir metin üretirler. Bir LLM, test yinelemeleri sırasında beklendiği gibi performans gösterebilir, ancak klinik bir ortamda, zaman zaman saçma sapan şeyler üretmesini kısıtlayabilecek bir yöntem yok; “halüsinasyon” olarak adlandırılan bir fenomen.
Araştırmacılar testleri sırasında halüsinasyonların asgari düzeyde olduğunu iddia ediyor. Bununla birlikte, ölçekte hafifletme tekniklerinden bahsedilmiyor.
Araştırmacıların kıyaslamalarına rağmen, ChatGPT gibi genel bir sohbet botunun klinik EBM ortamında statükoya veya seçilmiş, ilgili verilerden oluşan bir külliyat üzerinde eğitilmiş ısmarlama bir tıbbi LLM’ye göre ne gibi faydaları olacağı belirsizliğini koruyor.
Kaynak: Cointelegraph
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, Twitter, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.