18.9 C
İstanbul

Google Gemini: Yeni üretken yapay zeka platformu hakkında bilmeniz gereken her şey

Google Gemini nedir? Onu nasıl kullanabilirsiniz ve rakiplerine kıyasla nasıl bir performans sergiliyor?

Mutlaka Okumalısın

Google, kısa süre önce büyük bir çıkış yapan yeni bir üretken yapay zeka platformu olan Gemini ile çıkış yapmaya çalışıyor. Ancak Gemini bazı açılardan umut verici görünse de bazı açılardan yetersiz kalıyor. Peki Gemini nedir? Onu nasıl kullanabilirsiniz? Ve rakiplerine kıyasla nasıl bir performans sergiliyor?

Gemini Nedir?

Gemini, Google’ın yapay zeka araştırma laboratuvarları DeepMind ve Google Research tarafından geliştirilen, Google’ın uzun süredir vaat ettiği yeni nesil üretken yapay zeka model ailesi. Üç farklı çeşidi bulunuyor:

  • Gemini Ultra, amiral gemisi Gemini modeli
  • Gemini Pro, “lite” Gemini modeli
  • Gemini Nano, Pixel 8 Pro gibi mobil cihazlarda çalışan daha küçük bir “damıtılmış” model

Tüm Gemini modelleri “doğal olarak çok modlu” olacak şekilde eğitildi; başka bir deyişle, metinden daha fazlasıyla çalışabiliyor ve bunları kullanabiliyor. Çeşitli sesler, görüntüler ve videolar, geniş bir kod tabanı seti ve farklı dillerdeki metinler üzerinde önceden eğitilmiş ve ince ayar yapılmış durumda.

Bu, Gemini’yi Google’ın yalnızca metin verileri üzerinde eğitilmiş olan kendi büyük dil modeli LaMDA gibi modellerden ayırıyor. LaMDA metinden başka bir şeyi anlayamaz veya üretemez (örneğin makaleler, e-posta taslakları vb.); ancak Gemini modellerinde durum böyle değil. Görüntüleri, sesleri ve diğer modaliteleri anlama yetenekleri hala sınırlı, ancak kullanılabiliyor.

Bard ve Gemini arasındaki fark nedir?

Google, markalaşma becerisinden yoksun olduğunu bir kez daha kanıtlayarak, Gemini’nin Bard’dan ayrı ve farklı olduğunu en başından beri açıkça belirtmedi. Bard sadece belirli Gemini modellerine erişilebilen bir arayüz. Gemini ve diğer gen AI modelleri için bir uygulama veya istemci olarak düşünün. Öte yandan Gemini bir model ailesi; bir uygulama veya ön uç değil. Bağımsız bir Gemini deneyimi yok ve muhtemelen hiçbir zaman da olmayacak. OpenAI’nin ürünleriyle karşılaştıracak olursanız, Bard, OpenAI’nin popüler diyalogsal yapay zeka uygulaması ChatGPT’ye karşılık gelir ve Gemini, ChatGPT’nin durumunda GPT-3.5 veya 4 olan ona güç veren dil modeline karşılık gelir.

Bu arada Gemini, şirketin genel yapay zeka stratejisine uyan ya da uymayan bir metinden görüntüye modeli olan Imagen-2’den de tamamen bağımsız. Merak etmeyin, bu konuda kafası karışan tek kişi siz değilsiniz!

Gemini Ne Yapabilir?

Gemini modelleri çok modlu olduğu için teorik olarak konuşmaları yazıya dökmekten resim ve videolara altyazı eklemeye ve sanat eseri üretmeye kadar bir dizi görevi yerine getirebilir. Bu yeteneklerin çok azı henüz ürün aşamasına ulaşmış durumda (daha sonra değineceğiz), ancak Google çok da uzak olmayan bir gelecekte bunların hepsinin ve daha fazlasının sözünü veriyor.

İLGİLİ YAZI :   Sağlıkta ses teknolojilerinin geleceği

Elbette şirketin sözüne güvenmek biraz zor.

Google, orijinal Bard lansmanında ciddi anlamda eksik teslimat yaptı. Daha yakın zamanda ise Gemini’nin yeteneklerini gösterdiğini iddia ettiği bir video ile tüyleri diken diken etmişti. Teknoloji devinin duyurusuna göre Gemini bugün bir şekilde mevcut; ancak oldukça sınırlı bir şekilde.

Yine de Google’ın iddialarında az çok dürüst olduğunu varsayarsak, işte Gemini modellerinin farklı katmanlarının piyasaya sürüldüklerinde neler yapabilecekleri:

Gemini Ultra

Diğer modellerin üzerine inşa edildiği “temel” model olan Gemini Ultra’yı şu ana kadar çok az kişi kullanabildi; sadece birkaç Google uygulaması ve hizmetinde “seçkin bir müşteri grubu”. Bu durum, bu yılın sonlarına doğru Google’ın en büyük modelinin daha geniş kapsamlı olarak piyasaya sürülmesine kadar değişmeyecek. Ultra hakkındaki bilgilerin çoğu Google’ın öncülük ettiği ürün demolarından geldi.

Google, Gemini Ultra’nın fizik ödevi gibi konularda yardımcı olmak, bir çalışma sayfasındaki problemleri adım adım çözmek ve önceden doldurulmuş cevaplardaki olası hataları işaret etmek için kullanılabileceğini söylüyor. Google, Gemini Ultra’nın belirli bir problemle ilgili bilimsel makaleleri tanımlamak gibi görevlere de uygulanabileceğini söylüyor; bu makalelerden bilgi çıkarmak ve grafiği daha yeni verilerle yeniden oluşturmak için gerekli formülleri oluşturarak bir grafikten “güncellemek”.

Gemini Ultra, daha önce de belirtildiği gibi teknik olarak görüntü oluşturmayı destekliyor. Ancak Google’a göre bu özellik, belki de mekanizmanın ChatGPT gibi uygulamaların görüntü üretme yönteminden daha karmaşık olması nedeniyle, lansman sırasında modelin ürünleştirilmiş versiyonunda yer almayacak. İstemleri bir görüntü oluşturucuya (ChatGPT’nin durumunda DALL-E 3 gibi) beslemek yerine, Gemini görüntüleri ara bir adım olmadan “doğal olarak” çıkarıyor.

Gemini Pro

Gemini Ultra’nın aksine, Gemini Pro bugün halka açık. Ancak kafa karıştırıcı bir şekilde, yetenekleri nerede kullanıldığına bağlı.

Google, Gemini Pro’nun ilk olarak salt metin biçiminde piyasaya sürüldüğü Bard’da, modelin akıl yürütme, planlama ve anlama yeteneklerinde LaMDA’ya göre bir gelişme olduğunu söylüyor. Carnegie Mellon ve BerriAI araştırmacıları tarafından yapılan bağımsız bir çalışma, Gemini Pro’nun daha uzun ve daha karmaşık muhakeme zincirlerini ele almada OpenAI’nin GPT-3.5’inden gerçekten daha iyi olduğunu buldu.

Ancak çalışma aynı zamanda, tüm büyük dil modelleri gibi Gemini Pro’nun da özellikle birkaç basamak içeren matematik problemlerinde zorlandığını ve kullanıcıların çok sayıda kötü akıl yürütme ve hata örneği bulduğunu ortaya koydu. En son Oscar ödüllerini kimin kazandığı gibi basit sorgularda çok sayıda olgusal hata yaptı. Google iyileştirme sözü verdi, ancak bunların ne zaman geleceği belli değil.

İLGİLİ YAZI :   SEC Başkanı Gary Gensler: Yapay zekanın neden olduğu finansal çöküş 'neredeyse kaçınılmaz'

Gemini Pro, Google’ın tam olarak yönetilen yapay zeka geliştirici platformu Vertex AI’da, metni girdi olarak kabul eden ve çıktı olarak metin üreten API aracılığıyla da kullanılabilir. Ek bir uç nokta olan Gemini Pro Vision, fotoğraf ve video dahil olmak üzere metin ve görüntüleri işleyebilir ve OpenAI’nin GPT-4 with Vision modeli doğrultusunda metin çıktısı verebilir.

Vertex AI’da Gemini Pro’yu kullanma.

Vertex AI içinde, geliştiriciler Gemini Pro’yu ince ayar veya “topraklama” sürecini kullanarak belirli bağlamlara ve kullanım durumlarına göre özelleştirebilirler. Gemini Pro, belirli eylemleri gerçekleştirmek için harici, üçüncü taraf API’lere de bağlanabilir.

“2024’ün başlarında” Vertex müşterileri Gemini Pro’dan yararlanarak özel olarak oluşturulmuş diyalogsal ses ve sohbet aracılarına (yani sohbet robotlarına) güç verebilecekler. Gemini Pro ayrıca Vertex AI’da arama özetleme, öneri ve yanıt oluşturma özelliklerini yönlendirmek için bir seçenek haline gelecek ve sorguları karşılamak için farklı kaynaklardan (örn. OneDrive, Salesforce) farklı modalitelerdeki belgelerden (örn. PDF’ler, görüntüler) yararlanacak.

Google’ın uygulama ve platform geliştiricilerine yönelik web tabanlı aracı AI Studio’da, Gemini Pro’yu kullanarak serbest biçimli, yapılandırılmış ve sohbet istemleri oluşturmak için iş akışları bulunuyor. Geliştiriciler hem Gemini Pro hem de Gemini Pro Vision uç noktalarına erişebilir ve çıktının yaratıcı aralığını kontrol etmek için model sıcaklığını ayarlayabilir ve ton ve stil talimatları vermek için örnekler sağlayabilir ve ayrıca güvenlik ayarlarını yapabilirler.

Gemini Nano

Gemini Nano, Gemini Pro ve Ultra modellerinin çok daha küçük bir versiyonu ve görevi bir sunucuya göndermek yerine doğrudan (bazı) telefonlarda çalışacak kadar verimli. Şimdiye kadar Pixel 8 Pro’da iki özelliği destekliyor: Kaydedici’de Özetleme ve Gboard’da Akıllı Yanıtlama.

Kullanıcıların ses kaydetmek ve yazıya dökmek için bir düğmeye basmalarını sağlayan Kaydedici uygulaması, kaydettiğiniz konuşmaların, röportajların, sunumların ve diğer parçacıkların Gemini destekli bir özetini içeriyor. Kullanıcılar, sinyal veya Wi-Fi bağlantısı olmasa bile bu özetleri alabiliyor ve gizliliğe bir selam olarak, bu süreçte telefonlarından hiçbir veri çıkmıyor.

Gemini Nano, Google’ın klavye uygulaması Gboard’da da geliştirici önizlemesi olarak yer alıyor. Burada, bir mesajlaşma uygulamasında sohbet ederken söylemek isteyeceğiniz bir sonraki şeyi önermeye yardımcı olan Akıllı Yanıt adlı bir özelliği destekliyor. Google, bu özelliğin başlangıçta yalnızca WhatsApp ile çalıştığını, ancak 2024’te daha fazla uygulamaya geleceğini söylüyor.

Gemini OpenAI’nin GPT-4’ünden daha mı iyi?

Google bu yılın sonlarına doğru Ultra’yı yayınlayana kadar Gemini ailesinin gerçekte ne durumda olduğunu bilmenin bir yolu yok, ancak şirket genellikle OpenAI’nin GPT-4’ü olan son teknoloji üzerinde iyileştirmeler yaptığını iddia etti.

İLGİLİ YAZI :   AWS ve NVIDIA, üretken yapay zekayı geliştirmek için ortaklığını genişletiyor

Google, Gemini Ultra’nın “büyük dil modeli araştırma ve geliştirmesinde yaygın olarak kullanılan 32 akademik kıyaslamadan 30’unda” mevcut en son teknoloji sonuçlarını aştığını iddia ederek Gemini’nin kıyaslamalardaki üstünlüğünü birkaç kez lanse etti. Şirket bu arada Gemini Pro’nun içerik özetleme, beyin fırtınası ve yazma gibi görevlerde GPT-3.5’ten daha yetenekli olduğunu söylüyor.

Ancak kıyaslamaların gerçekten daha iyi bir modele işaret edip etmediği sorusunu bir kenara bırakırsak, Google’ın işaret ettiği skorlar OpenAI’nin ilgili modellerinden yalnızca marjinal olarak daha iyi görünüyor. Ve – daha önce de belirtildiği gibi – bazı ilk izlenimler harika değildi, kullanıcılar ve akademisyenler Gemini Pro’nun temel gerçekleri yanlış anlama eğiliminde olduğunu, çevirilerle mücadele ettiğini ve zayıf kodlama önerileri verdiğini belirtti.

Gemini ne kadara mal olacak?

Gemini Pro’nun Bard’da ve şimdilik AI Studio ve Vertex AI’da kullanımı ücretsiz.

Ancak Gemini Pro Vertex’te önizlemeden çıktıktan sonra modelin maliyeti karakter başına 0,0025 dolar, çıktı maliyeti ise karakter başına 0,00005 dolar olacak. Vertex müşterileri 1.000 karakter başına (yaklaşık 140 ila 250 kelime) ve Gemini Pro Vision gibi modellerde görüntü başına (0,0025 $) ödeme yapıyor.

500 kelimelik bir makalenin 2.000 karakter içerdiğini varsayalım. Bu makaleyi Gemini Pro ile özetlemek 5 dolara mal olurken, benzer uzunlukta bir makale oluşturmak 0,1 dolara mal olacaktır.

Gemini’yi nerede deneyebilirsiniz?

Gemini Pro

Gemini Pro’yu deneyimlemek için en kolay yer Bard’dır. Pro’nun ince ayarlanmış bir sürümü şu anda ABD’de İngilizce olarak metin tabanlı Bard sorgularını yanıtlıyor, ek diller ve desteklenen ülkeler ise ileride gelecek.

Gemini Pro’ya Vertex AI’da bir API aracılığıyla önizlemede de erişilebilir. Şimdilik “sınırlar dahilinde” kullanımı ücretsiz olan API, Avrupa dahil 38 dil ve bölgenin yanı sıra sohbet işlevi ve filtreleme gibi özellikleri de destekliyor.

Başka bir yerde, Gemini Pro AI Studio’da bulunabilir. Geliştiriciler bu hizmeti kullanarak istemleri ve Gemini tabanlı sohbet robotlarını yineleyebilir ve ardından bunları uygulamalarında kullanmak için API anahtarları alabilir veya kodu daha tam özellikli bir IDE’ye aktarabilir.

Google’ın kod tamamlama ve oluşturmaya yönelik yapay zeka destekli yardım araçları paketi olan Duet AI for Developers, önümüzdeki haftalarda bir Gemini modeli kullanmaya başlayacak. Google, Gemini modellerini Chrome için geliştirme araçlarına ve Firebase mobil geliştirme platformuna aynı zamanda, 2024’ün başlarında getirmeyi planlıyor.

Gemini Nano

Gemini Nano Pixel 8 Pro’da yer alıyor ve gelecekte diğer cihazlara da gelecek. Bu modeli Android uygulamalarına dahil etmek isteyen geliştiriciler ön izleme için kaydolabilirler.

Kaynak: Kyle Wiggers / Techcrunch


Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, Twitter, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.

- Sponsorlu -spot_img

Daha Fazla

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

- Sponsorlu -spot_img

Son Haberler