13.2 C
İstanbul

Google’ın ChatGPT’nin Gelişmiş Ses Moduna cevabı olan Gemini Live kullanıma sunuldu

Google'ın OpenAI'nin ChatGPT'si için kısa süre önce (sınırlı alfa sürümünde) başlattığı Gelişmiş Ses Moduna yanıtı olan Gemini Live kullanıma sunuldu.

Mutlaka Okumalısın

Google’ın OpenAI’nin ChatGPT’si için kısa süre önce (sınırlı alfa sürümünde) başlattığı Gelişmiş Ses Moduna yanıtı olan Gemini Live, Google’ın I/O 2024 geliştirici konferansında duyurulduktan aylar sonra kullanıma sunuldu.

Gemini Live, kullanıcıların akıllı telefonlarında Google’ın yapay zeka destekli sohbet robotu Gemini ile “derinlemesine” sesli sohbetler yapmasına olanak tanıyor. Google’ın daha tutarlı, duygusal olarak etkileyici ve gerçekçi olduğunu iddia ettiği çok turlu diyaloglar sunan gelişmiş bir konuşma motoru sayesinde, insanlar sohbet robotu konuşurken Gemini’nin sözünü keserek takip soruları sorabiliyor ve Gemini de onların konuşma kalıplarına gerçek zamanlı olarak uyum sağlıyor.

Google bunu bir blog yazısında şu şekilde açıklıyor: “Gemini Live [Gemini uygulaması aracılığıyla] ile Gemini ile konuşabilir ve yanıt verebileceği [10 yeni] doğal ses arasından seçim yapabilirsiniz. Hatta kendi hızınızda konuşabilir veya herhangi bir konuşmada yaptığınız gibi açıklayıcı sorularla yanıtın ortasında araya girebilirsiniz.”

Gemini Live, eğer isterseniz eller serbesttir. Gemini uygulaması ile arka planda veya telefonunuz kilitliyken konuşmaya devam edebilirsiniz ve konuşmalar herhangi bir zamanda duraklatılabilir ve devam ettirilebilir. Peki bu nasıl faydalı olabilir?

Google bir iş görüşmesi için prova yapma örneğini veriyor – biraz ironik bir senaryo, ama tamam. Google, Gemini Live’ın sizinle birlikte pratik yapabileceğini, konuşma ipuçları verebileceğini ve bir işe alım yöneticisiyle (ya da duruma göre yapay zekayla) konuşurken vurgulamanız gereken becerileri önerebileceğini söylüyor.

Gemini Live’ın ChatGPT’nin Gelişmiş Ses Moduna göre bir avantajı daha iyi bir hafızaya sahip olması olabilir. Live, Gemini 1.5 Pro ve Gemini 1.5 Flash’ın temelini oluşturan üretken yapay zeka modelinin mimarisi, ortalamadan daha uzun bir “bağlam penceresine” sahiptir, yani bir yanıt oluşturmadan önce çok sayıda veriyi (teorik olarak saatlerce süren ileri geri konuşmalar) alabilir ve üzerinde mantık yürütebilirler.

İLGİLİ YAZI :   Google, SearchGPT başlatmasından saatler önce yapay zekasına Arama'ya erişim izni verdi

Bir Google sözcüsü TechCrunch’a e-posta yoluyla yaptığı açıklamada “Live, daha konuşkan olacak şekilde uyarladığımız Gemini Advanced modellerimizi kullanıyor” dedi. “Kullanıcılar Live ile uzun konuşmalar yaptığında modelin geniş bağlam penceresi kullanılıyor.”

Elbette tüm bunların pratikte ne kadar iyi çalıştığını görmemiz gerekecek. OpenAI’nin Gelişmiş Ses Modu ile yaşadığı aksaklıklar bir gösterge ise, demoların gerçek dünyaya sorunsuz bir şekilde aktarılması nadirdir.

Bu bağlamda, Gemini Live henüz Google’ın I/O’da sergilediği yeteneklerden birine sahip değil: Çok modlu giriş. Mayıs ayında Google, Gemini Live’ın telefon kameraları tarafından çekilen fotoğraflar ve görüntüler aracılığıyla kullanıcıların çevresini görmesini ve yanıt vermesini gösteren önceden kaydedilmiş videolar yayınladı – örneğin, bozuk bir bisikletteki bir parçayı adlandırmak veya bilgisayar ekranındaki bir kod bölümünün ne işe yaradığını açıklamak gibi.

Google, çok modlu girişin “bu yılın ilerleyen zamanlarında” geleceğini söyledi ve ayrıntı vermeyi reddetti. Ayrıca bu yılın ilerleyen dönemlerinde Live, Google uygulaması aracılığıyla başka dillere ve iOS’a da yayılacak; şimdilik yalnızca İngilizce olarak kullanılabiliyor.

Gemini Live, Gelişmiş Ses Modu gibi ücretsiz değil. Gemini’nin daha sofistike bir versiyonu olan Gemini Advanced’a özel olan bu özellik, aylık 20 dolar fiyatla Google One AI Premium Plan’ın arkasında yer alıyor.

Yolda olan diğer yeni Gemini özellikleri ise ücretsiz.

Android kullanıcıları yakında (önümüzdeki haftalarda) telefonlarının güç düğmesini basılı tutarak ya da “Hey Google” diyerek ekrandakiler (örneğin bir YouTube videosu) hakkında sorular sormak için kullandıkları herhangi bir uygulamanın üzerine Gemini’nin yer paylaşımını getirebilecekler. Gemini, Gmail ve Google Mesajlar gibi uygulamalara sürüklenip bırakılabilen görüntüleri (ne yazık ki hala insan görüntüleri değil) doğrudan yer paylaşımından üretebilecek.

Gemini ayrıca hem mobil hem de web üzerinde Google hizmetleriyle (ya da şirketin tercih ettiği adıyla “uzantılarla”) yeni entegrasyonlar kazanıyor. Önümüzdeki haftalarda Gemini, zamanlayıcılar ve alarmlar, medya kontrolleri, el feneri, ses seviyesi, Wi-Fi, Bluetooth ve benzeri cihaz içi özellikleri kontrol eden uygulamalar olan Google Takvim, Keep, Görevler, YouTube Müzik ve Yardımcı Programlar ile daha fazla işlem yapabilecek.

İLGİLİ YAZI :   OpenAI'nin GPT mağazası spam ile dolup taştı

Bir blog yazısında Google, insanların nasıl yararlanabileceğine dair birkaç fikir veriyor. Her şeyin güvenilir bir şekilde çalıştığını varsayarsak kulağa hoş geliyor:

  • Gemini’den “bana 90’ların sonlarını hatırlatan şarkılardan oluşan bir çalma listesi yapmasını” isteyin.
  • Bir konser broşürünün fotoğrafını çekin ve Gemini’ye o gün boş olup olmadığınızı sorun – ve hatta bilet almak için bir hatırlatıcı ayarlayın.
  • Gemini’nin Gmail’den bir yemek tarifi bulmasını ve malzemeleri Keep’teki alışveriş listenize eklemesini isteyin.

Son olarak, bu haftadan itibaren Gemini Android tabletlerde de kullanılabilecek.

Kaynak: TechCrunch


Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, X (Twitter), Bluesky, LinkedIn, Instagram ve Whatsapp Kanalımız‘dan takip edin.

- Sponsorlu -spot_img

Daha Fazla

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

- Sponsorlu -spot_img

Son Haberler