OpenAI, ilk geliştirici gününde bir dizi yeni API’nin lansmanını yaptı.
OpenAI’nin metinden görüntüye modeli olan DALL-E 3, ilk olarak ChatGPT ve Bing Chat’e geldikten sonra artık bir API aracılığıyla kullanılabilir. OpenAI, DALL-E’nin önceki sürümüne (örneğin DALL-E 2) benzer şekilde, API’nin kötüye kullanıma karşı korunmaya yardımcı olmak için yerleşik moderasyon içerdiğini söylüyor.
DALL-E 3 API, farklı format ve kalite seçenekleri ile 1024×1024 ila 1792×1024 arasında değişen çözünürlükler sunuyor ve oluşturulan görüntü başına 0,04 $’dan başlayan fiyatlar sunuyor. Ancak DALL-E 2 API’ye kıyasla biraz sınırlı; en azından şu anda.
DALL-E 2 API’sinin aksine, DALL-E 3, modelin önceden var olan bir görüntünün bazı alanlarını değiştirmesini sağlayarak görüntülerin düzenlenmiş sürümlerini oluşturmak veya mevcut bir görüntünün varyasyonlarını oluşturmak için kullanılamaz. OpenAI, DALL-E 3’e bir oluşturma talebi gönderildiğinde, “güvenlik nedenleriyle” ve “daha fazla ayrıntı eklemek için” otomatik olarak yeniden yazacağını söylüyor – bu da talebe bağlı olarak daha az kesin sonuçlara yol açabilir.
Başka bir yerde, OpenAI artık aralarından seçim yapabileceğiniz altı ön ayarlı ses (Alloy, Echo, Fable, Onyx, Nova ve Shimer) ve iki üretken AI modeli varyantı sunan bir metinden konuşmaya API, Audio API sağlıyor. Bugünden itibaren yayında ve 1.000 karakterlik girdi başına 0,015 dolardan başlayan fiyatlarla.
OpenAI Sam Altman sahnede yaptığı açıklamada, “Bu, daha önce duyduğumuz her şeyden çok daha doğal, bu da uygulamaları daha doğal ve daha erişilebilir hale getirebilir. Ayrıca dil öğrenme ve sesli yardım gibi pek çok kullanım alanının da kilidini açıyor” dedi.
Bazı konuşma sentezi platformları ve araçlarının aksine OpenAI, üretilen sesin duygusal etkisini kontrol etmek için bir yol sunmuyor. Şirket, Ses API’sinin dokümantasyonunda, yüksek sesle okunan metindeki büyük harf kullanımı veya dilbilgisi gibi “belirli faktörlerin” üretilen seslerin nasıl duyulduğunu etkileyebileceğini, ancak OpenAI’nin bununla ilgili dahili testlerinin “karışık sonuçlar” verdiğini belirtiyor.
OpenAI, sesin yapay zeka tarafından üretildiğini kullanıcılara bildirmek için gerekli olan geliştiricileri zorunlu kılıyor.
İlgili bir duyuruda OpenAI, şirketin diller arasında gelişmiş performansa sahip olduğunu iddia ettiği açık kaynaklı otomatik konuşma tanıma modeli Whisper large-v3’ün bir sonraki sürümünü başlattı. GitHub’da, izin verilen bir lisans altında mevcut.
Yapayzeka.news’in hiçbir güncellemesini kaçırmamak için bizi Facebook, Twitter, LinkedIn, Instagram‘ ve Whatsapp Kanalımız‘dan takip edin.