OpenAI bir ses klonlama aracı geliştirdi, Ancak henüz kullanamazsınız !
OpenAI, deepfake’lerin artışıyla birlikte, ses klonlama teknolojisini geliştirdiğini ancak bunu sorumlu bir şekilde yürüttüğünü vurguluyor.
Bugün, OpenAI’in mevcut metin-ses API’sini genişleten Voice Engine’in önizleme sürümü tanıtıldı. Yaklaşık iki yıl boyunca geliştirilen Voice Engine, kullanıcıların herhangi bir 15 saniyelik ses örneğini yükleyerek o sesin sentetik bir kopyasını oluşturmasına olanak sağlıyor. Ancak genel erişim için henüz bir tarih belirlenmedi; bu da şirketin modelin nasıl kullanıldığına ve kötüye kullanımına karşı nasıl yanıt vereceğine dair zaman tanıyor.
OpenAI’in ürün kadrosundan Jeff Harris, “Bu teknolojinin kullanımıyla ilgili herkesin kendini rahat hissetmesini istiyoruz. Tehlikeli olduğu düşünülen alanların farkındayız ve buna karşı önlemlerimiz olduğunu bilmelerini istiyoruz,” dedi.
Modeli eğitmek
Voice Engine’i güçlendiren üretken yapay zeka modelinin uzun süredir geliştirildiğini belirtti Harris.
OpenAI’in yapay zeka destekli sohbet botu ChatGPT’deki ses ve “sesli okuma” yeteneklerinin yanı sıra, OpenAI’in metin-ses API’sinde bulunan önceden ayarlanmış sesler de aynı modeli kullanıyor. Ayrıca Spotify, Lex Fridman gibi tanınmış sunucular için podcast’leri farklı dillerde dublaj yapmak için bu teknolojiyi Eylül ayının başlarından beri kullanıyor.
Harris’e modelin eğitim verilerinin nereden geldiği sorulduğunda, bu konunun biraz hassas olduğunu belirtti. Yalnızca Voice Engine modelinin lisanslı ve genel olarak erişilebilir verilerin bir karışımı üzerinde eğitildiğini ifade etti.
Bu tür modeller genellikle genel sitelerden ve web’deki veri kümelerinden alınan birçok örnek üzerinde eğitilir. Birçok yapay zeka sağlayıcısı, eğitim verisinin rekabet avantajı olduğunu düşünür ve bu nedenle bu konuda daha fazla bilgi vermekten kaçınır. Ancak eğitim verisi aynı zamanda fikri mülkiyetle ilgili davalara da neden olabilir, bu da şirketlerin bu konuda çok fazla bilgi vermelerini engeller.
OpenAI zaten, şirketin telif hakkı korumalarını ihlal ettiği iddiaları nedeniyle davalık oldu. Bu iddialar arasında, fotoğraflar, resimler, kodlar, makaleler ve e-kitaplar da dahil olmak üzere telif hakkı içeren içerikler üzerinde yapay zeka eğitmenin IP yasalarını ihlal ettiği yer alıyor.
OpenAI, bazı içerik sağlayıcılarla lisans anlaşmaları bulunduruyor ve web ustalarına, eğitim verisi için sitelerinin taranmasını engelleme seçeneği sunuyor. Ancak diğer ürünleri için bu tür bir feragat planı bulunmuyor. Ayrıca, son zamanlarda İngiltere Lordlar Kamarası’na yaptığı bir açıklamada, model eğitimiyle ilgili olarak telif hakkı materyali olmadan yararlı yapay zeka modelleri oluşturmanın “imkansız” olduğunu öne sürerek, yasal öğretimin model eğitimiyle ilgili olduğu noktalarda kendisini koruduğunu iddia etti.
Sesi sentezleme
Şaşırtıcı bir şekilde, Ses Motoru, kullanıcı verilerine dayanarak eğitilmiyor veya ince ayar yapılmıyor. Bu, modelin bir difüzyon süreci ve dönüştürücünün bir kombinasyonu olan konuşma üretmesinin geçici bir şekilde gerçekleşmesinin bir kısmından kaynaklanıyor.
Harris şöyle açıkladı: “Küçük bir ses örneği ve metin alıyoruz ve orijinal konuşmacıya uygun gerçekçi bir konuşma üretiyoruz. Kullanılan ses isteğin tamamlandıktan sonra bırakılıyor.”
Anlattığına göre, model aynı anda hem çektiği konuşma verisini hem de seslendirilmek üzere tasarlanan metin verisini analiz ediyor ve özel bir model oluşturmadan eşleşen bir ses üretiyor.
Bu yeni bir teknoloji değil. Birçok startup, ElevenLabs’ten Replica Studios’a, Papercup’tan Deepdub’a ve Respeecher’a kadar yıllardır ses klonlama ürünleri sundu. Amazon, Google ve Microsoft gibi Büyük Teknoloji şirketleri de benzer ürünler sunmuştur. Bunların sonuncusu tesadüfen OpenAI’nin büyük yatırımcılarından biri.
Harris, OpenAI’nin yaklaşımının genel olarak daha yüksek kaliteli konuşma sağladığını iddia etti.
Ayrıca fiyatının rekabetçi olacağını biliyoruz. OpenAI, bugün yayınladığı pazarlama materyallerinden fiyatlandırmayı çıkardı, ancak görülen belgelere göre, Ses Motoru’nun maliyeti 1 milyon karakter için 15 dolar veya ~162.500 kelime olarak listeleniyor. Bu, Dickens’ın “Oliver Twist”ini biraz fazlasıyla içerir. (Bir “HD” kalite seçeneği iki katına çıkıyor, ancak karışıklık yaratacak şekilde, bir OpenAI sözcüsü HD ve HD olmayan sesler arasında fark olmadığını söyledi. Bunu nasıl yorumlarsınız sizin bileceğiniz iş.)
Bu, yaklaşık 18 saatlik bir ses kaydına denk gelir ve fiyatı saat başına 1 dolardan biraz daha az yapar. Bu, daha popüler rakip satıcılardan biri olan ElevenLabs’ın talep ettiğinden daha ucuzdur — aylık 100.000 karakter için 11 dolar. Ancak bu, bazı özelleştirmelerin bir bedeli olarak gelir.
Ses Motoru, bir sesin tonunu, yüksekliğini veya akıcılığını ayarlamak için kontroller sunmaz. Aslında, şu anda herhangi bir ince ayar düğmesi veya kadranı sunmuyor, ancak Harris, 15 saniyelik ses örneğindeki herhangi bir canlılığın sonraki nesillere geçeceğini belirtiyor (örneğin, heyecanlı bir tonla konuşursanız, sonuç olarak oluşturulan sentetik ses sürekli heyecanlı bir şekilde duyulacaktır). Diğer modellerle karşılaştırılabilir hale geldiğinde okumanın kalitesinin nasıl olduğunu göreceğiz.
Bir meta olarak seslendirme yeteneği
ZipRecruiter’da saatlik 12 ila 79 dolar arasında değişen maaşlar alıyorlar hatta düşük seviyede bile Voice Engine’den çok daha pahalı (ajansları olan aktörler daha yüksek bir proje başına fiyat talep edecektir). Eğer popüler hale gelirse, OpenAI’nin aracı ses çalışmasını ticarileştirebilir. Peki bu durum oyuncuları nereye bırakıyor ?
Yetenek endüstrisi, varoluşsal bir tehdit olan üretken yapay zekayla uzun süredir başa çıkmaya çalışıyor. Müşterilerin yapay zekayı kullanarak sentetik versiyonlar oluşturmasına izin vermek için ses aktörlerinden ses haklarını devretmeleri isteniyor. Özellikle ucuz, giriş seviyesi işler, yapay zeka üretilmiş konuşmalar lehine ortadan kaldırılma riski altında.
Şimdi, bazı yapay zeka ses platformları denge kurmaya çalışıyor.
Geçen yıl Replica Studios, SAG-AFTRA ile tartışmalı bir anlaşma imzaladı ve medya sanatçıları sendikası üyelerinin seslerinin kopyalarını oluşturup lisansladı. Kuruluşlar, anlaşmanın, performansçıların onayını sağlamak için adil ve etik koşullar belirlediğini ve yeni eserlerde sentetik seslerin kullanımı için şartları müzakere ettiğini belirtti, bunlar arasında video oyunları da var.
Öte yandan, ElevenLabs, sentetik sesler için bir pazar yeri barındırıyor ve kullanıcıların bir ses oluşturmasına, doğrulamasına ve bunu kamuya açık olarak paylaşmasına olanak tanıyor. Diğerleri bir sesi kullandığında, orijinal yaratıcılar bir tazminat alıyor, bin karakter başına belirli bir dolar miktarı.
OpenAI, en azından yakın gelecekte, böyle bir işçi sendikası anlaşması veya pazar yeri kurmayacak ve kullanıcıların klonlanan seslerin sahibinden “açık rıza” almalarını, hangi seslerin yapay zeka tarafından üretildiğini “açıkça belirten” açıklamalar yapmalarını ve nesnelerin seslerini kullanmamayı kabul etmelerini gerektiriyor.
“Hemen hemen her şeyin bu ses aktörü ekonomisi ile nasıl kesiştiği konusunda çok yakından takip ediyoruz ve gerçekten merak ediyoruz,” dedi Harris. “Bence, bu tür teknolojiler aracılığıyla ses aktörü olarak etki alanınızı genişletme fırsatı olacak. Ancak, insanların teknolojiyi gerçekten kullanmaya ve denemeye başladıklarında öğreneceğimiz birçok şey var.”
Etik ve deepfake’ler
Ses klonlama uygulamaları, sadece oyuncuların kariyerlerini tehdit etmekle kalmayıp kötüye de kullanılabiliyor.
Ünlü komplo teorisi ağı 4chan, ElevenLabs’in platformunu kullanarak Emma Watson gibi tanınmış kişilikleri taklit eden nefret dolu mesajları yayınladı.
Kötü niyetli aktörlerin seçim sonuçlarını etkilemek için ses klonlama teknolojisini kullanabilecekleri endişesi var. Bu endişeler boşuna değil: Geçtiğimiz Ocak ayında, bir telefon kampanyası, New Hampshire vatandaşlarını oy kullanmaktan caydırmak için Başkan Biden’ın deepfake’ini kullandı. Bu durum, gelecekte benzer kampanyaların yasaklanması için FCC’nin adım atmasına neden oldu.
Deepfake’leri politika düzeyinde yasaklamanın yanı sıra, OpenAI, Voice Engine’in kötüye kullanılmasını engellemek için bazı adımlar atmıştır. Bu adımlardan bazıları şunlardır:
Öncelikle, Voice Engine sadece son derece kısıtlı bir geliştirici grubuna – yaklaşık 10 kişiye – sunulmaktadır. OpenAI, sağlık ve erişilebilirlik gibi düşük riskli ve toplumsal yararlı kullanım durumlarını önceliklendiriyor. Ayrıca, sorumlu sentetik medya deneylerini teşvik ediyor.
Erken dönem Voice Engine kullanıcıları arasında, önceden seçilmiş oyuncuların seslerini oluşturmak için kullanan bir eğitim teknolojisi şirketi olan Age of Learning ve çeviri için Voice Engine’i kullanarak hikaye anlatımı yapan HeyGen bulunmaktadır. Ayrıca, konuşma bozukluğu ve engelliler için sesler oluşturmak için Voice Engine’i kullanan Livox ve Lifespan gibi firmalar da bulunmaktadır. Dimagi ise, sağlık çalışanlarına ana dillerinde geri bildirim vermek için Voice Engine tabanlı bir araç geliştiriyor.
Bu adımlar, Voice Engine’in kötüye kullanılmasını önlemeye yardımcı olabilir ve teknolojinin topluma faydalı bir şekilde kullanılmasını sağlayabilir.
İşte Lifespan'dan oluşturulan sesler:
Ve işte Livox'tan bir tane:
İkinci olarak, Voice Engine ile oluşturulan klonlar, OpenAI’nın geliştirdiği ve kayıtlara duyulamayan tanımlayıcıları gömen bir teknikle filigranlanır. (Resemble AI ve Microsoft da benzer filigranları kullanır.) Harris, filigranın yanlış kullanımını engellemenin yollarının olmadığını vaat etmedi, ancak bunu “müdahaleye dayanıklı” olarak tanımladı.
“Herhangi bir ses kaydı varsa, o kaydın bizim sistemimiz tarafından oluşturulduğunu ve gerçekten o oluşturmayı yapan geliştiriciyi belirlememiz gerçekten kolaydır,” diye açıkladı Harris. “Şu ana kadar bu açık kaynak haline getirilmedi – şu anda bizde bulunuyor. Bunun kamuoyuna açıklanmasıyla ilgili meraklıyız, ancak açıkçası, bunun maruziyet ve kırılma riskleriyle birlikte geldiğinin farkındayız.”
Üçüncü olarak, OpenAI, şirketin yapay zeka model risk değerlendirme ve azaltma stratejilerine bilgi sağlayan uzmanlardan oluşan sözleşmeli bir grup olan kırmızı takım ağı üyelerine, kötü niyetli kullanımları belirlemek için Voice Engine erişimi sağlamayı planlıyor.
Bazı uzmanlar, yapay zeka kırmızı takımının yeterince kapsamlı olmadığını ve yapay zekalarının neden olabileceği zararlara karşı savunma araçları geliştirmenin satıcıların sorumluluğunda olduğunu savunuyor. OpenAI, Voice Engine ile bu kadar ileri gitmiyor – ancak Harris, şirketin “en üst ilkesinin” teknolojiyi güvenli bir şekilde piyasaya sürmek olduğunu iddia ediyor.
Genel yayın
Önizleme sürecinin nasıl geçtiğine ve Kamu Ses Motoru’na olan halkın tepkisine bağlı olarak, OpenAI, araçları daha geniş bir geliştirici kitlesine sunabilir, ancak şu anda, şirketin somut bir şeye bağlanmaktan kaçındığını belirtmek gerekir.
Harris, Voice Engine’in yol haritasına bir göz atma fırsatı da verdi ve OpenAI’in kullanıcıların varlığını ve seslerinin nasıl kullanıldığının farkında olduklarını kanıtlamak için rastgele oluşturulan metni okuma gibi bir güvenlik mekanizmasını test ettiğini ortaya koydu. Bu, OpenAI’in Voice Engine’i daha fazla insana sunmak için gereken güveni sağlayabilir, dedi – veya belki de sadece başlangıç olabilir.
“Gerçekten ses eşleştirme teknolojisi açısından bizi ileriye taşıyacak olan şey, pilot sürecinden öğrendiklerimize, ortaya çıkan güvenlik sorunlarına ve yerine getirdiğimiz önlemlere bağlı olacaktır,” dedi. “Yapay seslerle gerçek insan sesleri arasındaki karışıklığı istemiyoruz.”
Ve bu son noktada hemfikir olabiliriz.
Etiketlendi:
- Yapay Zeka
Ne düşünüyorsunuz?
Fikrini bilmek güzel. Yorum bırakın.