Dolar 33,0447
Euro 36,0203
Altın 2.583,58
BİST 11.064,85
Adana Adıyaman Afyon Ağrı Aksaray Amasya Ankara Antalya Ardahan Artvin Aydın Balıkesir Bartın Batman Bayburt Bilecik Bingöl Bitlis Bolu Burdur Bursa Çanakkale Çankırı Çorum Denizli Diyarbakır Düzce Edirne Elazığ Erzincan Erzurum Eskişehir Gaziantep Giresun Gümüşhane Hakkari Hatay Iğdır Isparta İstanbul İzmir K.Maraş Karabük Karaman Kars Kastamonu Kayseri Kırıkkale Kırklareli Kırşehir Kilis Kocaeli Konya Kütahya Malatya Manisa Mardin Mersin Muğla Muş Nevşehir Niğde Ordu Osmaniye Rize Sakarya Samsun Siirt Sinop Sivas Şanlıurfa Şırnak Tekirdağ Tokat Trabzon Tunceli Uşak Van Yalova Yozgat Zonguldak
İstanbul 34°C
Açık
İstanbul
34°C
Açık
Çar 34°C
Per 33°C
Cum 33°C
Cts 32°C

Microsoft VALL-E 2: Yapay zeka ses taklidi artık ayırt edilemez seviyede

Microsoft, geçtiğimiz yılın nisan ayında insan seslerini taklit edebilen metinden konuşmaya yapay zeka aracı VALL-E’yi tanıtmıştı. O dönemde VALL-E, çok kısa bir ses örneğinden sonra her türlü sesi taklit edebiliyordu. Ancak yeni duyurulan VALL-E …

Microsoft VALL-E 2: Yapay zeka ses taklidi artık ayırt edilemez seviyede
11 Temmuz 2024 11:53
37
Microsoft, geçtiğimiz yılın nisan ayında insan seslerini taklit edebilen metinden konuşmaya yapay zeka aracı VALL-E’yi tanıtmıştı. O dönemde VALL-E, çok kısa bir ses örneğinden sonra her türlü sesi taklit edebiliyordu. Ancak yeni duyurulan VALL-E 2, her sesi inanılmaz yüksek kalitede taklit edebiliyor. Bu yüzden Microsoft, VALL-E 2‘yi kamuoyuna sunulamayacak kadar ikna edici örnekler ürettiği için yayınlamama kararı aldı.

Microsoft VALL-E 2 korkutuyor

Daha önce de metinden konuşmaya (text-to-speech – TTS) yapay zeka araçları görmüştük ancak VALL-E 2, ilk defa karşılaştırma ölçütlerinde insanlarla aynı seviyeye ulaşan türünün tek örneği oluyor. Bu da modelin çok gerçekçi ses taklitleri yapabildiği anlamına geliyor. Microsoft’un VALL-E 2’yi halka açık bir şekilde yayınlamama nedeni de aslında bu. Aşağıdaki bağlantıdan bir örneğe bakabilirsiniz. Ayrıca Microsoft’un kendi sitesindeki örneklere de bakmanızı tavsiye ederiz.

VALL-E 2 ile tek bir ses dosyasıyla yapılan ilk denemede modelin insan seviyesinde performans gösterdiği belirtiliyor. Bununla birlikte VALL-E 2, karmaşıklığı veya tekrar eden ifadeleri nedeniyle geleneksel olarak zor olan cümlelerde bile konuşma sentezini bozmuyor. VALL-E 2 esasında ilk modelin üzerine inşa ediliyor ancak iki önemi geliştirmeyle destekleniyor: “Tekrara Duyarlı Örnekleme” ve “Gruplandırılmış Kod Modelleme“.

İlki, kod çözme işlemi sırasında seslerin veya cümlelerin sonsuz döngülerini önleyen “belirteçlerin” (token) tekrarlarını ele alarak yapay zekanın metni konuşmaya dönüştürme şeklini geliştiriyor. Daha anlaşılır bir ifadeyle, bu özellik VALL-E 2’nin konuşma şeklini değiştirmeye yardımcı olarak daha akıcı ve doğal görünmesini sağlıyor.
Gruplandırılmış Kod Modelleme ise dizi uzunluğunu ya da modelin tek bir giriş dizisinde tek tek işlediği belirteçlerin sayısını azaltarak verimliliği artırıyor. Böylece VALL-E 2’nin konuşma üretme hızı artırılıyor ve uzun ses dosyaları işlenirken ortaya çıkan zorlukların önüne geçiliyor.

LibriSpeech ve VCTK veri kümelerini kullanarak test edilen VALL-E 2 için araştırmacılar, konuşma sağlamlığı, doğallık ve konuşma benzerliği açısından önceki TTS sistemlerinin geride bırakıldığını söyledi.

Microsoft, sahip olduğu yeteneklere rağmen potansiyel kötüye kullanım riskleri nedeniyle VALL-E 2’yi halka sunmayacak. Ses klonlama ve deepfake teknolojisinin son derece erişilebilir olduğu düşünüldüğünde bu, yerinde bir karar. OpenAI gibi diğer yapay zeka şirketleri de kendi ses teknolojilerine benzer kısıtlamalar uyguluyor.

ETİKETLER: , , ,
YORUMLAR

Henüz yorum yapılmamış. İlk yorumu yukarıdaki form aracılığıyla siz yapabilirsiniz.