Microsoft’un VALL-E’si Her Sesi Üç Saniyede Çoğaltabiliyor!

Yapay zeka teknolojileri inanılmaz bir hızla gelişiyor. Kelimelerinizden görüntüler oluşturabilen ve sizinle sohbet edebilen AI modellerinden sonra Microsoft, duyduğu herhangi bir sesi yalnızca üç saniyede taklit edebilen bir AI olan VALL-E‘yi geliştirdi.

Birçok AI aracının aksine VALL-E, orijinal konuşmacının asla söylemediği kelimelerin kaydını oluştururken bile bir konuşmacının duygularını ve tonunu kopyalayabiliyor.

Microsoft kısa bir süre önce, insanların seslerini kopyalayabilen VALL-E olarak bilinen bir yapay zeka aracı yayınladı. Araç, içerik oluşturmak için istem olarak belirli bir sesin yalnızca 3 saniyelik kaydını kullanıyor ve 60.000 saatlik İngilizce konuşma verisi üzerinde eğitilmiş. AI modeli, orijinal konuşmacının asla söylemediği kelimelerin kaydını oluştururken bile bir konuşmacının duygularını ve tonunu kopyalayabiliyor.

Önceki modeller yalnızca sesi kopyalayabildiği, ancak konuşmacının duygularını veya tonunu kopyalayamadığı için bu, yapay zeka tarafından üretilen konuşma alanında önemli bir gelişme diyebiliriz.

microsoft-vall-e-

Cornell Üniversitesi’nden bir makale, birkaç sesi sentezlemek için VALL-E’yi kullandı ve çalışmanın bazı örnekleri GitHub’da mevcut. Microsoft tarafından paylaşılan ses örnekleri kalite açısından değişiklik gösterse de, bazıları kulağa doğal gelirken, diğerleri açıkça makine tarafından üretilmiş ve ses robotik. Ancak yapay zeka teknolojisi gelişmeye devam ettikçe oluşturulan kayıtlar muhtemelen daha ikna edici hale gelecek.

Sahtecilikte Kullanılabilir!

Ancak, bu teknolojinin etik sonuçları hakkında endişeler var. Yapay zeka daha güçlü hale geldikçe, VALL-E ve benzeri teknolojiler tarafından üretilen sesler daha inandırıcı hale gelecek ve bu da potansiyel bir kurbanın tanıdığı gerçek insanların seslerini taklit eden gerçekçi spam çağrılarına kapı aralayabilir. Politikacılar ve diğer kamuya mal olmuş kişiler de taklit edilebilir ve bu da sosyal medyada yanlış bilgilerin yayılmasına yol açabilir.

Ayrıca güvenlik kaygıları da var. Bazı bankalar arayanın kimliğini doğrulamak için ses tanıma teknolojisini kullanıyor, ancak yapay zeka tarafından üretilen sesler daha inandırıcı hale gelirse arayanın VALL-E sesi kullanıp kullanmadığını tespit etmek daha zor hale gelebilir. Ek olarak, yapay zeka tarafından üretilen sesler daha gerçekçi hale gelirse hizmetlerine artık ihtiyaç kalmayabileceğinden, teknoloji seslendirme sanatçılarını da etkileyebilir.

VALL-E, ses sentezi alanında devrim yaratma potansiyeline sahip etkileyici bir yapay zeka aracı. Ancak, aynı zamanda birkaç etik ve güvenlik kaygısını da beraberinde getiriyor. Microsoft gibi şirketler için, VALL-E’nin kötü amaçlarla değil, iyi kullanılmasını sağlamak için kullanımını düzenleyen önlemler geliştirmesi önemli olacak.

Cepkolik
Logo
Register New Account
Ürünleri karşılaştır
  • Total (0)
Karşılaştır
0