Microsoft Research Asia, VASA adını verdikleri gerçekçi konuşan yüzler oluşturmaya yönelik yapay zeka modelini tanıtan yeni bir makale yayınladı. VASA-1 modeli, tek bir statik görüntüye ve bir konuşma ses klibine dayalı olarak gerçekçi videolar üretebiliyor.
VASA-1’in sonuçlar etkileyici ve gerçekçi deepfake‘ler üretmek için üretken yapay zekayı kullanan önceki tüm araçları geride bırakıyor. Modelin özellikle öne çıkan özelliği doğal yüz ifadelerini, geniş bir duygu yelpazesini ve çok az yapaylık ile dudak senkronizasyonu yeteneğini taklit etme genel yeteneği. Yine de araştırmacılar, modelin diğer tüm modeller gibi hala saç gibi sert olmayan unsurlarla mücadele ettiğini itiraf ediyor.
Microsoft modeldeki teknik temel taşın, etkileyici ve çözülmüş bir yüz gizli alanında çalışan yenilikçi bir bütünsel yüz dinamiği ve kafa hareketi oluşturma modeli olduğunu söylüyor. VASA-1 ayrıca gerçek zamanlı verimlilik sunabiliyor.
Yöntem çevrimdışı toplu işleme modunda 45 FPS’de 512×512 boyutunda video kareleri üretiyor ve tek bir NVIDIA RTX 4090 GPU’ya sahip bir masaüstü bilgisayarda değerlendirildiğinde, yalnızca 170 ms’lik bir önceki gecikmeyle çevrimiçi akış modunda 40 fps’ye kadar destekleyebiliyor.
Yeni modeli temel alan aracın kullanımı oldukça kolay olarak nitelendiriliyor ve isteğe bağlı sinyalleri koşul olarak kontrol etme yeteneği sunuyor. Bu, kullanıcının ana göz bakış yönünü, baş mesafesini ve duygu dengelemelerini ayarlayabileceği anlamına geliyor. VASA-1 ayrıca sanat gibi gerçekçi olmayan girdileri de işleyebiliyor ve resimlere de hayat verebiliyor.
Model ayrıca fotoğrafların İngilizce dışındaki dillerde şarkı söylemesini, rap yapmasını veya konuşmasını da sağlayabiliyor. Bunun için Mona Lisa rapinin komik bir klibi bile yayınlandı.
Microsoft, kötüye kullanım olasılığını kabul ediyor. Bu anlamda şirket, teknolojinin sorumlu bir şekilde ve uygun düzenlemelere uygun olarak kullanılacağından emin olana kadar çevrimiçi bir demo, API, ürün, ek uygulama ayrıntıları veya ilgili herhangi bir teklif yayınlamayı ise düşünmüyor.