Microsoft twierdzi, że stworzył tak dobrą sztuczną inteligencję generującą mowę, że nieetyczne byłoby jej publiczne udostępnienie. Dlatego pokazał tylko próbki możliwości narzędzia Vall-E 2. I to wystarczy, by uwierzyć mu w te zapewnienia.
Sztuczna inteligencja Microsoftu osiągnęła „ludzki pozom”
Jak dobra musi być sztuczna inteligencja, by firma, która ją stworzyła, absolutnie wzbraniała się przed jej publicznym udostępnieniem? Można się tylko domyślać, ponieważ… nie doczekała się publicznego udostępnienia. Dokładnie z taką sytuacją mamy do czynienia w przypadku modelu Vall-E 2 zaprojektowanego przez nie byle kogo, bo sam Microsoft.
Mamy już wiele dowodów na to, jak skuteczna i sprawna może być sztuczna inteligencja. Nie chodzi tylko o wyszukiwanie i podsumowywanie informacji, ale też generowanie tekstu, obrazu czy dźwięku. Właśnie na tym ostatnim zadaniu – a konkretnie na imitowaniu ludzkiego głosu – koncentruje się Vall-E.
Co to jest Vall-E 2?
To model językowy typu NCLM (Neural Codec Language Model), który – według zapewnień Amerykanów – osiągnął ludzki poziom. „Vall-E 2 jest w stanie generować precyzyjny i naturalny głos, dokładnie taki sam jak głos prawdziwego mówcy” – tak można przeczytać na oficjalnej stronie.
We wstępie napisałem, że można się tylko domyślać tego, jak dobra jest ta sztuczna inteligencja. W rzeczywistości jest to tylko częściowo prawda. O ile bowiem – faktycznie – pełnia możliwości jest skrywana przez giganta z Redmond, to udostępnił on próbki, pozwalające odsłuchać, jak narzędzie poradziło sobie z generowaniem mowy i jak brzmiał materiał źródłowy. Na potrzeby tych przykładów posłużono się zbiorami danych LibriSearch i VCTK.
Dzięki zaawansowanym algorytmom i dobrze pomyślanemu dzieleniu fragmentów materiału źródłowego, nowy model Vall-E potrafi wygenerować realistycznie brzmiącą mowę nawet na podstawie krótkiego nagrania. Wystarczą 3 sekundy, choć – oczywiście – im dłuższy jest taki materiał, tym bardziej imponujący efekt.
Za dobra, by ujrzeć światło dzienne
Tak, efekt potrafi zrobić duże wrażenie: narzędzie dobrze odwzorowuje nie tylko barwę głosu, ale też akcent i charakterystyczne cechy, takie jak chrypka. Niemniej jest w stanie także przerazić – szczególnie gdy pomyśli się o potencjalnych zagrożeniach związanych z nadużyciami. Dezinformacja, pomówienia, podszywanie się czy też najrozmaitsze oszustwa innego rodzaju to tylko kilka przykładów.
To właśnie dlatego oficjalna strona internetowa poświęcona modelowi Vall-E 2 kończy się „oświadczeniem dotyczącym etyki”. Microsoft podkreśla w nim, że jest to całkowicie badawczy projekt i nie istnieją żadne plany związane z publicznym udostępnieniem narzędzia lub opracowaniem na jego bazie komercyjnego produktu.
Gdzie zatem model może zostać wykorzystany? Amerykański gigant wspomina o sektorze edukacyjnym, dziennikarstwie, różnego rodzaju tłumaczeniach oraz chatbotach. Nie podaje przy tym jednak żadnych szczegółów.