Świat nowych technologii bardzo prężnie rozwija się teraz w obszarze sztucznej inteligencji. Tym razem to Meta wprowadza na rynek nowe rozwiązanie – VoiceBox AI. Ta zaawansowana sztuczna inteligencja potrafi generować mowę w kilku językach, w tym w języku polskim! Czym dokładnie jest VoiceBox AI?
VoiceBox AI – jak to działa?
Jest to stworzony przez Meta model generatywny bazujący na sztucznej inteligencji. Wykorzystuje on techniki uczenia maszynowego, aby na podstawie tekstu być w stanie przetworzyć go na mowę. Proces jej tworzenia opiera się na analizie ogromnych zbiorów danych, które pomagają systemowi zrozumieć zależności między słowami, akcentację, intonację i inne cechy języka. Już na początku warto dodać, że model jest wielojęzyczny. Potrafi działać w języku angielskim, francuskim, niemieckim, hiszpańskim, polskim i portugalskim.
Meta chwali się, że VoiceBox AI potrafi generować mowę o wysokiej jakości, która brzmi naturalnie i płynnie. Można w pewnym stopniu zgodzić się, że potwierdzają to materiały promocyjne, ale właśnie – to materiały promocyjne, więc nie możemy mieć 100% pewności. Dzięki zastosowaniu technologii uczenia maszynowego model ten jest w stanie naśladować ludzką mowę z dużą precyzją. Firma podkreśla, że w przyszłości może zostać to wykorzystane do głosów wirtualnych asystentów oraz postaci w metaverse.
Meta przeprowadziła także testy i porównania, aby ocenić skuteczność i jakość działania VoiceBox AI w porównaniu z konkurencyjnymi rozwiązaniami. Okazało się, że model generacyjny opracowany przez Meta osiąga naprawdę dobre wyniki. Jako przykład warto podać porównanie wskaźnika błędnych słów.
VoiceBox w generowaniu angielskiej mowy osiągnął wynik błędów na poziomie 1,9%, podczas gdy w konkurencyjnym VALL-E współczynnik błędów oscylował wokół 5,9%. W teście multijęzykowym AI od Meta również poradziło sobie niemal dwukrotnie lepiej niż konkurencja, czyli w tym wypadku YourTTS.
Zmiana tekstu na mowę to nie wszystko
Oczywiście generowanie mowy to nie wszystko, co potrafi VoiceBox AI. Jak czytamy w komunikacie firmy, wszechstronność tego rozwiązania umożliwia różnorodne zadania, np. dzięki próbce dźwiękowej trwającej zaledwie dwie sekundy VoiceBox jest w stanie dopasować styl dźwięku i wykorzystać go do generowania mowy na podstawie tekstu. Rozwiązanie stworzone przez Meta może również służyć do edycji audio. VoiceBox może odtworzyć fragment mowy przerwanej hałasem lub zastąpić źle wymówione słowa bez konieczności ponownego nagrywania całej wypowiedzi.
Najciekawsza jest jednak możliwość działania międzyjęzykowego. O co dokładnie chodzi? Na podstawie próbki mowy danej osoby i fragmentu tekstu w języku angielskim, francuskim, niemieckim, hiszpańskim, polskim lub portugalskim VoiceBox jest w stanie wygenerować odczyt tekstu w dowolnym z tych języków, nawet jeśli próbka mowy i tekst są w różnych językach.
Jeżeli będzie to nadal rozwijane, to w przyszłości taka funkcja może pomóc ludziom w komunikacji w naturalny sposób, nawet jeśli nie mówią tymi samymi językami.