Google DeepMind i generator V2A
(źródło: Google)

Robi wrażenie. Google pokazał możliwości nowego generatora dźwięków dla wideo

Zespół badaczy Google pochwalił się kolejnym generatorem opartym o sztuczną inteligencję. Nowe narzędzie ma zająć się tworzeniem ścieżek dźwiękowych dopasowanych i zsynchronizowanych z przesłanym materiałem wideo.

Video-to-audio, czyli nowy generator AI

Technologie oparte o sztuczną inteligencję mają swoje źródła w licznych badaniach i testach. U giganta Google za procesy tworzenia i sprawdzania nowych narzędzi odpowiedzialne jest m.in. przedsiębiorstwo DeepMind, które właśnie pochwaliło się kolejnym generatorem – tym razem tworzącym treści audio dedykowane dla danego filmu.

O ile produkowanie wideo przez AI wydaje się stać już na dość wysokim poziomie, o tyle stworzenie pasujących ścieżek dźwiękowych nie jest już takie proste. Dlatego też gigant z Mountain View opracował video-to-audio, nazywane też V2A. Oprogramowanie to jest odpowiedzialne za przeprowadzenie synchronizacji dźwiękowej z materiałem wideo.

Zasada działania nowego generatora opiera się o proces łączenia pikseli wideo wraz z przesyłanymi przez użytkownika podpowiedziami tekstowymi. Jak twierdzą badacze, V2A może zostać połączone z oprogramowaniem zasilanym sztuczną inteligencją do tworzenia filmów, takim jak Veo, który został użyty w udostępnionych przez badaczy przykładach nagrań. Nowość sprawdzi się też w przypadku tradycyjnego wideo.

Technologia Google i jej przyszłość

Video-to-audio pozwala na tworzenie różnych ścieżek dla tego samego materiału filmowego. Osoba korzystająca z oprogramowania może zmieniać charakter danego podkładu audio i dostosować go do potrzeb, aby uzyskać możliwie najlepsze i bliższe oczekiwaniom wyniki.

V2A do swojego działania wykorzystuje wieloetapowy proces, który rozpoczyna się od zakodowania skompresowanych sygnałów wideo. W oparciu o te dane oraz przesłane podpowiedzi tekstowe (przekazane do systemu w języku naturalnym) model dyfuzyjny ulepsza dźwięki opierając się o losowy szum. Otrzymane wyniki są następnie dekodowane i przetwarzane na sygnały typu audio, a następnie łączone z filmem.

Zasada działania narzędzia V2A Google DeepMind
Zasada działania narzędzia V2A (źródło: Google DeepMind)

Jak twierdzi technologiczny gigant, model sztucznej inteligencji odpowiedzialny za generowanie ścieżek dźwiękowych został wytrenowany na szczegółowych danych. Zawierały one nie tylko materiały audio, ale także ich precyzyjne opisy.

Uzyskiwane przez V2A wyniki są satysfakcjonujące, choć sami twórcy z Google DeepMind przyznają, że narzędzie jest ograniczone, dlatego zamierzają kontynuować badania oraz ulepszać system. Wśród niedoskonałości wymieniono m.in. problemy z synchronizacją warg oraz dźwięki powstałe przy niedostatecznej jakości wideo wejściowego. Artefakty czy inne zniekształcenia filmów mogą generować ścieżki o znacząco gorszej jakości.

Póki co video-to-audio nie jest dostępne dla szerszej publiczności. Zanim firma wypuści nowy generator z laboratorium ma zamiar poddać go rygorystycznym testom. Dodatkowo przedsiębiorstwo będzie lokowało znaki wodne we wszystkich wygenerowanych treściach za pomocą własnych narzędzi SynthID.