Google DeepMind i generator V2A

(źródło: Google)

Sztuczna Inteligencja

Robi wrażenie. Google pokazał możliwości nowego generatora dźwięków dla wideo

Natalia Kania-Kuc·19 czerwca 2024

Sztuczna Inteligencja

Robi wrażenie. Google pokazał możliwości nowego generatora dźwięków dla wideo

Zespół badaczy Google pochwalił się kolejnym generatorem opartym o sztuczną inteligencję. Nowe narzędzie ma zająć się tworzeniem ścieżek dźwiękowych dopasowanych i zsynchronizowanych z przesłanym materiałem wideo.

Video-to-audio, czyli nowy generator AI

Technologie oparte o sztuczną inteligencję mają swoje źródła w licznych badaniach i testach. U giganta Google za procesy tworzenia i sprawdzania nowych narzędzi odpowiedzialne jest m.in. przedsiębiorstwo DeepMind, które właśnie pochwaliło się kolejnym generatorem – tym razem tworzącym treści audio dedykowane dla danego filmu.

O ile produkowanie wideo przez AI wydaje się stać już na dość wysokim poziomie, o tyle stworzenie pasujących ścieżek dźwiękowych nie jest już takie proste. Dlatego też gigant z Mountain View opracował video-to-audio, nazywane też V2A. Oprogramowanie to jest odpowiedzialne za przeprowadzenie synchronizacji dźwiękowej z materiałem wideo.

Zasada działania nowego generatora opiera się o proces łączenia pikseli wideo wraz z przesyłanymi przez użytkownika podpowiedziami tekstowymi. Jak twierdzą badacze, V2A może zostać połączone z oprogramowaniem zasilanym sztuczną inteligencją do tworzenia filmów, takim jak Veo, który został użyty w udostępnionych przez badaczy przykładach nagrań. Nowość sprawdzi się też w przypadku tradycyjnego wideo.

Technologia Google i jej przyszłość

Video-to-audio pozwala na tworzenie różnych ścieżek dla tego samego materiału filmowego. Osoba korzystająca z oprogramowania może zmieniać charakter danego podkładu audio i dostosować go do potrzeb, aby uzyskać możliwie najlepsze i bliższe oczekiwaniom wyniki.

V2A do swojego działania wykorzystuje wieloetapowy proces, który rozpoczyna się od zakodowania skompresowanych sygnałów wideo. W oparciu o te dane oraz przesłane podpowiedzi tekstowe (przekazane do systemu w języku naturalnym) model dyfuzyjny ulepsza dźwięki opierając się o losowy szum. Otrzymane wyniki są następnie dekodowane i przetwarzane na sygnały typu audio, a następnie łączone z filmem.

Zasada działania narzędzia V2A Google DeepMind — Zasada działania narzędzia V2A (źródło: Google DeepMind)

Jak twierdzi technologiczny gigant, model sztucznej inteligencji odpowiedzialny za generowanie ścieżek dźwiękowych został wytrenowany na szczegółowych danych. Zawierały one nie tylko materiały audio, ale także ich precyzyjne opisy.

Zobacz również

Nowość na YouTube. Dzięki temu stanie się lepszym miejscem

metroid prime 4 beyond nintendo switch

Nie sprzedawaj jeszcze Switcha! Podsumowanie Nintendo Direct

grafika-euro-2024-ea-sports-fc-24-xbox-game-pass

EA Sports FC 24 w Xbox Game Pass. Poczuj klimat Euro 2024

microsoft surface laptop i surface pro 2024 copilot+ pc

Pierwsze laptopy Copilot+ PC dostępne w Polsce. Nawet za ponad 11 tysięcy

Uzyskiwane przez V2A wyniki są satysfakcjonujące, choć sami twórcy z Google DeepMind przyznają, że narzędzie jest ograniczone, dlatego zamierzają kontynuować badania oraz ulepszać system. Wśród niedoskonałości wymieniono m.in. problemy z synchronizacją warg oraz dźwięki powstałe przy niedostatecznej jakości wideo wejściowego. Artefakty czy inne zniekształcenia filmów mogą generować ścieżki o znacząco gorszej jakości.

Póki co video-to-audio nie jest dostępne dla szerszej publiczności. Zanim firma wypuści nowy generator z laboratorium ma zamiar poddać go rygorystycznym testom. Dodatkowo przedsiębiorstwo będzie lokowało znaki wodne we wszystkich wygenerowanych treściach za pomocą własnych narzędzi SynthID.