Nie da się ukryć, że w ostatnim czasie mamy prawdziwy wysyp nowych modeli sztucznej inteligencji. Świat zawojował m.in. tworzący obrazki DALL-E i generujący tekst ChatGPT, a teraz przyszedł czas na AI, które jest w stanie podrobić głos dowolnego człowieka – i to naprawdę skutecznie.

Wystarczą 3 sekundy, aby podrobić głos, emocje i otoczenie akustyczne

VALL-E jest dziełem naukowców z Microsoftu. To model typu TTS (text-to-speech), czyli zamieniający tekst na mowę. I to nie byle jaką mowę, bo mowę określonej osoby. Narzędzia symulujące głos konkretnych osób nie są oczywiście czymś zupełnie nowym, natomiast mają one duże ograniczenia – potrzebują dużej ilości wysokiej jakości nagrań źródłowych, aby rezultat brzmiał w miarę autentycznie.

Jednak nie w tym przypadku. Twórcy VALL-E twierdzą, jest niezwykle skuteczny i wystarczą mu już 3 sekundy nagrania dźwiękowego, aby przekonująco symulować czyjś głos. Ma to wynikać z szerokiego zakresu danych, na jakich AI zostało “wytrenowane”.

VALL-E wykorzystał open-source’owy zestaw danych Libri-Light, w skład którego wchodzi 60 000 godzin mowy w języku angielskim. Próbki dostarczyło 7000 unikalnych użytkowników. Z racji na wykorzystanie anglojęzycznego zestawu, VALL-E do działania potrzebuje anglojęzycznych próbek i tylko tekst w tym języku skutecznie przerobi na “podrobioną” mowę.

Twórcy pochwalili się, że AI jest w stanie symulować nie tylko głos danej osoby, ale też otoczenie akustyczne i emocje. Jeśli więc na przykład próbką była rozmowa telefoniczna, czy też nagranie wykonane w zatłoczonym i hałaśliwym miejscu, wygenerowany dźwięk też będzie tak brzmiał. Jeśli w próbce głos ma smutny ton, to będzie smutny również w nagraniu stworzonym przez AI.

valle
Proces działania VALL-E | Źródło: Microsoft

VALL-E ma pewne słabe strony

Naukowcy twierdzą, że VALL-E radzi sobie bardzo dobrze w porównaniu do konkurencji – nie jest jednak modelem idealnym. Średnio radzi sobie z symulowaniem głosów ludzi mówiących z akcentem, czasami też zdarza mu się np. zgubić jakieś słowo lub wypowiedzieć je niewyraźnie.

Nie sposób nie wspomnieć również o problemach natury etycznej, moralnej czy prawnej. Możliwość łatwego podrobienia głosu dowolnej osoby na podstawie bardzo krótkiego nagrania generuje całą masę zagrożeń.

Oszuści zapewne zacierają ręce

Zapewne chętnie z takiej technologii skorzystaliby twórcy deepfake’ów i inni wszelkiej maści oszuści. Klipy z podrobionym głosem polityków, przywódców religijnych czy innych czołowych postaci mogą posłużyć do prowadzenia akcji dezinformacyjnych, jest też duże pole do mniejszych oszustw.

Jeśli np. nagle otrzymamy od znajomego na Messengerze wiadomość z prośbą o podanie kodu BLIK, możemy mieć podejrzenia, czy przypadkiem nie zhakowano mu konta. Co jednak w sytuacji, gdy nie będzie to tekst, a nagranie głosowe?

Zapewne znacznie więcej ofiar padłoby ofiarą takiego scamu. A pozyskać 3-sekundowe nagranie czyjegoś głosu obecnie wcale nie tak trudno – w wielu przypadkach wystarczy znaleźć czyjegoś TikToka (chociaż oczywiście są też takie osoby, które w sieci swojego głosu nie udostępniają).

Twórcy doskonale zdają sobie sprawę z zagrożeń, dlatego póki co VALL-E jest modelem zamkniętym. Nie można samemu wypróbować, jak działa, w przeciwieństwie do wspomnianych na wstępie DALL-E czy ChatuGPT. Natomiast twórcy udostępnili demo na GitHubie, pozwalające zobaczyć na gotowych przykładach, jak to działa.

Co sądzicie o VALL-E? Dajcie koniecznie znać w komentarzach!


Redaktor naczelna TechPolska od 2019 roku. W przerwach między nabijaniem kolejnych setek godzin w Genshin Impact recenzuje każdy kawałek elektroniki, który wpadnie jej w ręce.

Udostępnij

WARTO PRZECZYTAĆ:

Wybór karty graficznej – co jest ważne przy wyborze?
Karty graficzne potrzebne są w komputerach, ponieważ wpływają na odbiór wyświetlanego obrazu. To także wydajność, edycja video a także niekiedy możliwość lepszego wykorzystania sztucznej inteligencji.
Jak zaszyfrować dysk Na czym polega szyfrowanie dysku i jak to zrobić?
W dobie pracy zdalnej, przechowywania dokumentów w chmurze i częstego korzystania z nośników przenośnych, bezpieczeństwo danych zyskuje nowy wymiar. Jednym ze skutecznych sposobów na ich
stellar blade Dune i Stellar Blade biją rekordy graczy na Steamie
Miniony weekend był wyjątkowo gorący dla fanów nowych gier AAA na PC. Obie nowe premiery: Dune: Awakening, jak i Stellar Blade zanotowały rekordowe wyniki jednoczesnych

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *