Nie da się ukryć, że w ostatnim czasie mamy prawdziwy wysyp nowych modeli sztucznej inteligencji. Świat zawojował m.in. tworzący obrazki DALL-E i generujący tekst ChatGPT, a teraz przyszedł czas na AI, które jest w stanie podrobić głos dowolnego człowieka – i to naprawdę skutecznie.

Wystarczą 3 sekundy, aby podrobić głos, emocje i otoczenie akustyczne

VALL-E jest dziełem naukowców z Microsoftu. To model typu TTS (text-to-speech), czyli zamieniający tekst na mowę. I to nie byle jaką mowę, bo mowę określonej osoby. Narzędzia symulujące głos konkretnych osób nie są oczywiście czymś zupełnie nowym, natomiast mają one duże ograniczenia – potrzebują dużej ilości wysokiej jakości nagrań źródłowych, aby rezultat brzmiał w miarę autentycznie.

Jednak nie w tym przypadku. Twórcy VALL-E twierdzą, jest niezwykle skuteczny i wystarczą mu już 3 sekundy nagrania dźwiękowego, aby przekonująco symulować czyjś głos. Ma to wynikać z szerokiego zakresu danych, na jakich AI zostało “wytrenowane”.

VALL-E wykorzystał open-source’owy zestaw danych Libri-Light, w skład którego wchodzi 60 000 godzin mowy w języku angielskim. Próbki dostarczyło 7000 unikalnych użytkowników. Z racji na wykorzystanie anglojęzycznego zestawu, VALL-E do działania potrzebuje anglojęzycznych próbek i tylko tekst w tym języku skutecznie przerobi na “podrobioną” mowę.

Twórcy pochwalili się, że AI jest w stanie symulować nie tylko głos danej osoby, ale też otoczenie akustyczne i emocje. Jeśli więc na przykład próbką była rozmowa telefoniczna, czy też nagranie wykonane w zatłoczonym i hałaśliwym miejscu, wygenerowany dźwięk też będzie tak brzmiał. Jeśli w próbce głos ma smutny ton, to będzie smutny również w nagraniu stworzonym przez AI.

valle
Proces działania VALL-E | Źródło: Microsoft

VALL-E ma pewne słabe strony

Naukowcy twierdzą, że VALL-E radzi sobie bardzo dobrze w porównaniu do konkurencji – nie jest jednak modelem idealnym. Średnio radzi sobie z symulowaniem głosów ludzi mówiących z akcentem, czasami też zdarza mu się np. zgubić jakieś słowo lub wypowiedzieć je niewyraźnie.

Nie sposób nie wspomnieć również o problemach natury etycznej, moralnej czy prawnej. Możliwość łatwego podrobienia głosu dowolnej osoby na podstawie bardzo krótkiego nagrania generuje całą masę zagrożeń.

Oszuści zapewne zacierają ręce

Zapewne chętnie z takiej technologii skorzystaliby twórcy deepfake’ów i inni wszelkiej maści oszuści. Klipy z podrobionym głosem polityków, przywódców religijnych czy innych czołowych postaci mogą posłużyć do prowadzenia akcji dezinformacyjnych, jest też duże pole do mniejszych oszustw.

Jeśli np. nagle otrzymamy od znajomego na Messengerze wiadomość z prośbą o podanie kodu BLIK, możemy mieć podejrzenia, czy przypadkiem nie zhakowano mu konta. Co jednak w sytuacji, gdy nie będzie to tekst, a nagranie głosowe?

Zapewne znacznie więcej ofiar padłoby ofiarą takiego scamu. A pozyskać 3-sekundowe nagranie czyjegoś głosu obecnie wcale nie tak trudno – w wielu przypadkach wystarczy znaleźć czyjegoś TikToka (chociaż oczywiście są też takie osoby, które w sieci swojego głosu nie udostępniają).

Twórcy doskonale zdają sobie sprawę z zagrożeń, dlatego póki co VALL-E jest modelem zamkniętym. Nie można samemu wypróbować, jak działa, w przeciwieństwie do wspomnianych na wstępie DALL-E czy ChatuGPT. Natomiast twórcy udostępnili demo na GitHubie, pozwalające zobaczyć na gotowych przykładach, jak to działa.

Co sądzicie o VALL-E? Dajcie koniecznie znać w komentarzach!


Administrator

Redaktor naczelna TechPolska od 2019 roku. W przerwach między nabijaniem kolejnych setek godzin w Genshin Impact recenzuje każdy kawałek elektroniki, który wpadnie jej w ręce.

Udostępnij

WARTO PRZECZYTAĆ:

Nowy gameplay z Assassin’s Creed Shadows
Nie możecie się doczekać premiery Assassin’s Creed Shadows? Ubisoft lubi tak myśleć, więc stara się budować hype na swoją grę, w końcu premiera już niedługo.
Gmail zaskakuje nowością – drobna zmiana, wielka wygoda!
Google właśnie usprawniło Gmaila! Wprowadzono funkcję związaną z Gemini, dzięki której możliwe jest błyskawiczne dodawanie wydarzeń do kalendarza prosto z poziomu poczty. Zapomnij o ręcznym
diablo 2 Diablo 2: Kultowa klasyka czy frustrująca pułapka?
Diablo 2 to legenda gatunku hack’n’slash, która na zawsze zapisała się w historii gier. Jednak czy rzeczywiście jest tak doskonała, jak twierdzą jej najwięksi fani?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *