Nie da się ukryć, że w ostatnim czasie mamy prawdziwy wysyp nowych modeli sztucznej inteligencji. Świat zawojował m.in. tworzący obrazki DALL-E i generujący tekst ChatGPT, a teraz przyszedł czas na AI, które jest w stanie podrobić głos dowolnego człowieka – i to naprawdę skutecznie.

Wystarczą 3 sekundy, aby podrobić głos, emocje i otoczenie akustyczne

VALL-E jest dziełem naukowców z Microsoftu. To model typu TTS (text-to-speech), czyli zamieniający tekst na mowę. I to nie byle jaką mowę, bo mowę określonej osoby. Narzędzia symulujące głos konkretnych osób nie są oczywiście czymś zupełnie nowym, natomiast mają one duże ograniczenia – potrzebują dużej ilości wysokiej jakości nagrań źródłowych, aby rezultat brzmiał w miarę autentycznie.

Jednak nie w tym przypadku. Twórcy VALL-E twierdzą, jest niezwykle skuteczny i wystarczą mu już 3 sekundy nagrania dźwiękowego, aby przekonująco symulować czyjś głos. Ma to wynikać z szerokiego zakresu danych, na jakich AI zostało “wytrenowane”.

VALL-E wykorzystał open-source’owy zestaw danych Libri-Light, w skład którego wchodzi 60 000 godzin mowy w języku angielskim. Próbki dostarczyło 7000 unikalnych użytkowników. Z racji na wykorzystanie anglojęzycznego zestawu, VALL-E do działania potrzebuje anglojęzycznych próbek i tylko tekst w tym języku skutecznie przerobi na “podrobioną” mowę.

Twórcy pochwalili się, że AI jest w stanie symulować nie tylko głos danej osoby, ale też otoczenie akustyczne i emocje. Jeśli więc na przykład próbką była rozmowa telefoniczna, czy też nagranie wykonane w zatłoczonym i hałaśliwym miejscu, wygenerowany dźwięk też będzie tak brzmiał. Jeśli w próbce głos ma smutny ton, to będzie smutny również w nagraniu stworzonym przez AI.

valle
Proces działania VALL-E | Źródło: Microsoft

VALL-E ma pewne słabe strony

Naukowcy twierdzą, że VALL-E radzi sobie bardzo dobrze w porównaniu do konkurencji – nie jest jednak modelem idealnym. Średnio radzi sobie z symulowaniem głosów ludzi mówiących z akcentem, czasami też zdarza mu się np. zgubić jakieś słowo lub wypowiedzieć je niewyraźnie.

Nie sposób nie wspomnieć również o problemach natury etycznej, moralnej czy prawnej. Możliwość łatwego podrobienia głosu dowolnej osoby na podstawie bardzo krótkiego nagrania generuje całą masę zagrożeń.

Oszuści zapewne zacierają ręce

Zapewne chętnie z takiej technologii skorzystaliby twórcy deepfake’ów i inni wszelkiej maści oszuści. Klipy z podrobionym głosem polityków, przywódców religijnych czy innych czołowych postaci mogą posłużyć do prowadzenia akcji dezinformacyjnych, jest też duże pole do mniejszych oszustw.

Jeśli np. nagle otrzymamy od znajomego na Messengerze wiadomość z prośbą o podanie kodu BLIK, możemy mieć podejrzenia, czy przypadkiem nie zhakowano mu konta. Co jednak w sytuacji, gdy nie będzie to tekst, a nagranie głosowe?

Zapewne znacznie więcej ofiar padłoby ofiarą takiego scamu. A pozyskać 3-sekundowe nagranie czyjegoś głosu obecnie wcale nie tak trudno – w wielu przypadkach wystarczy znaleźć czyjegoś TikToka (chociaż oczywiście są też takie osoby, które w sieci swojego głosu nie udostępniają).

Twórcy doskonale zdają sobie sprawę z zagrożeń, dlatego póki co VALL-E jest modelem zamkniętym. Nie można samemu wypróbować, jak działa, w przeciwieństwie do wspomnianych na wstępie DALL-E czy ChatuGPT. Natomiast twórcy udostępnili demo na GitHubie, pozwalające zobaczyć na gotowych przykładach, jak to działa.

Co sądzicie o VALL-E? Dajcie koniecznie znać w komentarzach!

WARTO PRZECZYTAĆ:

wyprzedaz black friday konsole xbox series x Szef Xboxa: „Myślę, że też powinniśmy mieć handhelda”
Popularność przenośnych konsol w ostatnich latach jest niezaprzeczalna. Sukcesy takich urządzeń jak Nintendo Switch, Steam Deck czy nowe propozycje od Lenovo i Asusa przyciągnęły uwagę
AgilePM AgilePM® – zwinne zarządzanie projektami w dynamicznych środowiskach
Planując jakiekolwiek przedsięwzięcie, chcielibyśmy, by można je było zrealizować możliwie najtaniej, najszybciej i bez przeszkód. W większości przypadków to niemożliwe. Na szczęście istnieją podejścia takie
apple passwords Apple wystartuje z własnym menadżerem haseł?
Zgodnie z informacjami, które ujawnił Bloomberg, Apple przygotowuje się do wprowadzenia nowej aplikacji o nazwie Passwords (Hasła). Jej zadanie? Uproszczenie zarządzania danymi logowania na urządzeniach
Udostępnij

Administrator

Redaktor naczelna TechPolska od 2019 roku. W przerwach między nabijaniem kolejnych setek godzin w Genshin Impact recenzuje każdy kawałek elektroniki, który wpadnie jej w ręce.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *