Nie da się ukryć, że w ostatnim czasie mamy prawdziwy wysyp nowych modeli sztucznej inteligencji. Świat zawojował m.in. tworzący obrazki DALL-E i generujący tekst ChatGPT, a teraz przyszedł czas na AI, które jest w stanie podrobić głos dowolnego człowieka – i to naprawdę skutecznie.

Wystarczą 3 sekundy, aby podrobić głos, emocje i otoczenie akustyczne

VALL-E jest dziełem naukowców z Microsoftu. To model typu TTS (text-to-speech), czyli zamieniający tekst na mowę. I to nie byle jaką mowę, bo mowę określonej osoby. Narzędzia symulujące głos konkretnych osób nie są oczywiście czymś zupełnie nowym, natomiast mają one duże ograniczenia – potrzebują dużej ilości wysokiej jakości nagrań źródłowych, aby rezultat brzmiał w miarę autentycznie.

Jednak nie w tym przypadku. Twórcy VALL-E twierdzą, jest niezwykle skuteczny i wystarczą mu już 3 sekundy nagrania dźwiękowego, aby przekonująco symulować czyjś głos. Ma to wynikać z szerokiego zakresu danych, na jakich AI zostało “wytrenowane”.

VALL-E wykorzystał open-source’owy zestaw danych Libri-Light, w skład którego wchodzi 60 000 godzin mowy w języku angielskim. Próbki dostarczyło 7000 unikalnych użytkowników. Z racji na wykorzystanie anglojęzycznego zestawu, VALL-E do działania potrzebuje anglojęzycznych próbek i tylko tekst w tym języku skutecznie przerobi na “podrobioną” mowę.

Twórcy pochwalili się, że AI jest w stanie symulować nie tylko głos danej osoby, ale też otoczenie akustyczne i emocje. Jeśli więc na przykład próbką była rozmowa telefoniczna, czy też nagranie wykonane w zatłoczonym i hałaśliwym miejscu, wygenerowany dźwięk też będzie tak brzmiał. Jeśli w próbce głos ma smutny ton, to będzie smutny również w nagraniu stworzonym przez AI.

valle
Proces działania VALL-E | Źródło: Microsoft

VALL-E ma pewne słabe strony

Naukowcy twierdzą, że VALL-E radzi sobie bardzo dobrze w porównaniu do konkurencji – nie jest jednak modelem idealnym. Średnio radzi sobie z symulowaniem głosów ludzi mówiących z akcentem, czasami też zdarza mu się np. zgubić jakieś słowo lub wypowiedzieć je niewyraźnie.

Nie sposób nie wspomnieć również o problemach natury etycznej, moralnej czy prawnej. Możliwość łatwego podrobienia głosu dowolnej osoby na podstawie bardzo krótkiego nagrania generuje całą masę zagrożeń.

Oszuści zapewne zacierają ręce

Zapewne chętnie z takiej technologii skorzystaliby twórcy deepfake’ów i inni wszelkiej maści oszuści. Klipy z podrobionym głosem polityków, przywódców religijnych czy innych czołowych postaci mogą posłużyć do prowadzenia akcji dezinformacyjnych, jest też duże pole do mniejszych oszustw.

Jeśli np. nagle otrzymamy od znajomego na Messengerze wiadomość z prośbą o podanie kodu BLIK, możemy mieć podejrzenia, czy przypadkiem nie zhakowano mu konta. Co jednak w sytuacji, gdy nie będzie to tekst, a nagranie głosowe?

Zapewne znacznie więcej ofiar padłoby ofiarą takiego scamu. A pozyskać 3-sekundowe nagranie czyjegoś głosu obecnie wcale nie tak trudno – w wielu przypadkach wystarczy znaleźć czyjegoś TikToka (chociaż oczywiście są też takie osoby, które w sieci swojego głosu nie udostępniają).

Twórcy doskonale zdają sobie sprawę z zagrożeń, dlatego póki co VALL-E jest modelem zamkniętym. Nie można samemu wypróbować, jak działa, w przeciwieństwie do wspomnianych na wstępie DALL-E czy ChatuGPT. Natomiast twórcy udostępnili demo na GitHubie, pozwalające zobaczyć na gotowych przykładach, jak to działa.

Co sądzicie o VALL-E? Dajcie koniecznie znać w komentarzach!

WARTO PRZECZYTAĆ:

Monitorowanie produkcji. Jak robić to w nowoczesny sposób?
Monitorowanie produkcji to proces polegający na pozyskiwaniu danych z produkcji. Ma na celu zwiększenie efektywności związanych z nią procesów, a także ciągłą optymalizację produkcji. Nadzór
heineken the boring phone Heineken stworzył… telefon z klapką — The Boring Phone
„Teraz BEZ mediów społecznościowych” – tak Heineken reklamuje swój nowy… telefon. Tak, znany producent piwa zdecydował się wkroczyć na rynek elektroniki. The Boring Phone, czyli
napiwki dla twórców gier Ukończyłeś grę i przypadła Ci do gustu? Daj napiwek. Nowy pomysł byłego szefa Blizzarda
Wszystko wskazuje na to, że płacenie za gry AAA w dniu premiery około 70 dolarów to wciąż zbyt mało dla twórców. Coraz częściej słychać, że
Udostępnij

Administrator

Redaktor naczelna TechPolska od 2019 roku. W przerwach między nabijaniem kolejnych setek godzin w Genshin Impact recenzuje każdy kawałek elektroniki, który wpadnie jej w ręce.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *