Technologia głębokiego klonowania głosu jest stosunkowo nowym zagrożeniem. Stanowi ono ewolucję w zakresie zagrożeń związanych ze sztuczną inteligencją (AI). Klonowanie głosu, w połączeniu z innymi technologiami AI, takimi jak deepfake video, czy sztuka generatywna, stanowi coraz większe niebezpieczeństwo. Recorded Future opublikowało obszerny raport dotyczący szerokiego zastosowania tych technologii wśród cyberprzestępców. Najważniejsze wnioski przedstawiamy poniżej.
Klonowanie głosu i cyberprzestępstwa
Według Federalnej Komisji Handlu Stanów Zjednoczonych (FTC) tworzenie “syntetycznych mediów” przez platformy AI, włączając w to technologie klonowania głosu, umożliwia cyberprzestępcom szybkie i tanie generowanie całkiem realistycznych, jednak nieprawdziwych treści i rozpowszechnianie ich wśród grup, społeczności lub konkretnych osób.
Ponadto eksperci z Recorded Future ostrzegają przed rosnącą popularnością usług Voice Cloning-as-a-Service (ang. klonowanie głosu jako usługa, VCaaS) dostępnych w darkwebie.
W chwili obecnej najskuteczniejsze wykorzystanie technologii klonowania głosu polega głównie na generowaniu jednorazowych próbek. Mogą one być wykorzystywane w szantażach, szerzeniu dezinformacji lub też podszywaniu się (np. pod osoby zarządzające przedsiębiorstwem). Póki co wykorzystywanie deepfake voice w celu prowadzenia rozmów w czasie rzeczywistym lub generowania komunikatów w językach innych niż angielski wymaga dużo więcej pracy. Nie oznacza to jednak, że jesteśmy bezpieczni…
Oszustwa bankowe
W lutym 2023 roku, w artykule na łamach Vice, dziennikarz technologiczny Joseph Cox udowodnił, że może włamać się do swojego konta bankowego, używając próbki głosu wygenerowanej przez platformę ElevenLabs. W wyniku eksperymentu Coxowi udało się skutecznie oszukać “Voice ID” – stosowaną przez bank metodę uwierzytelniania opartą na głosie.
Na szczęście wdrożenie alternatywnych lub dodatkowych form uwierzytelniania może utrudnić, a nawet uniemożliwić wykorzystanie klonowania głosu jako wektora ataku.
Dezinformacja
Technologia klonowania głosu może być wykorzystywana także do szerzenia dezinformacji. Odbywa się to poprzez tworzenie realistycznych nagrań dźwiękowych, na których osoby publiczne wydają się mówić rzeczy, których naprawdę nie powiedziały. Proces ten polega na uczeniu algorytmu klonującego głos przy użyciu danych audio dotyczących wybranego celu. Następnie można rozpocząć generowanie nowych fragmentów dźwiękowych z tym samym głosem i tonem. Efekt końcowy może brzmieć niezwykle wiarygodnie, co utrudnia odróżnienie prawdziwych informacji od fałszywych. Ta technologia może być szczególnie niebezpieczna w kontekście kampanii politycznych lub sytuacji kryzysowych.
Ponadto sfałszowane nagrania dźwiękowe mogą zadawać szkody reputacyjne firmom i instytucjom, co może mieć potencjalne skutki finansowe. Eksperci ostrzegają także przed sytuacjami, w których fałszywe nagrania audio mogą być wykorzystywane do manipulowania giełdą.
Oszustwa telefoniczne
W niektórych przypadkach oszustwa telefoniczne polegają na tworzeniu fałszywych materiałów, gdzie oszuści podszywają się pod inne osoby, używając ich głosu. Idealny przykład tego typu oszustwa miał już miejsce w rzeczywistości. W stanie Arizona w USA matka 15-letniej dziewczynki usłyszała w słuchawce jej zapłakany głos oraz żądanie okupu za rzekome uwolnienie porwanej córki. Jak się okazało, cyberprzestępcy sklonowali jej głos, tymczasem ona była całkowicie bezpieczna.
Klonowanie głosu — jak się uchronić przed oszustwami?
Opensource’owe platformy związane z AI są obecnie w początkowej fazie rozwoju, niemniej ich jakość z pewnością będzie z czasem coraz lepsza. Ewolucja takich narzędzi opiera się w dużej mierze na podstawie informacji, jakich uczą je użytkownicy. W związku z tym istnieje prosta zależność. Im więcej używane (oraz nadużywane) są te platformy, tym bardziej mogą się stać skuteczne.
Aby zmniejszyć obecne i przyszłe ryzyko, organizacje muszą przyjąć wielopoziomową strategię, która obejmuje edukację, wykrywanie i rozwój narzędzi obronnych. Warto mieć na uwadze, że skuteczna walka z zagrożeniami powodowanymi przez sztuczną inteligencję jest możliwa jedynie przy wykorzystaniu AI.
Wizje dotyczące klonowania głosu i jego wykorzystania w oszustwach bankowych, dezinformacji, inżynierii społecznej czy naruszeniach praw autorskich są ponure. Zwłaszcza jeśli nie przyjmiemy odpowiedniego podejścia do ograniczania związanych z nimi ryzyk. Strategie ograniczania ryzyka muszą mieć charakter multidyscyplinarny i dotyczyć inżynierii społecznej, phishingu, vishingu, dezinformacji i innych zagrożeń. Edukacja użytkowników na temat zagrożeń, jakie niesie ze sobą ta technologia, będzie w krótkoterminowej perspektywie skuteczniejsza niż sama walka z nadużyciami. To z kolei powinno pozostać długoterminowym celem strategicznym.
Niestety na chwilę obecną ciężko o złotą radę jeśli chodzi o identyfikowanie sztucznie generowanych wypowiedzi. Podczas rozmów telefonicznych warto zwracać uwagę na nienaturalną intonację rozmówcy, brak naturalnych pauz, czy emocji w głosie, a także na brak oddechu w wypowiedzi.
Więcej o zagrożeniach związanych z klonowaniem głosu przeczytasz w raporcie: https://go.recordedfuture.com/hubfs/reports/cta-2023-0518.pdf
Edukacja to fundament skutecznej strategii cyberbezpieczeństwa. Sprawdź naszą Strefę Wiedzy Net Complex.
Grafika: freepik
Redaktorka Net Complex Blog