Deepfake mūzika atdarina konkrēta izpildītāja stilu, tostarp viņa balsi. Kā tas var izklausīties tik reāli?

Ilgu laiku mūzika varēja izvairīties no dziļo viltojumu pasaules, jo tā vienkārši bija pārāk sarežģīta, lai sintezētu kāda balsi. Tas viss mainījās līdz ar AI tehnoloģiju sasniegumiem. Tā rezultātā ir izveidoti slavenu mākslinieku balss kloni, kurus var izmantot jaunu vokālo celiņu radīšanai.

Tā kā AI rīki kļūst arvien pieejamāki vidusmēra cilvēkiem, dziļa viltus mūzika kļūst par pieaugošu problēmu. Lūk, kas tas ir un kā tas tiek izveidots.

Dziļās viltus mūzikas evolūcija

Kad dzirdat savu iecienītāko izpildītāju dziedam pakalpojumā Spotify vai YouTube, jūs diez vai domājat, ka tas varētu būt viltojums, taču AI sasniegumi to ir padarījuši par realitāti. Līdzās viltotiem attēliem un videoklipiem pastāv arī viltota mūzika.

AI rīki var patiesi reproducēt cilvēka dziedāšanas balsi, apmācot AI modeli viņu balss audio paraugos. To radījuši mākslinieka vai AI tehnoloģiju cienītāji, arvien vairāk cilvēku mēģina radīt vokālus dublējumus.

instagram viewer

Cilvēki ir mēģinājuši sintezēt balsi, izmantojot datoru gadiem ilgi, sākot jau 1961. gadā, kad IBM 7094 bija pirmais dators, kas dziedāja. Jūs varat dzirdēt datora ģenerēta balss dziedāšana Daisy Bell YouTube klipā un mēģiniet iedomāties, cik pārsteidzošs bija šis brīdis.

Ātri uz priekšu 21. gadsimtā, un AI tehnoloģija ir uzlabojusi sintezētās balss kvalitāti un ļāva mums darīt lietas, kuras lielākā daļa no mums līdz šim nekad nav domājuši par iespējamu, piemēram, klonēt cilvēku balsis.

Apskatiet šo klipu, kurā Roberto Niksons pārveido savu balsi par mākslinieku un reperi Kanje Vestu. Skatoties videoklipu, šķiet neparasti, tas patiešām izklausās tāpat kā Kanje, taču to ir arī neērti skatīties. Pārāk nedomājot par to, kā mākslinieks varētu domāt vai justies, un bez atļaujas to varētu uzskatīt par kāda balss piesavināšanos.

Atšķirībā no Daisy Bell datora atveidošanas, mākslīgā intelekta vokālā klonēšana spēj reproducēt precīzu līdzību kāda balss, kas ietver visas smalkās tembru atšķirības, kas palīdz mums noteikt kāda cilvēka unikālo vokālu profils. Nelicencētai un bez atļaujas veiktai deepfake mūzikai ir dažas nopietnas problēmas, par kurām mēs pievērsīsimies vēlāk.

Kā tiek radītas Deepfake dziesmas

Deepfake dziesmu radīšanai tiek izmantotas dažādas metodes, taču daudzas no tām izmanto AI tehnoloģiju. Atvērtā pirmkoda projekti, piemēram SoftVC VITS dziedāšanas balss konvertēšanas projekts vietnē GitHubPiemēram, ir izstrādājuši AI modeli, kas dara to, kas teikts tā nosaukumā: pārvērš audio paraugu dziedāšanas balsī.

Šis modelis ņem esošu audio failu, kurā kāds dzied, un pārvērš to par kāda cita balsi. Tādas lietas kā sākotnējās balss vārdi un ritms tiek saglabātas, bet tonis, tembrs un personīgās balss īpašības tiek pārveidotas balsī, kas norādīta apmācības datu kopā.

Ņemiet vērā, ka citas dziesmas daļas joprojām var tikt izveidotas manuāli, piemēram, izveidot ritmus un melodijas tādā pašā stilā un žanrā kā oriģinālais izpildītājs.

Lai izveidotu Kanje Vesta balss viltojumu, SoftVC VITS modelī bija jāievada trešās puses datu kopa, kurā būtu iekļauti īstās Kanje balss paraugi. Kopš tā laika autors ir noņēmis failu, kurā ir datu kopa, un tas nav pārsteidzoši, ņemot vērā neskaidro juridisko teritoriju, kurā var būt nesankcionētas datu kopas.

Lai gan tā nav pārvērsta par komerciālu lietotni, varat atrast tās versiju SoftVC VITS modelis pakalpojumā Google Collab kas ir lietotājam draudzīgāks.

Kamēr nebūs noteiktas ētiskās un juridiskās robežas, iespējams, ka tiks izmantotas vairākas viegli lietojamas balss klonēšanas lietotnes. uznirstošais logs — ne pārāk atšķiras no lietotnes Drayk.it, kas teksta aprakstu pārvērta dziesmās, kas veidotas pēc izpildītāja Dreiks. Vēlāk tas tika slēgts.

Daži citi rīki, kas tiek izmantoti dziļas viltus mūzikas radīšanai, ietver lielus valodu modeļus, piemēram ChatGPT, ko var izmantot, lai rakstītu dziesmu tekstus slavena mākslinieka stilā; un OpenAI Jukebox un Google MusicLM, kas ir ģeneratīvi AI modeļi, kas var radīt mūziku neapstrādātā audio formātā pilnīgi no nulles.

Vai jūs varat dzirdēt atšķirību?

Dziesma, ko izveidojis anonīms lietotājs ar nosaukumu Ghostwriter, 2023. gada aprīlī izplatījās vietnē TikTok, jo tajā bija dziesmu teksti, kurus dziedāja mākslinieki Dreiks un The Weeknd. Protams, tās nebija īstās mākslinieku balsis, bet gan viltotas.

Ja vokāls nebūtu bijis tik laba oriģināla kopija, tas, iespējams, nebūtu bijis hits. Nedaudz padziļinot, jūs varētu diezgan ātri noskaidrot, vai tas bija īsts vai nē, taču, izmantojot tikai ausis, jūs varētu tikai uzminēt, vai tas ir autentisks.

Ja Tu gribi identificēt AI ģenerētu attēlu ir vismaz dažas vizuālas novirzes, kuras jūs varētu meklēt. Runājot par audio, tādas pazīmes kā zemas precizitātes skaņa vai celiņa kļūmes neko daudz nenozīmē, jo tās ir radošas izvēles, ko visu laiku izmanto mūzikas producēšanā.

Vēl interesantāk ir tas, ka daudziem cilvēkiem šī dziesma patiesi patīk, pat pēc tam, kad atklājās, ka tās nav īstās Drake vai The Weeknd balsis. Cienītāji norādīja, ka ne viss tika vienkārši ģenerēts ar AI un ka īstas prasmes un darbs bija dziesmu tekstu rakstīšanā, ritmu sacerēšanā un visa satura salikšanā.

Dziesma nokļuva Spotify un YouTube, pirms tā tika noņemta nākamajās dienās, taču ne pirms tam, kad fani bija lejupielādējuši dziesmu kā mp3. Jūs joprojām varat atrast dziesmas kopijas tiešsaistē, ja meklējat "Heart On My Sleeve, Drake ft. Nedēļa".

Drīzumā pamanīt atšķirību starp mākslīgā intelekta radītiem vokāla kloniem un īsto cilvēka balsi kļūs gandrīz neiespējami. Paturot to prātā, cilvēki apšauba, vai tas vispirms ir labs AI tehnoloģijas lietojums vai pat likumīgs tās izmantošana.

Problēmas ar Deepfake mūziku

No vienas puses, cilvēkiem patīk klausīties savu iecienītāko mākslinieku fanu veidotus salikumus un ciena radošumu, kas tiek izmantots, lai to padarītu par realitāti. Bet iespēja iegūt vokālos klonus, pirmkārt, ir atkarīga no datu kopām, kas var būt vai nav atļautas.

Bez atļaujas personas balss paraugi tiek apkopoti datu kopā, ko pēc tam izmanto, lai apmācītu AI balss konversijas modeli. Tas ir līdzīgs problēmai, ar kuru saskaras mākslinieki, kuri vēlas noņemt savus attēlus no apmācību datu kopām kas tiek izmantoti, lai apmācītu AI attēlu ģeneratorus, piemēram, Dall-E vai Midjourney.

Autortiesību likums arī nav pietiekami gatavs, lai tiktu galā ar deepfake mūziku. 2020. gadā māksliniekam Jay-Z neizdevās piespiest YouTube noņemt mākslīgā intelekta ģenerētu audio ierakstu, kurā viņš repo Viljama Šekspīra monologu “To Be or Not To Be”.

Kad Deepfake dziesma tiek augšupielādēta Spotify vai YouTube, rodas arī jautājums par to, kurš pelna naudu. Vai jums vajadzētu būt iespējai nopelnīt naudu par dziesmu, kas gandrīz precīzi kopē kāda cita balsi?

Holija Herndone ir viena māksliniece, kura ir mēģinājusi izveidot sistēmu, lai cilvēki viņai kompensētu apmaiņā pret balss modeļa izmantošanu oriģināldarbu radīšanai. Kamēr citi mākslinieki, piemēram, Niks Keivs, ir izteicās pret AI, rakstot:

Dziesmas rodas no ciešanām, ar to es domāju, ka tās ir balstītas uz sarežģītu, iekšēju cilvēcisku radīšanas cīņu, un, cik es zinu, algoritmi nejūtas.

Dažreiz, AI ģenerētam tekstam var pietrūkt radošuma tomēr tie joprojām ir publicēti tiešsaistē. AI var radīt daudz sliktas mūzikas, kurai ir pielikts ļoti maz pūļu.

Līdzsvara atrašana starp mūziku un AI

Deepfake mūzika tiek veidota, izmantojot AI rīkus un AI modeļus, kas ir apmācīti par neatļautām datu kopām. Daži modeļi ir atvērtā pirmkoda un brīvi pieejami, savukārt citi ir mēģināti tos iepakot lietotājam draudzīgā lietotnē.

Tā kā arvien vairāk cilvēku pievērš uzmanību deepfake mūzikas modeļiem vai lietotnēm, ir vērts padomāt par ietekmi uz mākslinieku. Piekrišanas saņemšana apmācību datu kopām un kompensācija māksliniekam ir tikai dažas no problēmām, kas skar AI mūzikas tehnoloģiju.