Frāžu noteikšana ir tikai daļa no procesa.
Kliedzot "Ok Google" no visas istabas, lai mainītu mūziku vai izslēgtu gaismu telpā, tas noteikti šķiet neticami, taču šo šķietami vienkāršo procesu nodrošina sarežģīts tehnoloģiju tīkls, kas darbojas aiz tā ainas.
Gandrīz katram lielākajam virtuālajam asistentam tirgū ir izsaukšanas frāze, kuru izmantojat, lai pamodinātu palīgu un sarunātos. Bet kā balss palīgi zina, kad jūs ar viņiem runājat?
Kā darbojas frāžu noteikšana?
Kā minēts iepriekš, katram balss palīgam ir “ierīces frāze” jeb modināšanas vārds, ko izmantojat, lai pamodinātu palīgu un sniegtu papildu komandas. Šīs frāzes noteikšanas process ir vairāk vai mazāk vienāds ar katru palīgu, izņemot nelielas nianses. Tomēr šīs nianses var nozīmēt atšķirību starp nejaušu pamošanās komandas izrunāšanu un atkārtotu kliedzienu reizes, lai asistents varētu turpināt gulēt, kas dažkārt var būt ļoti kaitinoši, it īpaši, ja jūs esat izmantojot balss palīgu, lai palīdzētu nomierināties.
Parasti lielākajai daļai "viedo" skaļruņu ir neliela ķēde, kuras vienīgais uzdevums ir noteikt modināšanas komandu un pēc tam iedarbināt pārējo aparatūru. Lielākā daļa apstrādes tiek veikta mākonī, taču acīmredzamu privātuma iemeslu dēļ frāzes noteikšana notiek ierīcē. Frāžu noteikšana tālruņos darbojas vairāk vai mazāk tāpat.
Specifika lielākoties ir slepena, taču šīs noteikšanas sistēmas izmanto mašīnmācīšanos un dziļos neironu tīklus (DNN), lai apmācītu AI modeļus noteikt jūsu balsi un veidot atslēgu. Pēc tam šī atslēga tiek izmantota, lai pārbaudītu, kad esat teicis konkrētu frāzi, un viss pārējais tiek nosūtīts uz mākoni tālākai apstrādei.
Google palīgs
Tālruņiem, kas atbalsta “OK Google” noteikšanu, parasti ir atslēgvārdu noteikšanas (KWS) sistēma, kas nosaka frāzi un pēc tam aizlāpa pārējo vaicājumu mākonī. Tā kā mobilajām ierīcēm ir ierobežota skaitļošanas jauda, kā arī akumulatora darbības laika ierobežojumi, šīs sistēmas parasti nav tik labas kā tās, kuras varat atrast Google Nest skaļruņos.
Šī ierīcē esošā KWS sistēma nepārtraukti uztver audio no ierīces mikrofoniem un uzsāk savienojumu ar serveri, kad tā konstatē palaišanas frāzi. Google izmanto arī servera puses kontekstuālo automātisko runas atpazīšanu (ASR), lai uzlabotu savas KWS sistēmas vispārējo precizitāti. Vairāk par to varat lasīt sadaļā Google pētniecības darbs [PDF].
Siri
Siri darbojas tāpat kā Google palīgs attiecībā uz "Hey Siri" noteikšanu. Apple ir pārsteidzoši atklāti runājis par sistēmas darbību, kas ietver "ļoti mazu" runas atpazīšanas ierīci, kas darbojas fonā un klausās tikai šos divus vārdus. Šis detektors izmanto DNN, lai katrā gadījumā ierakstīto jūsu balss akustisko modeli pārvērstu runas skaņu varbūtības sadalījumā, būtībā ģenerējot ticamības rādītāju.
Jūsu iPhone vai Apple Watch to dara, mainot jūsu balsi viļņu formas paraugu straumē ar ātrumu 16 000 sekundē. Pēc tam tas tiek samazināts līdz kadru secībai, kas aptver aptuveni 0,01 sekundes skaņas spektru. Pēc tam kopumā 20 no šiem kadriem tiek ievadīti noteikšanas modelī, kas pārvērš šos modeļus varbūtībā.
Ja sistēma ar pietiekamu pārliecību konstatē, ka esat teicis "Hey Siri", Siri pamostas un nosūta pārējo. vaicājuma mākonī, kur tiek veikta turpmāka analīze un tiek veikta jūsu pieprasītā darbība veikta.
Protams, ir pievienoti papildu pasākumi, lai nodrošinātu atmiņas un akumulatora efektivitāti. Šī iemesla dēļ jūsu iPhone vienmēr ieslēgtajam procesoram (AOP) ir piekļuve ierīces mikrofoniem (iPhone 6S un jaunākās versijās), un neliela tā apstrādes jaudas daļa ir rezervēta DNN darbināšanai. Apple savā mašīnmācības vietnē dziļi iedziļinās visā sistēmā, mašīnmācība.ābols.
Alexa
Līdzīgi kā Google palīgs un Siri, arī Alexa lielāko daļu apstrādes jaudas nenodrošina nevienā no Echo skaļruņiem, kurus varat iegādāties. Tā vietā runātāji izmanto to, ko Amazon sauc par automātisko runas atpazīšanu (ASR), kas būtībā pārvērš runātos vārdus tekstā, ļaujot pamatā esošajai sistēmai tos interpretēt un attiecīgi rīkoties.
ASR veido Alexa darbības pamatu. Atkal ir iebūvēta sistēma, kas klausās modināšanas vārdus, šajā gadījumā "Alexa", "Amazon", "Echo" vai "Computer" un aktivizē pārējo sistēmu, kad lietotāja iepriekš noteiktais modināšanas vārds ir atklāts. Jūs pat varat pamodiniet savu Alexa ierīci, izmantojot "Hey Disney" Ja tu vēlies.
Tāpat kā Google palīgs, jūs varat apmācīt Alexa pamatā esošo AI modeli, lai labāk noteiktu jūsu balsi. Šis process ietver bāzes līnijas "atslēgas" izveidi, ar kuru tiek salīdzināts izrunātais modināšanas vārds, un, kad tiek atrasta atbilstība, ierīce attiecīgi reaģē.
Vai balss palīgi vienmēr klausās?
Kā jau droši vien nojaušat, jā, tādi ir. Citādi viņi nevarētu noteikt modināšanas vārdus. Tomēr privātuma problēmu dēļ jums vēl nav jāizmet visi viedie skaļruņi.
Klausīties visu, ko saka lietotāji, nosūtīt to atpakaļ uz attālo serveri un analizēt (vai uzglabāt) prasa milzīgus aparatūras un finanšu resursus līdz vietai, kur praktiski nav jēgas perspektīva. Pievienojiet tam lielas privātuma problēmas, ar kurām jau saskaras tādi uzņēmumi kā Google, Apple un Amazon, un idejai nav jēgas.
Tas arī ievērojami ietekmē tālruņu veiktspēju un akumulatora darbības laiku, izmantojot modināšanas vārdu noteikšanas funkcijas, jo īpaši Google Pixels un iPhone. Ja tālrunis nepārtraukti klausās jūsu teikto un nosūta šo audio atpakaļ uz attālo serveri, tas izlādēs akumulatoru un ietekmēs ierīces veiktspēju.
Kam ir visefektīvākā frāžu noteikšana un kāpēc?
Nav viegli objektīvi salīdzināt, kuram virtuālajam asistentam ir vislabākā frāžu noteikšana, jo tie visi izmanto nedaudz atšķirīgus vienas un tās pašas koncepcijas implementācijas. Tomēr šķiet, ka Google ir konsekventāka frāžu noteikšana, pateicoties Google palīgam, salīdzinot ar Siri un Alexa.
Neskatoties uz to, ka lietotnes, kurās tiek izmantoti lieli valodu modeļi (LLM), piemēram, ChatGPT un Bing Chat, kļūst plaši izplatītas, Google palīgs saglabā savu pozīciju kā viens no populārākajiem. populāri virtuālie palīgi, jo tas ir viena pieskāriena attālumā katrā Android ierīcē, sākot no viedtelevizoriem līdz automašīnas stereo sistēmām un, protams, viedtālruņiem.
Siri un Alexa šajā nodaļā ir jāpaveic, bet, ciktāl tas attiecas uz frāžu noteikšanu, viņi nav tik tālu. Tomēr jums būs lielāka iespēja pamodināt Google palīgu savā Pixel tālrunī no visas istabas, nekā to darītu, izmantojot Siri savā iPhone, lai gan jūs varat uzlabojiet Siri iespējas, izmantojot Super Siri režīmu. Tā kā Alexa galvenokārt tiek izmantots Amazon Echo skaļruņu līnijā, tam šeit ir neliela priekšrocība, ņemot vērā, ka šie skaļruņi ir paredzēti, lai varētu uztvert lietotāja balsi.
AI ir tikpat spokains, cik ērts
AI palīga izsaukšana tikai ar savu balsi var būt ļoti noderīga. Funkcijai, kas nemanāmi iekļaujas mūsu dzīvē, aizkulisēs notiek daudz kas, par ko lielākā daļa no mums bieži neaizdomājas.
Tomēr šīs ērtības rada arī neērtības, kas rodas, kad ierīce vienmēr klausās jūsu teikto. Līdz šim ierīces runas atpazinēji un modināšanas vārdi atrodas starp to, ko dzird jūsu virtuālais palīgs, un jūsu teikto.