Reklāma
Mēs tagad varam sarunāties ar gandrīz visiem saviem sīkrīkiem, bet kā tieši tas darbojas? Kad jūs jautājat “Kāda ir šī dziesma?” vai sakot “Zvani mammai”, notiek mūsdienu tehnikas brīnums. Un, kaut arī šķiet, ka tas ir līderis, šī ideja par sarunām ar ierīcēm meklējama gadu desmitos - gandrīz tikpat, cik zinātniskās fantastikas jetpacks!
Mūsdienās lielākā uzmanība, kas pievērsta balss vadītai skaitļošanai, tiek pievērsta viedtālruņiem. Apple, Amazon, Microsoft un Google atrodas ķēdes augšgalā, katrs piedāvā savu veidu, kā sarunāties ar elektroniku. Jūs zinājāt, kas viņi ir: Siri, Alexa, Cortana un bezvārds “Ok, Google”. Kas rada lielu jautājumu ...
Kā ierīce uztver izrunātos vārdus un pārvērš tos komandās, kuras tā var saprast? Būtībā tas attiecas uz modeļa saskaņošanu un prognozēšanu, pamatojoties uz šiem modeļiem. Konkrētāk, balss atpazīšana ir sarežģīts uzdevums Akustiskā modelēšana un Valodas modelēšana.
Akustiskā modelēšana: viļņu formas un tālruņi
Akustiskā modelēšana ir runas viļņu formas iegūšanas un analīzes process, izmantojot statistiskos modeļus. Visizplatītākā metode tam ir
Slēptā Markova modelēšana, kas tiek izmantots tā saucamajā izrunas modelēšana sadalīt runu komponentēs, ko sauc par tālruņiem (nejaukt ar reālām tālruņa ierīcēm). Microsoft daudzus gadus ir bijis vadošais pētnieks šajā jomā.Slēptā Markova modelēšana: varbūtības stāvokļi
Slēptā Markova modelēšana ir prognozējams matemātiskais modelis, kurā pašreizējo stāvokli nosaka, analizējot izvadi. Wikipedia ir lielisks piemērs, izmantojot divus draugus.
Iedomājieties divus draugus - vietējo draugu un attālo draugu -, kuri dzīvo dažādās pilsētās. Vietējais draugs vēlas noskaidrot, kādi ir laika apstākļi, kur dzīvo attālais draugs, bet attālais draugs vēlas runāt tikai par to, ko viņš tajā dienā izdarījis: pastaigāties, iepirkties vai sakopt. Katras aktivitātes iespējamība atkarībā no dienas laika apstākļiem.
Izliecieties, ka šī ir vienīgā pieejamā informācija. Izmantojot to, Vietējais draugs var atrast tendences, kā laika apstākļi mainījās katru dienu, un, izmantojot šīs tendences, viņa var sākt izteikt minējumus par to, kādi šodienas laika apstākļi būs balstīti uz viņas drauga aktivitāti vakar. (Iepriekš varat redzēt sistēmas diagrammu.)
Ja vēlaties sarežģītāku piemēru, apskatiet šis piemērs Matlab. Balss atpazīšanā šis modelis būtībā salīdzina katru viļņu formas daļu ar to, kas nāk pirms un pēc, un ar viļņu formu vārdnīcu, lai noskaidrotu, kas tiek teikts.
Būtībā, ja jūs dzirdat “th” skaņu, tā pārbaudīs šo skaņu, salīdzinot ar visticamākajām skaņām, kas parasti nāk pirms un pēc tās. Varbūt tas nozīmē pārbaudīt “e” skaņu, “at” skaņu un tā tālāk. Kad modelis precīzi sakrīt, tam ir viss jūsu vārds. Tas ir pārāk vienkāršojums, bet jūs varat redzēt Viss Microsoft skaidrojums šeit.
Valodas modelēšana: vairāk nekā skaņa
Akustiskā modelēšana daudz palīdz, lai jūsu dators jūs saprastu, bet kā ir ar homonīmiem un izrunas reģionālajām variācijām? Tieši šeit tiek izmantota valodas modelēšana. Google ir veicinājis daudz pētījumu šajā jomā, galvenokārt izmantojot N-gramu modelēšana.
Kad Google mēģina izprast jūsu runu, tas tiek darīts, pamatojoties uz modeļiem, kas iegūti no tā apjomīgās balss meklēšanas bankas un YouTube transkripcijām. Visi šie jautri nepareizie video paraksti faktiski ir palīdzējuši Google attīstīt viņu vārdnīcas. Viņi arī izmantoja aizbraukušos GOOG-411 apkopot informāciju par to, kā cilvēki runā.
Visa šī valodu kolekcija radīja plašu izrunu un dialektu klāstu, kas ļāva izveidot stabilu vārdu vārdnīcu un to skanējumu. Tas ļauj sakritībām, kurām ir ievērojami samazināts kļūdu līmenis nekā brutālā spēka saskaņošanai, pamatojoties uz neapstrādātām varbūtībām. Jūs varat izlasīt īsu rakstu aprakstot viņu metodes šeit.
Kaut arī Google ir līderis šajā jomā, tiek izstrādāti arī citi matemātiskie modeļi, ieskaitot nepārtrauktu telpu modeļi un pozicionētie valodas modeļi, kas ir modernāki paņēmieni, kas iegūti no mākslīgā intelekta pētījumiem. Šīs metodes balstās uz tāda veida spriešanas atkārtošanu, kādu cilvēki dara, klausoties viens otru. Tie ir daudz progresīvāki gan tehniskā nodrošinājuma ziņā, gan arī matemātikā un programmēšanā, kas nepieciešama šo modeļu izklāstam.
N-gramu modelēšana: varbūtība atbilst atmiņai
N-gramu modelēšana darbojas, pamatojoties uz varbūtībām, taču tajā tiek izmantota esošā vārdu vārdnīca, lai izveidotu zarojošu iespēju koku, kas pēc tam tiek izlīdzināts efektivitātes labad. Savā ziņā tas nozīmē, ka N-gramu modelēšana atceļ daudz nenoteiktības iepriekšminētajā Hidden Markov Modeling.
Kā minēts iepriekš, šīs metodes priekšrocība ir liela vārdnīca vārdi un lietojums, ne tikai primitīvi skaņas. Tas programmai dod iespēju pateikt atšķirību starp homofoniem, piemēram, “pārspēt” un “biešu”. Tas ir kontekstuāls, kas nozīmē, ka, runājot par pagājušās nakts ballēm, programma nevelk vārdus par boršču.
Bet šie modeļi valodai nav vislabākie, galvenokārt tāpēc, ka ir problēmas ar vārdu iespējamību garākās frāzēs. Kad teikumam pievienojat vairāk vārdu, šis modelis nedaudz atdalās, jo maz ticams, ka jūsu agrīnie vārdi būs ielādējuši visu nepieciešamo jūsu pilnīgajai domai.
Tomēr tas ir vienkārši un viegli īstenojams, padarot to par lielisku spēli uzņēmumam, piemēram, Google, kam patīk izmest serverus pie aprēķina problēmām. Jūs varat turpināt lasīt N-gram Modelieng vietnē Vašingtonas Universitāte, vai arī varat skatīties a lekcija Kursrā.
Kliegšana pie mākoņiem: lietotnes un ierīces
Ikviens, kurš ir izmantojis Siri, zina lēnā tīkla savienojuma vilšanos. Tas notiek tāpēc, ka komandas Siri tiek nosūtītas tīklā, lai tās atšifrētu Apple. Cortana operētājsistēmas Windows tālrunim ir nepieciešams arī tīkla savienojums, lai tā darbotos pareizi. Tomēr turpretī Amazon’s Echo ir tikai Bluetooth skaļrunis, kam nav interneta.
Kāpēc atšķirība? Tā kā Siri un Cortana ir nepieciešami lieljaudas serveri, lai atšifrētu jūsu runu. Vai to var izdarīt tālrunī vai planšetdatorā? Protams, šajā procesā jūs iznīcināsit savu veiktspēju un akumulatora darbības laiku. Vienkāršāk ir pārsūtīt apstrādi uz speciālajām mašīnām.
Padomājiet par to šādi: jūsu komanda ir dubļos iestrēdzis auto. Jūs, iespējams, varētu to izstumt pats ar pietiekami daudz laika un pūļu, taču tas prasīs stundas un atstās jūs izsmeltu. Tā vietā jūs izsaucat palīdzību uz ceļa, un viņi dažu minūšu laikā izvelk jūsu automašīnu. Negatīvie ir tas, ka jums ir jāveic zvans un jāgaida viņiem, bet tas joprojām ir ātrāks un mazāk apliekams ar nodokļiem.
Galddatoru modeļi, piemēram, Nuance, jaudīgākas aparatūras dēļ mēdz izmantot vietējos resursus. Galu galā, pēc Stīva Džobsa vārdiem, jūsu darbvirsma ir kravas automašīna. (Kas padara to mazliet muļķīgu, ko izmanto OS X serveri tā apstrādei.) Tātad, kad jums ir jāapstrādā valoda un balss, tā jau ir pietiekami aprīkota, lai ar to varētu patstāvīgi rīkoties.
No otras puses, Android ļauj izstrādātājiem savās lietotnēs iekļaut bezsaistes runas atpazīšanu. Google patīk pārspēt tehnoloģijas, un jūs varat derēt, ka citas platformas iegūs šo iespēju, jo to aparatūra kļūst jaudīgāka. Nevienam nepatīk, ja sliktais pārklājums vai sliktā uztveršana viņu ierīci lobotomizē.
Sāciet lietot balss komandas tagad
Tagad, kad jūs zināt pamatjēdzienus, jums vajadzētu spēlēt apkārt ar dažādām ierīcēm. Izmēģiniet jauno balss ierakstīšana pakalpojumā Google dokumenti Kā balss ierakstīšana ir Google dokumentu jaunā labākā īpašībaPēdējos gados ir ievērojami uzlabojusies balss atpazīšana. Šīs nedēļas sākumā Google beidzot ieviesa balss ierakstīšanu pakalpojumā Google dokumenti. Bet vai tas ir kaut kas labs? Noskaidrosim! Lasīt vairāk . Tā kā Web biroja komplekts vēl nebūtu pietiekami jaudīgs, balss vadība ļauj pilnībā diktēt un formatēt dokumentus. Tas izvēršas par jaudīgajām tehnoloģijām, kuras viņi jau ir izstrādājuši pārlūkam Chrome un Android.
Citas idejas ietver jūsu Mac, lai izmantotu balss komandas Kā lietot runas komandas Mac datorā Lasīt vairāk un izveidojot savu Amazon Echo ar automatizētu izrakstīšanos Kā Amazon Echo var padarīt jūsu māju par gudru mājuViedās mājas tehnoloģijas joprojām ir agrīnās dienās, taču jauns produkts no Amazon ar nosaukumu “Echo”, iespējams, palīdzēs to ievest vispārējā tirgū. Lasīt vairāk . Dzīvojiet nākotnē un apņemieties sarunāties ar saviem sīkrīkiem - pat ja jūs tikai pasūtāt vairāk papīra dvieļu. Ja esat viedtālruņu atkarīgais, mums ir arī mācību grāmatas par Siri 8 lietas, kuras jūs, iespējams, neapzinājāties, kā varētu darīt SiriSiri ir kļuvusi par vienu no iPhone raksturīgajām funkcijām, taču daudziem cilvēkiem tā ne vienmēr ir visnoderīgākā. Kaut arī daži no tā ir saistīti ar balss atpazīšanas ierobežojumiem, dīvainība izmantot ... Lasīt vairāk , Cortana 6 stilīgākās lietas, kuras varat kontrolēt ar Cortana operētājsistēmā Windows 10Cortana var palīdzēt jums brīvroku režīmā operētājsistēmā Windows 10. Jūs varat ļaut viņai meklēt jūsu failos un tīmeklī, veikt aprēķinus vai sagatavot laika prognozi. Šeit mēs apskatīsim dažas viņas stilīgākās prasmes. Lasīt vairāk , un Android Labi, Google: 20 noderīgas lietas, ko varat pateikt savā Android tālrunīGoogle palīgs var palīdzēt jums daudz paveikt ar tālruni. Šeit ir vesela virkne pamata, bet noderīgu OK Google komandu, kuras izmēģināt. Lasīt vairāk .
Kāda ir jūsu iecienītākā balss vadības izmantošana? Paziņojiet mums komentāros.
Attēlu kredīti: T-flex caur Shutterstock, Terencehonles izmantojot Wikimedia Foundation, Arizonas štats, Cienpies Design izmantojot Shutterstock
Maikls neizmantoja Mac, kad viņi bija lemti, bet viņš var kodēt Applescript. Viņam ir grādi datorzinātnēs un angļu valodā; viņš kādu laiku raksta par Mac, iOS un videospēlēm; un viņš ir bijis IT mērkaķis dienas laikā vairāk nekā desmit gadus, specializējoties skriptu veidošanā un virtualizācijā.