Izstrādājiet un salīdziniet pastiprināšanas mācību algoritmus, izmantojot šo rīku komplektu.
Ja nevarat izveidot mašīnmācīšanās modeli no nulles vai jums trūkst infrastruktūras, vienkārši savienojot savu lietotni ar strādājošu modeli, problēma tiek novērsta.
Mākslīgais intelekts ir šeit, lai ikviens varētu izmantot vienā vai otrā veidā. Kas attiecas uz OpenAI Gym, ir daudz izpētāmu treniņu laukumu, lai pabarotu savus pastiprināšanas mācību aģentus.
Kas ir OpenAI Gym, kā tā darbojas un ko jūs varat izveidot, izmantojot to?
Kas ir OpenAI Gym?
OpenAI Gym ir Pythonic API, kas nodrošina simulētu apmācību vidi, lai apmācību aģenti varētu darboties, pamatojoties uz vides novērojumiem; katra darbība tiek nodrošināta ar pozitīvu vai negatīvu atlīdzību, kas uzkrājas katrā laika posmā. Lai gan aģenta mērķis ir maksimāli palielināt atlīdzību, tas tiek sodīts par katru negaidītu lēmumu.
Laika posms ir diskrēta laika atzīme, lai vide pārietu uz citu stāvokli. Tas palielinās, kad aģenta darbības maina vides stāvokli.
Kā darbojas OpenAI Gym?
OpenAI Gym vides ir balstītas uz Markova lēmumu pieņemšanas procesu (MDP), dinamisku lēmumu pieņemšanas modeli, ko izmanto pastiprināšanas mācībās. Tādējādi no tā izriet, ka atlīdzība nāk tikai tad, kad vide maina stāvokli. Un notikumi nākamajā stāvoklī ir atkarīgi tikai no pašreizējā stāvokļa, jo MDP neņem vērā pagātnes notikumus.
Pirms turpināt, iedziļināsimies piemērā, lai ātri izprastu OpenAI Gym pielietojumu pastiprināšanas mācībās.
Pieņemot, ka plānojat apmācīt automašīnu sacīkšu spēlē, OpenAI Gym varat izveidot sacīkšu trasi. Pastiprināšanas mācībās, ja transportlīdzeklis pagriežas pa labi, nevis pa kreisi, tas var saņemt negatīvu atlīdzību -1. Sacīkšu trase mainās katrā laika posmā un turpmākajos stāvokļos var kļūt sarežģītāka.
Negatīvas atlīdzības vai sodi nav slikti aģentam pastiprināšanas mācībās. Dažos gadījumos tas mudina to ātrāk sasniegt savu mērķi. Tādējādi automašīna laika gaitā uzzina par trasi un apgūst tās navigāciju, izmantojot atlīdzības svītras.
Piemēram, mēs ierosinājām FrozenLake-v1 vide, kurā aģents tiek sodīts par iekrišanu ledus bedrēs, bet tiek apbalvots par dāvanu kastes atgūšanu.
Mūsu pirmais brauciens radīja mazāk sodu bez atlīdzības:
Tomēr trešā iterācija radīja sarežģītāku vidi. Bet aģents saņēma dažas balvas:
Iepriekš minētais rezultāts nenozīmē, ka aģents uzlabosies nākamajā iterācijā. Lai gan nākamajā reizē tas var veiksmīgi izvairīties no vairākiem caurumiem, tas var nesaņemt atlīdzību. Taču dažu parametru modificēšana var uzlabot tā mācīšanās ātrumu.
OpenAI sporta zāles komponenti
OpenAI Gym API darbojas ap šādiem komponentiem:
- The vides kur jūs apmācāt aģentu. Varat to sākt, izmantojot sporta zāle.make metodi. OpenAI Gym atbalsta arī vairāku aģentu vides.
- The iesaiņojumi lai mainītu esošo vidi. Lai gan katra pamata vide pēc noklusējuma ir iepriekš iesaiņota, varat to mainīt ar tādiem parametriem kā max_actions, min_actions un max rewards.
- An darbība; definē, ko aģents dara, novērojot izmaiņas savā vidē. Katra darbība vidē ir solis, kas nosaka aģenta reakciju uz novērojumiem. Darbības pabeigšana atgriež novērojumu, atlīdzību, informāciju un saīsinātu vai beigu vērtību.
- The novērojums; definē aģenta pieredzi vidē. Kad ir novērojums, seko darbība ar informāciju. Informācijas parametrs ir izpildes žurnāls, kas ir ērts atkļūdošanai. Kad darbība beidzas, vide tiek atiestatīta n reizes atkarībā no norādīto iterāciju skaita.
Ko jūs varat izdarīt, izmantojot OpenAI Gym?
Tā kā OpenAI Gym ļauj izveidot pielāgotas mācību vides, šeit ir daži veidi, kā to izmantot reālajā dzīvē.
1. Spēles simulācija
Varat izmantot OpenAI Gym spēļu vidi, lai atalgotu vēlamo uzvedību, radītu spēļu atlīdzības un palielinātu sarežģītību katrā spēles līmenī.
2. Attēlu atpazīšana
Ja ir ierobežots datu, resursu un laika apjoms, OpenAI Gym var noderēt attēlu atpazīšanas sistēmas izstrādei. Padziļinātā līmenī varat to mērogot, lai izveidotu sejas atpazīšanas sistēmu, kas atalgo aģentu par pareizu seju identificēšanu.
3. Robotu apmācība
OpenAI Gym piedāvā arī intuitīvus vides modeļus 3D un 2D simulācijām, kur robotos varat ieviest vēlamo uzvedību. Roboskola ir mērogotu robotu simulācijas programmatūras piemērs, kas izveidots, izmantojot OpenAI Gym.
4. Mārketings
Izmantojot OpenAI Gym, varat arī izveidot mārketinga risinājumus, piemēram, reklāmu serverus, akciju tirdzniecības botus, pārdošanas prognozēšanas robotus, produktu ieteikumu sistēmas un daudz ko citu. Piemēram, varat izveidot pielāgotu OpenAI Gym modeli, kas soda reklāmas, pamatojoties uz seansu un klikšķu skaitu.
5. Dabiskās valodas apstrāde
Daži veidi, kā lietot OpenAI Gym dabiskās valodas apstrāde ir jautājumi ar atbilžu variantiem, kas ietver teikuma pabeigšanu vai veidojot surogātpasta klasifikatoru. Piemēram, jūs varat apmācīt aģentu apgūt teikumu variācijas, lai izvairītos no aizspriedumiem dalībnieku atzīmēšanas laikā.
Kā sākt darbu ar OpenAI Gym
OpenAI Gym atbalsta Python 3.7 un jaunākas versijas. Lai iestatītu OpenAI Gym vidi, jums ir jāinstalē ģimnāzija, dakšveida nepārtraukti atbalstītā sporta zāles versija:
pip uzstādīt ģimnāziju
Pēc tam izveidojiet vidi. Tomēr jūs varat izveidot pielāgotu vidi. Bet sāciet, spēlējoties ar esošu, lai apgūtu OpenAI Gym koncepciju.
Zemāk esošais kods pagriež uz augšu FrozenLake-v1. The env.reset metode reģistrē sākotnējo novērojumu:
imports ģimnāzija kā sporta zāle
env = sporta zāle.make("FrozenLake-v1", render_mode="cilvēks")
novērojums, info = env.reset()
Dažām vidēm, lai darbotos, ir nepieciešamas papildu bibliotēkas. Ja jums ir jāinstalē cita bibliotēka, Python to iesaka, izmantojot izņēmuma ziņojumu.
Piemēram, jūs instalēsit papildu bibliotēku (ģimnāzija [rotaļlietu teksts]), lai palaistu FrozenLake-v1 vidi.
Izmantojiet OpenAI Gym jaudu
Viens no neveiksmēm AI un mašīnmācīšanās attīstībā ir infrastruktūras un apmācības datu kopu trūkums. Taču, cenšoties integrēt mašīnmācīšanās modeļus savās lietotnēs vai ierīcēs, tagad viss ir vienkāršāk, jo gatavi AI modeļi lido pa internetu. Lai gan daži no šiem rīkiem ir lēti, citi, tostarp OpenAI Gym, ir bezmaksas un atvērtā koda.