Zero-shot mācīšanās atrisina vairākas mašīnmācības problēmas, bet kā tā darbojas un kā tā uzlabo AI?
Key Takeaways
- Vispārināšana ir būtiska dziļā mācībā, lai nodrošinātu precīzas prognozes ar jauniem datiem. Zero-shot mācīšanās palīdz to sasniegt, ļaujot AI izmantot esošās zināšanas, lai veiktu precīzas prognozes par jaunām vai neredzētām klasēm bez iezīmētiem datiem.
- Zero-shot mācīšanās atdarina to, kā cilvēki mācās un apstrādā datus. Sniedzot papildu semantisko informāciju, iepriekš apmācīts modelis var precīzi identificēt jaunas klases, tāpat kā cilvēks var iemācīties identificēt doba korpusa ģitāru, izprotot tās īpašības.
- Zero-shot mācīšanās uzlabo AI, uzlabojot vispārināšanu, mērogojamību, samazinot pārmērīgu pielāgošanu un ir rentabla. Tas ļauj apmācīt modeļus lielākām datu kopām, iegūt vairāk zināšanu, izmantojot pārsūtīšanas mācības, labāk izprast kontekstu un samazināt vajadzību pēc plašiem marķētiem datiem. Attīstoties mākslīgajam intelektam, zero-shot mācīšanās kļūs vēl svarīgāka, risinot sarežģītas problēmas dažādās jomās.
Viens no lielākajiem dziļās mācīšanās mērķiem ir apmācīt modeļus, kuri ir ieguvuši vispārinātas zināšanas. Vispārināšana ir būtiska, jo tā nodrošina, ka modelis ir apguvis jēgpilnus modeļus un var veikt precīzas prognozes vai lēmumus, saskaroties ar jauniem vai neredzētiem datiem. Šādu modeļu apmācībai bieži ir nepieciešams ievērojams marķētu datu apjoms. Tomēr šādi dati var būt dārgi, darbietilpīgi un dažreiz neiespējami.
Lai pārvarētu šo plaisu, tiek ieviesta nulles mācīšanās, ļaujot AI izmantot esošās zināšanas, lai veiktu diezgan precīzas prognozes, neskatoties uz marķētu datu trūkumu.
Kas ir Zero-Shot mācīšanās?
Zero-shot mācīšanās ir īpašs pārneses mācīšanās paņēmiens. Tas koncentrējas uz iepriekš apmācīta modeļa izmantošanu, lai identificētu jaunas vai nekad iepriekš neredzētas klases, vienkārši sniedzot papildu informāciju, kas apraksta jaunās klases datus.
Izmantojot modeļa vispārīgās zināšanas par noteiktām tēmām un piešķirot tam papildu semantiku par to, ko meklēt, tam vajadzētu būt iespējai diezgan precīzi noteikt, kurš priekšmets tam ir jāidentificē.
Pieņemsim, ka mums ir jāidentificē zebra. Tomēr mums nav modeļa, kas varētu identificēt šādus dzīvniekus. Tātad, mēs iegūstam jau esošu modeli, kas apmācīts identificēt zirgus un pateikt modelim, ka zirgi ar melnbaltām svītrām ir zebras. Kad mēs sākam izsecināt modeli, sniedzot zebru un zirgu attēlus, pastāv liela iespēja, ka modelis pareizi identificēs katru dzīvnieku.
Tāpat kā daudzas padziļinātas mācīšanās metodes, nulles līmeņa mācīšanās atdarina to, kā cilvēki mācās un apstrādā datus. Ir zināms, ka cilvēki ir dabiski „zero-shot” mācekļi. Ja mūzikas veikalā jums tika uzdots atrast dobu ģitāru, jums var rasties problēmas ar tās meklēšanu. Bet, tiklīdz es jums saku, ka doba korpuss būtībā ir ģitāra ar f formas caurumu vienā vai abās pusēs, jūs, iespējams, to atradīsit nekavējoties.
Reālam piemēram izmantosim nulles klasifikācijas lietotni pēc atvērtā koda LLM mitināšanas vietne Hugging Face izmantojot klip-vit-large modeli.
Šajā fotoattēlā ir attēlota maize pārtikas preču somā, kas piesprādzēta uz augstā krēsla. Tā kā modelis tika apmācīts, izmantojot lielu attēlu datu kopu, modelis, iespējams, var identificēt katru fotoattēlā redzamo vienumu, piemēram, maizi, pārtikas preces, krēslus un drošības jostas.
Tagad mēs vēlamies, lai modelis klasificētu attēlu, izmantojot iepriekš neredzētas klases. Šajā gadījumā jaunās vai neredzētās nodarbības būtu "Atvieglota maize", "Droša maize", "Sēdmaize", "Pārtikas preču braukšana" un "Droša pārtika".
Ņemiet vērā, ka mēs apzināti esam izmantojuši neparastas, neredzētas klases un attēlus, lai parādītu attēla nulles klasifikācijas efektivitāti.
Pēc modeļa secināšanas tas varēja ar aptuveni 80% pārliecību klasificēt, ka vispiemērotākā klasifikācija attēls bija "Droša maize". Tas ir iespējams, jo modelis domā, ka augstais krēsls ir vairāk paredzēts drošībai, nevis sēdēšanai, atpūtai vai braukšana.
Satriecošs! Es personīgi piekristu modeļa iznākumam. Bet kā tieši modelis nāca ar šādu produkciju? Šeit ir vispārīgs priekšstats par to, kā notiek mācīšanās bez problēmām.
Kā darbojas Zero-Shot mācīšanās
Zero-shot mācīšanās var palīdzēt iepriekš apmācītam modelim identificēt jaunas klases, nesniedzot marķētus datus. Vienkāršākajā formā nulles apgūšana tiek veikta trīs posmos:
1. Sagatavošana
Zero-shot mācīšanās sākas ar trīs veidu datu sagatavošanu
- Redzētā klase: Dati, kas izmantoti iepriekš apmācītā modeļa apmācībā. Modelis jau nodrošina redzētas nodarbības. Labākie nulles mācību modeļi ir modeļi, kas apmācīti klasēs, kas ir cieši saistītas ar jauno klasi, kuru vēlaties modelim identificēt.
- Neredzēta/romāna klase: Dati, kas nekad netika izmantoti modeļa apmācības laikā. Šie dati būs jāizveido pašam, jo tos nevar iegūt no modeļa.
- Semantiskie/palīgdati: Papildu datu biti, kas var palīdzēt modelim identificēt jauno klasi. Tas var būt vārdos, frāzēs, vārdu iegulumos vai klašu nosaukumos.
2. Semantiskā kartēšana
Nākamais solis ir iezīmēt neredzamās klases iezīmes. Tas tiek darīts, izveidojot vārdu iegulšanu un semantisko karti, kas saista neredzamās klases atribūtus vai īpašības ar sniegtajiem palīgdatiem. AI pārneses mācības padara procesu daudz ātrāku, jo daudzi ar neredzēto klasi saistītie atribūti jau ir kartēti.
3. Secinājumu izdarīšana
Secinājumu izdarīšana ir modeļa izmantošana prognožu vai izvades ģenerēšanai. Nulles kadru attēlu klasifikācijā vārdu iegulšana tiek ģenerēta dotajā attēla ievadē un pēc tam tiek attēlota un salīdzināta ar papildu datiem. Noteiktības līmenis būs atkarīgs no līdzības starp ievadi un sniegtajiem papildu datiem.
Kā Zero-Shot Learning uzlabo AI
Zero-shot mācīšanās uzlabo AI modeļus, risinot vairākas mašīnmācības problēmas, tostarp:
- Uzlabota vispārināšana: Samazinot atkarību no marķētiem datiem, modeļus var apmācīt lielākās datu kopās, uzlabojot vispārināšanu un padarot modeli izturīgāku un uzticamāku. Modeļiem kļūstot pieredzējušākiem un vispārīgākiem, modeļiem pat var būt iespējams apgūt veselo saprātu nevis parastais informācijas analīzes veids.
- Mērogojamība: Modeļus var pastāvīgi apmācīt un iegūt vairāk zināšanu, izmantojot pārneses mācības. Uzņēmumi un neatkarīgi pētnieki var nepārtraukti uzlabot savus modeļus, lai tie būtu spējīgāki nākotnē.
- Samazināta pārklāšanas iespēja: Pārmērīga pielāgošana var notikt tāpēc, ka modelis tiek apmācīts, izmantojot nelielu datu kopu, kurā nav pietiekami daudz dažādības, lai attēlotu visas iespējamās ievades. Apmācot modeli, izmantojot zero-shot apmācību, tiek samazināta pārmērības iespēja, apmācot modeli labāk kontekstuālai izpratnei par priekšmetiem.
- Rentabls: Liela apjoma marķētu datu nodrošināšana var aizņemt laiku un resursus. Izmantojot nulles pārsūtīšanas mācīšanos, stabila modeļa apmācību var veikt ar daudz mazāk laika un marķētiem datiem.
Attīstoties mākslīgajam intelektam, tādas metodes kā nulles mācīšanās kļūs vēl svarīgākas.
Zero-Shot mācīšanās nākotne
Zero-shot mācīšanās ir kļuvusi par būtisku mašīnmācības sastāvdaļu. Tas ļauj modeļiem atpazīt un klasificēt jaunas klases bez īpašas apmācības. Pastāvīgi pilnveidojoties modeļu arhitektūrā, uz atribūtiem balstītām pieejām un multimodālo integrāciju, ir iespējams apgūt nulles rezultātus. ievērojami palīdz padarīt modeļus daudz pielāgojamākus, risinot sarežģītas problēmas robotikas, veselības aprūpes un datoru jomā redze.