AMD Instinct GPU sērija kļūst populāra skaitļošanas un AI kopienā. Lūk, kāpēc.

Nav šaubu, ka NVIDIA turpina dominēt paralēlās skaitļošanas telpā ar dažādām populārajām GPU sērijām. Bet ar AMD Instinct AI paātrinātājiem, kas aprīko divus no jaunākajiem un lielākajiem superdatoriem (Frontier un El Capitan) un kopienas pieaugošais atbalsts viņu atvērtā pirmkoda ROCm platformai, NVIDIA, iespējams, ir atradusi savu lielāko konkurentu.

Tātad, kas īsti ir AMD Instinct AI paātrinātāji? Kas padara tos jaudīgus, un kā tie ir salīdzināmi ar NVIDIA Tensor GPU?

Kas ir AMD Instinct procesors?

AMD Instinct procesori ir uzņēmuma līmeņa aparatūra, ko izmanto augstas veiktspējas skaitļošanai (HPC) un AI paātrinātai apstrādei. Atšķirībā no parastajiem, patērētājiem paredzētajiem GPU, Instinct GPU ir specializēti, lai labāk apstrādātu AI mācīšanos un citus augstas veiktspējas uzdevumus, izmantojot programmatūras un aparatūras jauninājumus.

AMD Instinct GPU sērija tika izmantota, lai darbinātu pirmo superdatoru, lai pārvarētu Exascale barjeru, veicot 1,1 EFLOP ar dubultas precizitātes operācijām sekundē. Superdatori, kas izmanto Instinct GPU, pašlaik tiek izmantoti vēža ārstēšanas, ilgtspējīgas enerģijas un klimata pārmaiņu pētīšanai.

Kā instinktu procesori paātrina AI un HPC

Priekš pasaulē jaudīgākie galvenie serveri un superdatori lai sasniegtu Exascale līmeņa apstrādi, AMD Instinct paātrinātājiem bija jābūt aprīkotiem ar vairākiem tehnoloģiskiem jauninājumiem un jauninājumiem.

Apspriedīsim dažas no jaunajām un atjauninātajām tehnoloģijām, ko izmanto AMD Instinct GPU.

1. Aprēķināt DNS (CDNA)

Attēla autors: Pascal Liebart/AMDLibrary

Jaunākie AMD Instinct paātrinātāji (sākot no MI100) ir izmantojuši uzņēmuma CDNA arhitektūru.

CDNA galvenokārt koncentrējas uz tādām funkcijām kā paralēlā apstrāde, atmiņas hierarhija un optimizēta skaitļošanas veiktspēja, izmantojot savu Matrix Core tehnoloģiju. Pat HPC un AI vai mašīnmācīšanos, kas darbojas uz viena servera, var atbalstīt CDNA, kā arī milzīgi Exascale datori.

AMD Matrix Core tehnoloģija paātrina AI mācīšanos, atbalstot jauktas precizitātes darbības. Spēja veikt aprēķinus ar dažādu precizitāti ļauj Instinct GPU efektīvi aprēķināt matricas darbības, pamatojoties uz nepieciešamo precizitātes līmeni.

Populārākie skaitļošanas precizitātes formāti ir FP64, FP32, FP16, BF16 un INT8. FP apzīmē peldošā komata, BF nozīmē Brain floating point un INT nozīmē vesels skaitlis. Jo lielāks ir formātam atbilstošais skaitlis, jo precīzāks ir aprēķins. Darbība 64 bitu režīmā ir pazīstama kā dubultā precizitāte. Ar 32 bitu tas ir vienas precizitātes, 16 bitu tas ir puse precizitātes un tā tālāk.

Tā kā lielai daļai dziļās mācīšanās modeļu apmācības nav nepieciešama liela precizitāte, ir iespēja aprēķināt matricu darbības ar pusi vai pat ceturtdaļas precizitāti secinājumu izdarīšanai ievērojami samazina darba slodzi, tādējādi paātrinot AI mācīšanās.

2. Augsta joslas platuma atmiņa (HBM)

Attēla autors: Džeisons De Voss/AMDLibrary

Katrs AMD Instinct AI paātrinātājs ir aprīkots ar līdz pat 880 matricas kodoliem. Ar AMD Matrix Core procesoriem, kas spēj veikt 383 TFLOP pusprecizitātes aprēķinus, ir nepieciešama īpaši ātra atmiņa. AMD jaunākie Instinct piedāvājumi ir aprīkoti ar High Bandwidth Memory (HBM), nevis parasto DDR4 vai DDR5 RAM.

Atšķirībā no parastās atmiņas, HBM izmanto tā saukto 3D stacked arhitektūru. Šāda veida arhitektūra attiecas uz dizaina pieeju, kurā DRAM matricas ir vertikāli sakrautas viena virs otras. Tas ļauj salikt presformas gan uz vertikālās, gan horizontālās ass, tādēļ termins 3D kraušana.

Izmantojot šo 3D sakraušanas tehnoloģiju, HBM fiziskās atmiņas ietilpība var sasniegt pat dažus simtus gigabaitu uz vienu moduli, savukārt DRR5 var veikt tikai līdz desmitiem gigabaitu vienā modulī. Papildus jaudai, ir zināms, ka HBM ir arī lielāka veiktspēja pārsūtīšanas ātruma un labākas jaudas efektivitātes ziņā nekā parastajai DDR atmiņai.

3. Infinity audums

Vēl viens Instinct GPU iekļautais jauninājums ir AMD Infinity Fabric tehnoloģija. Infinity Fabric ir savstarpējo savienojumu sistēmas veids, kas viedā dinamiskā veidā savieno CPU un GPU. Tas ļauj komponentiem efektīvi sazināties vienam ar otru.

Izmantojot Infinity Fabric, tā vietā, lai savienotu komponentus ar parasto kopni, tagad komponenti tiek savienoti tīklā līdzīgā tīklā, kur joslas platums var sasniegt vairākus simtus gigabaitu sekundē.

Papildus tīklam līdzīgajam savienojumam, Infinity Fabric izmanto arī sensorus, kas ir iegulti katrā veidnē, lai dinamiski kontroles frekvence, datu pārraides ātrums un citas adaptīvas darbības, optimizējot veiktspēju un minimizējot latentums.

4. ROCm attīstības platforma

NVIDIA CUDA (skaitļošanas vienotā ierīču arhitektūra) ir visplašāk izmantotā izstrādes platforma AI modeļu apmācībai. CUDA problēma ir tā, ka tā darbojas tikai ar NVIDIA GPU. Tas ir viens no galvenajiem iemesliem, kāpēc NVIDIA pieder lielākā daļa HPC un AI GPU paātrinātāju tirgus daļu.

Tā kā AMD vēlējās iegūt lielāku daļu no HPC un AI tirgus, viņiem bija jāizstrādā sava platforma ROCm (Radeon Open Compute). ROCm ir atvērtā pirmkoda programmatūras platforma, kas ļauj Instinct GPU izmantot kā AI paātrinātājus.

Lai gan ROCm ne vienmēr ir daļa no Instinct aparatūras, tas ir būtisks, runājot par Instinct GPU līnijas izdzīvošanu. Ar ROCm, izstrādātājiem un pētnieki iegūst ROCm rīkus, kompilatoru, kodola draiverus, virkni bibliotēku un piekļuvi tādiem ietvariem kā TensorFlow un PyTorch, lai tos izstrādātu. vēlams AI programmēšanas valoda.

Kā Instinct AI paātrinātājus salīdzina ar Radeon GPU AI paātrinātājiem?

AMD piedāvā savu Instinct GPU klāstu uzņēmumiem un Radeon GPU parastajiem patērētājiem. Kā minēts iepriekš, Instinct GPU izmanto AMD CDNA arhitektūru, HBM un Infinity Fabric starpsavienojumu. Savukārt Radeon izmanto AMD RDNA arhitektūru, DDR6 atmiņu un Infinity Cache.

Lai gan Radeon AI paātrinātāju sērija ir mazāk spējīga, tā joprojām ir lieliska, ieviešot vienu vai divus AI paātrinātāju kodolus katrā skaitļošanas vienībā. Pēdējais Radeon RX7900 XT GPU vienā skaitļošanas vienībā ir divi AI paātrinātāja kodoli, kas ļauj veikt 103 TFLOP maksimālās pusprecizitātes un 52 TFLOP maksimālās vienas precizitātes aprēķinus.

Lai gan Instinct sērijas GPU ir labāk piemēroti LLM un HPC, Radeon AI paātrinātājus var izmantot iepriekš apmācītu modeļu precizēšanai, secinājumu izdarīšanai un grafiski intensīviem uzdevumiem.

AMD Instinct vs. NVIDIA Tensor

Saskaņā ar a TrendForce aptauja, NVIDA pieder 80% tirgus daļa serveru GPU, bet AMD ir tikai 20%. Šie NVIDIA lielie panākumi ir saistīti ar to, ka tas ir uzņēmums, kas specializējas GPU projektēšanā un montāžā. Tas ļauj viņiem izstrādāt ievērojami labākus GPU, kam nav līdzīgu citu piedāvājumu.

Salīdzināsim AMD Instinct MI205X un NVIDIA H100SXM5, izmantojot specifikācijas no AMD oficiālā vietne un NVIDIA paša datu lapa:

GPU modelis

FP64 (TFLOP)

FP32 (TFLOP)

FP16 (TFLOP)

INT8 (TFLOPS)

AMD Instinct MI250X

30.0

60.0

1000

2000

NVIDIA H100SXMS

47.9

95.7

383.2

383

Kā redzams tabulā, AMD MI250X darbojas labāk dubultās un pusprecizitātes ziņā. aprēķini, savukārt NVIDIA H100SXMS ir daudz labāks pusprecizitātes un ceturtdaļas precizitātes matricas ziņā. aprēķinus. Tas padara AMD MI250X labāk piemērotu HPC, savukārt NVIDIA H100SXMS ar AI mācīšanos un secināšanu.

AMD instinktu procesoru nākotne

Lai gan AMD jaunākais piedāvājums MI250X ir paredzēts HPC, viņu gaidāmais MI300 ir vairāk orientēts uz AI apmācību. Tiek paziņots, ka šis AI paātrinātājs ir APU, kas apvieno GPU un CPU vienā paketē. Tas ļauj MI300 izmantot savu CNDA3 vienotās atmiņas APU arhitektūru, kur GPU un centrālais procesors izmantos tikai vienu atmiņu, palielinot efektivitāti un samazinot cenu.

Lai gan AMD šodien nekonkurēs ar NVIDIA AI paātrinātāju tirgū, tiklīdz MI300 tiks izlaists un ROCm kļūs Ja ir noslīpēts, AMD Instinct sērija varētu būt pietiekami laba, lai sagrābtu ievērojamu daļu AI paātrinātāju tirgus. NVIDIA.