Nvidia GPU ir gājuši garu ceļu ne tikai spēļu veiktspējas ziņā, bet arī citās lietojumprogrammās, īpaši mākslīgajā intelektā un mašīnmācībā. Divi galvenie faktori, kas ir atbildīgi par Nvidia GPU veiktspēju, ir CUDA un Tensor kodoli, kas atrodas gandrīz katrā mūsdienu Nvidia GPU, ko varat iegādāties.

Bet ko tieši šie kodoli dara, un, ja tie abi tiek izmantoti mākslīgā intelekta un mašīnmācīšanās lietojumprogrammās, kā tie atšķiras?

Kas ir CUDA serdeņi un kam tie tiek izmantoti?

CUDA apzīmē Compute Unified Device Architecture, kas neko daudz nesniedz, lai izskaidrotu to klātbūtni GPU. Šie kodoli tika ieviesti Nvidia GPU klāstā 2014. gada Maxwell arhitektūrā un specializējas paralēlajā apstrādē.

Darbības ziņā tie ir diezgan līdzīgi CPU kodoliem, taču ar dažiem labāk tiek galā uzdevumus, tostarp kriptogrāfijas jaucējus, fizikas dzinējus, ar datu zinātni saistītus projektus un pat spēli attīstību.

Attēla kredīts: Nvidia

Kamēr mēs jau esam aptvēruši kā CUDA kodoli ietekmē jūsu datora spēļu veiktspēju

instagram viewer
, tie ir tikpat noderīgi, lai samazinātu skaitļus. Lai gan pat jaudīgākajiem CPU kodoliem ir divciparu skaitļi, Nvidia GPU ir aprīkoti ar vairākiem tūkstošiem CUDA kodolu, kas padara tos daudz ātrākus ar skaitlisko darba slodzi. Turklāt, tā kā viņi šos aprēķinus veic paralēli, jūs iegūstat daudz lielāku ātrumu ar CUDA kodoliem.

CUDA serdeņi ir ātrāki nekā tradicionālie CPU kodoli, ja runa ir par kraukšķīgu skaitu, taču tie joprojām nav ideāls risinājums. Tas ir tāpēc, ka tie nekad nebija paredzēti izmantošanai šādā veidā. CUDA kodoli tika īpaši izstrādāti grafiskai apstrādei un lai Nvidia GPU būtu spējīgāki spēļu veiktspējā.

Kas ir tenzora serdeņi un kam tos izmanto?

Kad GPU sāka izmantot mākslīgā intelekta un mašīnmācīšanās darba slodzēm, Nvidia, sākot ar 2017. gadu, ieviesa Tensor kodolus Volta arhitektūrā saviem datu centru GPU.

Tomēr pagāja līdz Nvidia Turing arhitektūrai (RTX 20-Series GPU), lai šie kodoli nonāktu patērētāju GPU. Atcerieties ka, lai gan GTX 16-Series kartes arī ir balstītas uz Tjūringa arhitektūru, tās neietver nekādu staru izsekošanu vai Tensor serdeņi.

Lai gan CUDA kodoli labākajā gadījumā bija piemēroti skaitļošanas slodzei, Tensor kodoli uzlaboja to, jo tie bija ievērojami ātrāki. Kamēr CUDA kodoli var veikt tikai vienu darbību katrā pulksteņa ciklā, Tensor kodoli var veikt vairākas darbības, nodrošinot tiem neticamu veiktspējas pieaugumu. Būtībā viss, ko Tensor kodoli dara, ir palielināt matricas reizināšanas ātrumu.

Šis skaitļošanas ātruma palielinājums maksā precizitāti, jo CUDA kodoli ir ievērojami precīzāki. Tomēr, runājot par mašīnmācīšanās modeļu apmācību, Tensor kodoli ir daudz efektīvāki skaitļošanas ātruma un kopējo izmaksu ziņā; tāpēc precizitātes zudums bieži tiek atstāts novārtā.

Kā Tensor un CUDA kodoli ietekmē GPU veiktspēju?

Kā jau droši vien varat nojaust, lai gan CUDA un Tensor kodoli spēj apstrādāt vienu un to pašu darba slodzi, tie abi ir attiecīgi specializēti kodoli grafikas renderēšanai un skaitliskām darba slodzēm.

Tas nozīmē, ka atkarībā no lietotāja, kuram konkrētais GPU ir paredzēts, tam būs atšķirīgs kodolu skaits. Piemēram, ja ņemam vērā RTX 4090, Nvidia jaunāko un labāko patērētājiem paredzēto spēļu GPU, jūs iegūsit daudz vairāk CUDA kodolu nekā Tensor kodolu. 16 384 CUDA kodoli līdz 512 Tensor kodoliem, lai būtu konkrēti.

Salīdzinājumam, Nvidia L40 GPU datu centriem, kura pamatā ir tāda pati Ada Lovelace arhitektūra kā RTX 4090, ir 18 176 CUDA kodoli un 568 Tensor kodoli. Tas var nešķist tik liela atšķirība, taču tā var ievērojami ietekmēt šo GPU veiktspēju.

Runājot par teorētisko veiktspēju, L40 ir 90,52 TFlops FP16 un FP32 veiktspējas, kā arī 1414 GFlops FP64 veiktspējas. Tas ir milzīgs veiktspējas uzlabojums salīdzinājumā ar RTX 4090 82,58 TFlops FP16 un FP32 veiktspēju un 1290 GFlops FP64 veiktspēju.

Ja vien labi nepārzināt GPU skaitliskos veiktspējas skaitļus, iepriekš minētie Nvidia GPU peldošā komata veiktspējas rādītāji var jums neko daudz neizteikt. Tomēr īsi sakot, tie parāda, ka L40 ir daudz ātrāks par RTX 4090, kad runa ir par skaitliskiem aprēķiniem — tiem, kas nepieciešami mākslīgajam intelektam un uz mašīnmācībām balstītām darba slodzēm.

Veiktspējas uzlabojums kļūst vēl iespaidīgāks, ja ņem vērā abu GPU enerģijas patēriņu. RTX 4090 ir nominālais TGP (Nejaukt ar TDP, ir neliela atšķirība) 450 W, savukārt L40 ir paredzēta tikai 300 W.

Abi šie GPU darbosies spēles un lieliski apmācīs jūsu mašīnmācības modeli. Tomēr RTX 4090 būs labāks spēļu vadīšanā, bet L40 - mašīnmācīšanās modeļu apmācībā.

CUDA serdeņi vs. Tenzora serdeņi: kas ir svarīgāks?

Abi kodoli ir vienlīdz svarīgi neatkarīgi no tā, vai pērkat savu GPU spēlēm vai ievietojat to datu centra plauktā. Nvidia patērētājiem paredzētie spēļu GPU izmanto virkni AI funkciju (jo īpaši DLSS), un Tensor kodolu izmantošana var noderēt.

Kas attiecas uz datu centru GPU, CUDA un Tensor kodoli lielākoties darbojas tandēmā, tāpēc jūs iegūsit abus neatkarīgi no izvēlētā GPU. Tā vietā, lai koncentrētos uz noteiktu GPU kodola veidu, jums vajadzētu vairāk koncentrēties uz grafiskās kartes darbību kopumā un lietotāja veidu, kuram tā ir paredzēta.

CUDA kodoli specializējas grafisko darba slodžu apstrādē, savukārt Tensor kodoli ir labāki skaitliskajos. Viņi strādā kopā un zināmā mērā ir savstarpēji aizvietojami, taču viņi apstrādā savas specializācijas, tāpēc tās pastāv.

Dažādi GPU specializējas dažādos aspektos. RTX 4090 viegli sagraus jebkuru spēli, ko tajā izspēlēsiet, savukārt RTX 4060 var apstrādāt tikai 1080p spēles. Ja nespēlējat, izmantojot savu GPU, un tas ir nepieciešams tikai skaitļu kraukšķināšanai vai neironu tīklu apmācībai, vislabākais variants ir A sērijas datu centra GPU, piemēram, A100 vai pat L40.

Jūsu GPU kodoliem ir nozīme

Vairāk GPU kodolu nodrošinās labāku vispārējo veiktspēju, jo jūsu GPU būs daudzpusīgāks un tam būs īpaši resursi dažādu uzdevumu veikšanai. Tomēr akli iegūt GPU ar lielāko kodolu skaitu nav labākais lēmums. Veltiet laiku, lai rūpīgi apsvērtu savu lietošanas gadījumu, apskatiet GPU iespējas kopumā un pēc tam izdariet savu izvēli.