ASCII un Unicode abi ir standarti, kas attiecas uz teksta digitālo attēlojumu, īpaši rakstzīmēm, kas veido tekstu. Tomēr abi standarti ir ievērojami atšķirīgi, un daudzas īpašības atspoguļo to attiecīgo izveides kārtību.

Amerika pret Visumu

Amerikas informācijas apmaiņas standarta kods (ASCII), nepārsteidzot, rūpējas par amerikāņu auditoriju, rakstot angļu alfabētā. Tas attiecas uz bezakcentētiem burtiem, piemēram, A-Z un a-z, kā arī nelielu skaitu pieturzīmju un vadības rakstzīmju.

Jo īpaši nav iespējams attēlot aizdevuma vārdus, kas pieņemti no citām valodām, piemēram, kafejnīca ASCII, tos angliskizējot, neaizvietojot akcentētās rakstzīmes (piemēram, kafejnīca). Lokalizēti ASCII paplašinājumi tika izstrādāti, lai apmierinātu dažādu valodu vajadzības, taču šie centieni padarīja savstarpēju savietojamību neērtu un skaidri paplašināja ASCII iespējas.

Turpretī universālā kodēto rakstzīmju kopa (Unicode) atrodas ambīciju skalas pretējā galā. Unicode cenšas apmierināt pēc iespējas vairāk pasaules rakstīšanas sistēmu, ciktāl tas aptver senās valodas un ikviena iecienītāko izteiksmīgo simbolu kopumu - emocijzīmes.

instagram viewer

Rakstzīmju kopa vai rakstzīmju kodējums?

Vienkārši sakot, rakstzīmju kopa ir rakstzīmju (piem., A-Z) atlase, bet rakstzīme kodējums ir kartēšana starp rakstzīmju kopu un vērtību, kuru var attēlot digitāli (piem., A = 1, B = 2).

ASCII standarts faktiski ir gan: tas nosaka rakstzīmju kopu, ko tas pārstāv, un metodi, kā katru rakstzīmi piesaistīt skaitliskai vērtībai.

Turpretī vārdu Unicode lieto vairākos dažādos kontekstos, lai nozīmētu dažādas lietas. Jūs varat domāt par to kā visaptverošu terminu, piemēram, ASCII, lai atsauktos uz rakstzīmju kopu un vairākiem kodējumiem. Bet, tā kā ir vairāki kodējumi, terminu Unicode bieži lieto, lai apzīmētu kopējo rakstzīmju kopu, nevis to, kā tās tiek kartētas.

Izmērs

Savas darbības jomas dēļ Unicode pārstāv daudz vairāk rakstzīmju nekā ASCII. Standarta ASCII izmanto 7 bitu diapazonu, lai kodētu 128 atšķirīgus rakstzīmes. Savukārt Unicode ir tik liels, ka mums ir jāizmanto atšķirīga terminoloģija, lai tikai par to runātu!

Unicode nodrošina 1 111 998 adresējamu koda punkti. Kodu punkts ir aptuveni līdzīgs rakstzīmei rezervētajai vietai, taču situācija ir daudz sarežģītāka nekā tad, kad sākat iedziļināties detaļās!

Noderīgāks salīdzinājums ir tas, cik skriptu (vai rakstīšanas sistēmu) pašlaik atbalsta. Protams, ASCII rīkojas tikai ar angļu alfabētu, būtībā ar latīņu vai romiešu burtiem. Unicode versija, kas ražota 2020. gadā, iet daudz tālāk: tā ietver atbalstu kopumā 154 skriptiem.

Uzglabāšana

ASCII 7 bitu diapazons nozīmē, ka katra rakstzīme tiek saglabāta vienā 8 bitu baitā; rezerves bits nav izmantots standarta ASCII. Tas padara izmēra aprēķinus par niecīgiem: teksta garums rakstzīmēs ir faila lielums baitos.

To var apstiprināt ar šādu bash komandu secību. Pirmkārt, mēs izveidojam failu, kurā ir 12 teksta burti:

$ echo -n 'Sveika, pasaule'> foo

Lai pārbaudītu, vai teksts ir ASCII kodējumā, mēs varam izmantot failu komanda:

$ fails foo
foo: ASCII teksts bez līnijas terminatoriem

Visbeidzot, lai iegūtu precīzu faila aizņemto baitu skaitu, mēs izmantojam stat komanda:

$ stat -f% z foo
12

Tā kā Unicode standarts nodarbojas ar daudz lielāku rakstzīmju diapazonu, Unicode fails, protams, aizņem vairāk vietas. Cik precīzi atkarīgs no kodējuma.

Atkārtojot to pašu komandu kopu no iepriekšējās, izmantojot rakstzīmi, kuru nevar attēlot ASCII, tiek iegūts:

$ echo -n '€'> foo
$ fails foo
foo: UTF-8 Unicode teksts bez līnijas terminatoriem
$ stat -f% z foo
3

Šī viena rakstzīme aizņem 3 baitus Unicode failā. Ņemiet vērā, ka bash automātiski izveidoja UTF-8 failu, jo ASCII fails nevar saglabāt izvēlēto rakstzīmi (€). UTF-8 neapšaubāmi ir visizplatītākais Unicode rakstzīmju kodējums; UTF-16 un UTF-32 ir divi alternatīvi kodējumi, taču tos izmanto daudz mazāk.

UTF-8 ir mainīga platuma kodējums, kas nozīmē, ka tas dažādiem koda punktiem izmanto dažādus krātuves apjomus. Katrs koda punkts aizņems no viena līdz četriem baitiem ar nolūku, ka biežāk sastopamām rakstzīmēm ir nepieciešams mazāks vietas platums, nodrošinot iebūvētu saspiešanas veidu. Trūkums ir tāds, ka noteiktā teksta fragmenta garuma vai izmēra prasību noteikšana kļūst daudz sarežģītāka.

ASCII ir Unicode, bet Unicode nav ASCII

Lai nodrošinātu savietojamību atpakaļ, pirmie 128 Unicode koda punkti pārstāv līdzvērtīgas ASCII rakstzīmes. Tā kā UTF-8 katru no šīm rakstzīmēm kodē ar vienu baitu, jebkurš ASCII teksts ir arī UTF-8 teksts. Unicode ir ASCII virsgrupa.

Tomēr, kā parādīts iepriekš, daudzus Unicode failus nevar izmantot ASCII kontekstā. Jebkurš raksturs, kas ir ārpus robežas, tiks parādīts neparedzētā veidā, bieži vien ar aizstātām rakstzīmēm, kas pilnīgi atšķiras no paredzētajām.

Mūsdienu lietošana

Lielākajā daļā mērķu ASCII lielākoties tiek uzskatīts par mantotu standartu. Pat situācijās, kas atbalsta tikai latīņu rakstību, kur tiek pilnībā atbalstīts Unicode sarežģītība nevajadzīgi, piemēram, parasti ir ērtāk izmantot UTF-8 un izmantot tā ASCII priekšrocības saderība.

Jo īpaši tīmekļa lapas jāsaglabā un jāpārraida, izmantojot UTF-8, kas ir HTML5 noklusējums. Tas ir pretstatā agrākajam tīmeklim, kas pēc noklusējuma tika izskatīts ASCII, pirms to aizstāja latīņu valoda 1.

Standarts, kas mainās

Pēdējā ASCII pārskatīšana notika 1986. gadā.

Turpretī Unicode turpina atjaunināt katru gadu. Regulāri tiek pievienoti jauni skripti, rakstzīmes un it īpaši jaunas emocijzīmes. Tikai piešķirot nelielu daļu no šiem līdzekļiem, iespējams, ka pilnā rakstzīmju kopa tuvākajā nākotnē pieaugs un pieaugs.

Saistīts: 100 populārākās izskaidrotās emocijzīmes

100 populārākās izskaidrotās emocijzīmes

Emocijzīmju ir tik daudz, ka var būt grūti uzzināt, ko tās visas nozīmē. Šeit ir populārākie izskaidrotie emoji.

ASCII pret Unicode

ASCII savu uzdevumu izpildīja daudzus gadu desmitus, taču tagad Unicode to ir efektīvi aizstājis visiem praktiskiem mērķiem, izņemot mantotās sistēmas. Unicode ir lielāks un līdz ar to izteiksmīgāks. Tas nozīmē kopīgus centienus visā pasaulē un piedāvā daudz lielāku elastību, kaut arī uz zināmas sarežģītības rēķina.

E-pasts
Kas ir ASCII teksts un kā to lieto?

ASCII teksts šķiet noslēpumains, taču tas ir daudz lietojams visā internetā.

Saistītās tēmas
  • Tehnoloģija izskaidrota
  • Emocijzīmes
  • Žargons
  • Tīmekļa kultūra
  • Unicode
Par autoru
Bobijs Džeks (Publicēti 23 raksti)

Bobijs ir tehnoloģiju entuziasts, kurš gandrīz divas desmitgades strādāja par programmatūras izstrādātāju. Viņš aizrauj spēles, strādā par atsauksmju redaktoru žurnālā Switch Player un ir iedziļinājies visos tiešsaistes izdevējdarbības un tīmekļa izstrādes aspektos.

Vairāk no Bobija Džeka

Abonējiet mūsu biļetenu

Pievienojieties mūsu informatīvajam izdevumam par tehniskiem padomiem, atsauksmēm, bezmaksas e-grāmatām un ekskluzīviem piedāvājumiem!

Vēl viens solis !!!

Lūdzu, apstipriniet savu e-pasta adresi e-pastā, kuru tikko nosūtījām.

.