Mitkä ovat merkkikoodeja kuten ANSI ja Unicode, ja miten ne eroavat?

2024 Kirjoittaja: Geoffrey Carr | [email protected]. Viimeksi muokattu: 2023-12-17 10:56

ASCII, UTF-8, ISO-8859 … Olet ehkä nähnyt nämä kummalliset monikers floating around, mutta mitä he todella tarkoittavat? Lue, kun selitämme, mikä merkistökoodi on ja miten nämä lyhenteet liittyvät näytön tekstiin.

Perusrakenteet

Kun puhumme kirjoitetusta kielestä, puhumme kirjeistä, jotka ovat sanojen rakennusosaa, jotka sitten rakentavat lauseita, kappaleita ja niin edelleen. Kirjeet ovat symboleja, jotka edustavat ääntä. Kun puhut kielestä, puhutaan äänien ryhmistä, jotka tulevat yhteen muodostamaan jonkinlaisen merkityksen. Jokaisella kielijärjestelmällä on monimutkaiset säännöt ja määritelmät, jotka ohjaavat näitä merkityksiä. Jos sinulla on sana, se on hyödytön, ellet tiedä, mistä kielestä se on ja käytät sitä muiden kanssa, jotka puhuvat kyseistä kieltä.

(Grantha, Tulu ja Malayalam-skriptien vertailu, Kuva Wikipediasta)

Tietokoneiden maailmassa käytämme termiä "merkki". Hahmo on eräänlainen abstrakti käsite, joka määritellään tietyillä parametreilla, mutta se on merkityksen perustavanlaatuinen yksikkö. Latinalainen "A" ei ole sama kuin kreikankielinen "alfa" tai arabiankielinen "alif", koska sillä on eri kontekstit - he ovat eri kielistä ja niillä on hieman erilaiset lausunnot - joten voimme sanoa, että he ovat eri merkkejä. Hahmon visuaalista esitystä kutsutaan "glyphiksi" ja eri kuvakkeita kutsutaan fontteiksi. Merkkijoukot kuuluvat "sarjaan" tai "ohjelmistoon".

Kun kirjoitat kappaleen ja muutat fonttia, et muuta kirjainten foneettisia arvoja, muutat niiden näkyvyyttä. Se on vain kosmeettinen (mutta ei merkityksetön). Jotkut kielet, kuten muinaisen Egyptin ja Kiinan, on ideogrammit; ne edustavat kokonaisia ideoita äänien sijaan ja niiden lausunnot voivat vaihdella ajan ja etäisyyden mukaan. Jos vaihdat yhden merkin toiselle, korvaat idean. Se on muuta kuin kirjainten vaihtamista, se muuttaa ideogrammaa.

Merkkikoodaus

Kun kirjoitat jotain näppäimistöön tai lataat tiedoston, miten tietokone tietää mitä näyttää? Se merkitsee merkkikoodausta. Teksti tietokoneellasi ei todellakaan ole kirjaimia, se on sarja parittuja aakkosnumeerisia arvoja. Merkkikoodaus toimii avaimena, jonka arvot vastaavat merkkejä, aivan kuten miten ortografia määrää, mitkä äänet vastaavat mitä kirjaimia. Morse-koodi on eräänlainen merkkikoodaus. Se selittää, kuinka pitkät ja lyhyet yksiköt kuten äänimerkit edustavat merkkejä. Morse-koodissa merkit ovat vain englantilaisia kirjaimia, numeroita ja täydellisiä pysähdyksiä. On olemassa monia tietokoneen merkistökoodeja, jotka kääntävät kirjaimiin, numeroihin, aksenttimerkkeihin, välimerkkiin, kansainvälisiin symboleihin ja niin edelleen.

Usein tästä aiheesta käytetään myös termiä "koodisivut". Ne ovat olennaisesti merkkikoodauksia, joita tietyt yritykset käyttävät, usein pienillä muutoksilla. Esimerkiksi Windows 1252 -koodisivu (aiemmin nimeltään ANSI 1252) on ISO-8859-1: n muutettu muoto. Niitä käytetään lähinnä sisäisenä järjestelmänä viittaamaan vakiomuotoisiin ja modifioituihin merkistökoodeihin, jotka ovat ominaisia samoille järjestelmille. Varhainen merkkikoodaus ei ollut niin tärkeä, koska tietokoneet eivät olleet yhteydessä toisiinsa. Kun verkko nousee esiin ja verkostoituminen on yleinen tapahtuma, se on tullut yhä tärkeämmäksi päivittäisestä elämästämme ilman että me edes ymmärtäisimme sitä.

Monet erilaiset tyypit

Siellä on paljon erilaisia merkistökoodeja, ja siihen on paljon syitä. Mikä merkkikoodaus, jonka haluat käyttää, riippuu siitä, mitä tarvitset. Jos kommunikoidaan venäjäksi, on järkevää käyttää merkkikoodausta, joka tukee kyrillistä hyvin. Jos kommunikointi koreassa, niin haluat jotain, joka edustaa Hangulia ja Hanjaa hyvin. Jos olet matemaatikko, niin haluat jotain, jolla on kaikki tieteelliset ja matemaattiset symbolit hyvin edustettuina, samoin kuin kreikan ja latinankieliset kuvakkeet. Jos olet kilpikonna, saatat hyötyä ylösalaisin teksteistä. Ja jos haluat, että kaikki tietyntyyppiset asiakirjat katsotaan jonkun tietyn henkilön käyttöön, haluat koodauksen, joka on melko yleinen ja helposti saatavilla.

Katsotaanpa joitain yleisempää.

(Ote ASCII-taulukosta, Image from asciitable.com)

ASCII - Yhdysvaltojen vakiokoodi tietoliikenteelle on yksi vanhimmista merkistökoodeista. Se laadittiin alunperin telegraafisten koodien perusteella ja kehittyi ajan mittaan siten, että siihen sisältyisi enemmän symboleja ja joitain vanhentuneita, ei-painettuja kontrolleja. Se on luultavasti yhtä perusta kuin nykyaikaisissa järjestelmissä, sillä se on rajoitettu latinalaiseen aakkostoon ilman aksenttimerkkejä. Sen 7-bittinen koodaus mahdollistaa vain 128 merkkiä, joten useilla epävirallisilla muunnoksilla on käytössä ympäri maailmaa.
ISO-8859 - Kansainvälisen standardisoimisjärjestön yleisimmin käytetty merkkijonoyksikköryhmä on luku 8859. Jokainen spesifinen koodaus on osoitettu numerolla, jota usein korostetaan kuvaavalla monikolla, esim. ISO-8859-3 (lat. 3), ISO-8859-6 (latina / arabia).Se on superset ASCII, eli ensimmäiset 128 arvot koodauksen ovat samat kuin ASCII. Se on kuitenkin 8-bittinen ja sallii 256 merkkiä, joten se rakentuu sieltä ja sisältää paljon laajemman merkkisarjan. Jokainen erityinen koodaus keskittyy erilaisiin kriteereihin. Latin-1 sisälsi joukon aksentteja kirjaimia ja symboleja, mutta se korvattiin myöhemmin tarkistetulla asetuksella Latin-9, joka sisältää päivitetyt kuvakkeet kuten euro-symboli.

(Excerpt of Tibetan script, Unicode v4, osoitteesta unicode.org)

Unicode - Tämä koodausstandardi pyrkii universaalisuuteen. Se sisältää tällä hetkellä 93 skriptejä, jotka on järjestetty useaan kertaan, ja paljon töitä. Unicode toimii eri tavoin kuin muut merkkijoukot siinä, että sen sijaan, että koodaat suoraan glyfia, jokainen arvo ohjataan edelleen "koodipisteeseen". Nämä ovat heksadesimaalisia arvoja, jotka vastaavat merkkejä, mutta ne on määritetty erikseen, kuten selaimesi. Nämä koodipisteet kuvataan yleisesti seuraavasti: U + 0040 (joka tarkoittaa "@"). Erityiset koodaukset Unicode-standardin mukaan ovat UTF-8 ja UTF-16. UTF-8 yrittää sallia mahdollisimman yhteensopivuuden ASCII: n kanssa. Se on 8-bittinen, mutta sallii kaikkien merkkien korvaavalla mekanismilla ja useita arvopareja merkkiä kohden. UTF-16 oja täydellinen ASCII-yhteensopivuus täydellisemmän 16-bittisen yhteensopivuuden kanssa standardin kanssa.
ISO-10646 - Tämä ei ole todellinen koodaus, vain Unicoden merkkijono, jota ISO on standardoinut. Se on ennen kaikkea tärkeää, koska se on HTML: n käyttämä merkkiohjelmisto. Jotkin Unicoden tarjoamista edistyksellisimmistä toiminnoista, jotka mahdollistavat yhdistämisen ja oikealta vasemmalle vasemman oikean komentotiedoston ohella, puuttuvat. Silti se toimii hyvin internetin käyttöön, koska se mahdollistaa monien skriptien käytön ja mahdollistaa selaimen tulkinnan glyfien avulla. Tämä tekee paikannuksesta jonkin verran helpompaa.

Mitä koodausta pitäisi käyttää?

No, ASCII toimii useimpien englantilaisten puhujien kanssa, mutta ei paljon muuta. Useammin näet ISO-8859-1, joka toimii useimmille länsieurooppalaisille kielille. Muut ISO-8859 -versiot toimivat kyrillisille, arabialaisille, kreikkalaisille tai muille skripteille. Jos kuitenkin haluat näyttää useita skriptejä samassa asiakirjassa tai samassa verkkosivustossa, UTF-8 mahdollistaa paremman yhteensopivuuden. Se toimii myös hyvin ihmisille, jotka käyttävät oikeita välimerkkejä, matemaattisia symboleja tai mansettimerkkejä, kuten neliöitä ja valintaruudut.

(Useita kieliä yhdessä asiakirjassa, kuvakaappaus gujaratsamachar.com)

Kuitenkin kummallekin joukolle on haittoja. ASCII on rajattu välimerkillään, joten se ei toimi uskomattoman hyvin typografisesti oikeilla muokkauksilla. Oletko koskaan kirjoittanut kopioi / liitä Wordista vain, jos sinulla on jonkin verran kopiota? Tämä on ISO-8859: n epäonnistuminen, tai oikeammin sen oletettu yhteentoimivuus OS-spesifisiin koodisivuihin (me katsomme Sinua, Microsoft!). UTF-8: n suurin haittapuoli on puutteellinen tuki sovellusten muokkaamisessa ja julkaisemisessa. Toinen ongelma on se, että selaimet eivät useinkaan tulkitse ja vain näytä UTF-8-koodatun merkin tavutunnistemerkkiä. Tämä johtaa ei-toivottujen glyfien näyttämiseen. Ja tietenkin, että yksi koodaus ja merkkien käyttäminen toisilta julistamatta / viittaamalla ne oikein verkkosivulla vaikeuttaa selainten tekemistä oikein ja hakukoneet voivat indeksoida ne asianmukaisesti.

Oman asiakirjan, käsikirjoituksen ja niin edelleen, voit käyttää mitä tahansa tarvitset työn tekemiseen. Siltä osin kuin verkko menee, näyttää siltä, että useimmat ihmiset suostuvat käyttämään UTF-8-versiota, joka ei käytä tavutilausmerkkiä, mutta se ei ole täysin yksimielinen. Kuten näet, jokaisella merkkikoodauksella on oma käyttö, konteksti ja vahvuudet ja heikkoudet. Loppukäyttäjänä et luultavasti tarvitse käsitellä tätä, mutta nyt voit ottaa ylimääräisen askeleen eteenpäin, jos niin valitset.