Paulturner-Mitchell.com / számítógépek / Unicode kódolás: karakterkódoló szabvány

Unicode kódolás: Karakterkódoló szabvány

Minden internetes felhasználó próbálkoziklegalább egyszer beállítania kell annak egyikét, ha látta a kijelzőn latin betűkkel írt „Unicode” szót. Mi ez, ezt a cikket elolvashatja.

meghatározás

Unicode kódolás - kódoló szabványkarakterek. Az Unicode Inc. nonprofit szervezet javasolta. 1991-ben. A szabvány célja, hogy annyi különféle karaktert egyesítsen egy dokumentumban. Az azon alapuló oldal tartalmazhat különböző nyelvek betűit és karaktereit (orosztól koreaiig) és matematikai jeleket. Ebben az esetben a kódolásban szereplő összes karakter probléma nélkül megjelenik.

A létrehozás okai

Egyszer, jóval az egységes rendszer megjelenése előttUnicode, a kódolás a dokumentum szerzőjének preferenciái alapján került kiválasztásra. Ezért gyakran különféle táblázatokat kell használni egy dokumentum elolvasásához. Időnként többször is meg kellett csinálni, ami nagyban megnehezítette a hétköznapi felhasználó életét. Mint már említettük, ennek a problémának az 1991-es megoldását az Unicode Inc. nonprofit szervezet javasolta, amely új típusú karakterkódolást javasolt. Felhívták arra, hogy egyesítse az elavult és a különféle szabványokat. A Unicode egy olyan kódolás, amely lehetővé tette az akkoriban elképzelhetetlen megvalósítását: hozzon létre egy olyan eszközt, amely hatalmas számú karaktert támogat. Az eredmény meghaladta a sok várakozást - megjelentek olyan dokumentumok, amelyek egyidejűleg tartalmaznak mind angol, mind orosz szöveget, latin és matematikai kifejezéseket.

De az egyetlen kódolás létrehozását megelőzteszámos olyan probléma megoldásának szükségessége, amely felmerült az akkoriban már létező óriási szabványok miatt. Leggyakoribb ezek közül:

elven levelek vagy "krakozyabry";
karakterkészlet korlátozásai;
kódolási konverziós probléma;
betűkészletek másolása.

Egy kis történelmi kirándulás

Képzelje el, hogy a 80-as években lenne.A számítástechnika még nem olyan általános, és megjelenése más, mint a mai nap. Abban az időben minden operációs rendszer a maga módján egyedülálló volt, és minden rajongó véglegesítette sajátos igényeinek kielégítésére. Az információcsere szükségessége a világ minden további finomításává válik. Egy másik operációs rendszer alatt létrehozott dokumentum olvasásának megkísérlése gyakran érthetetlen karakterkészletet jelenít meg, és kezdődik a kódolással ellátott játékok. Ezt nem mindig lehet gyorsan megtenni, és a szükséges dokumentum néha hat hónap elteltével, vagy akár később is megnyitható. Azok az emberek, akik gyakran információcserét folytatnak, konverziós táblázatokat készítenek maguk számára. És itt a velük végzett munka érdekes részletet derít fel: két irányba kell elkészítenie őket: „az enyémtől a tiédig”, és fordítva. A gép nem tudja elvégezni a számítások banális fordítását, ehhez a forrás a jobb oszlopban található, az eredmény a bal oszlopban található, de nem fordítva. Ha valamilyen speciális karaktert kellett használni a dokumentumban, először hozzá kellett adni őket, majd elmagyarázni a partnernek, mit kell tennie, hogy ezek a karakterek ne váljanak "görbe haj" -ká. És ne felejtsük el, hogy minden kódoláshoz saját betűkészleteket kellett kifejlesztenünk vagy megvalósítanunk, ami hatalmas számú felvétel létrehozásához vezetett az operációs rendszerben.

Képzelje el ezt a betűtípus-oldalon10 darab azonos Times New Roman-t fog látni, kis jelölésekkel: utf-8, UTF-16, ANSI, UCS-2. Megértette most, hogy az egyetemes szabvány kidolgozása sürgető szükség volt?

"Teremtő Apák"

Az Unicode eredetét 1987-ben kell keresniabban az évben, amikor a Xerox Joe Becker, Lee Collins és az Apple Mark Davis együtt kutatásokat kezdett az univerzális karakterkészlet gyakorlati létrehozásáról. Joe Becker 1988 augusztusában közzétette egy 16 bites nemzetközi többnyelvű kódolási rendszer javaslattervezetét.

Néhány hónap múlva a Unicode munkacsoportkiterjesztették Ken Whistlerre és Mike Kerneganre, az RLG-ről, a Sun Microsystems Glenn Wright-ról és számos más szakemberről, amelyek lehetővé tették, hogy befejezzük az egységes kódolási szabvány előzetes kialakításának munkáját.

Általános leírás

A Unicode a szimbólum fogalmán alapul.Ez a meghatározás egy elvont jelenségre utal, amely az írás meghatározott formájában létezik, és grafikonokon keresztül valósul meg („portrék”). Minden karaktert a Unicode-ban egy egyedi kód határoz meg, amely a szabvány adott blokkjához tartozik. Például a B gráf angol és orosz ábécében is szerepel, de a Unicode 2-ben a különféle karakterek felelnek meg. A kisbetűs átalakítást alkalmazzák rájuk, vagyis mindegyiket egy adatbázis kulcs, tulajdonságok halmaza és egy teljes név írja le.

Unicode előnyei

Más kortársaktól a Unicode kódoláshatalmas karakterkészlettel különbözik a karakterek "titkosításáról". A tény az, hogy elődeinek 8 bitje volt, azaz 28 karaktert támogattak, de az új fejlesztés már 216 karaktert tartalmazott, ami óriási lépés előre. Ez lehetővé tette szinte az összes létező és általános ábécé kódolását.

Az Unicode megjelenésével szükség van rákonverziós táblázatok használata: egyetlen szabványként egyszerűen tagadta igényeiket. Ugyanígy a „bűnözők” is feledésbe merültek - egyetlen szabvány tette lehetetlenné, és elkerüli a duplikált betűkészletek létrehozásának szükségességét.

Unicode fejlesztés

A haladás természetesen nem áll mozdulatlanul, és a pillanattól kezdveAz első bemutató 25 év telt el. A Unicode kódolás azonban makacsul megtartja pozícióját a világon. Ez sok szempontból lehetségessé vált annak köszönhetően, hogy könnyen megvalósíthatóvá vált és disztribúcióvá vált, amelyet a szabadalmaztatott (fizetett) és a nyílt forráskódú szoftverek fejlesztői elismernek.

Unicode kódolás (karakterkódoló szabvány)

Ugyanakkor nem szabad azt feltételezni, hogy maugyanaz a Unicode kódolás érhető el, mint egy negyed évszázaddal ezelőtt. Jelenleg annak verziója 5.x.x-re változott, és a kódolt karakterek száma 231-re nőtt. Nem voltak hajlandóak nagyobb karaktert használni, hogy továbbra is támogassák az Unicode-16-t (kódolások, ahol maximális számuk 216-ra korlátozódott). A 2.0.0-as verzió kezdete óta az Unicode Standard majdnem kétszer növelte a benne szereplő karakterek számát. A lehetőségek növekedése a következő években folytatódott. A 4.0.0 verzióra már szükség volt maga a szabvány növelésére, ami megtörtént. Ennek eredményeként az Unicode megszerezte azt a formát, amelyben ma ismerjük.

Mi van még az Unicode-ban?

Помимо огромного, постоянно пополняющегося karakterek száma, a szöveges információk Unicode-kódolása további hasznos funkcióval rendelkezik. Az úgynevezett normalizálásról beszélünk. Ahelyett, hogy a teljes dokumentumkaraktert karakterrel görgetné, és a megfelelő ikonokat helyettesíti a megfelelési táblázatból, a meglévő normalizálási algoritmusok egyikét használja. Miről beszélsz?

Az erőforrás-pazarlás helyettAz ugyanazon karakter rendszeres ellenőrzésére szolgáló gépek, amelyek hasonlóak lehetnek különböző ábécékben, speciális algoritmust használnak. Ez lehetővé teszi, hogy hasonló karaktereket készítsen a keresési táblázat külön oszlopában, és hivatkozzon rájuk, és ne csak ellenőrizze az összes adatot újra és újra.

Négy ilyen algoritmust fejlesztettek ki és hajtottak végre.Mindegyikben az átalakítás szigorúan meghatározott elv alapján történik, amely eltér a többitől, így egyiküket sem lehet a leghatékonyabbnak nevezni. Mindegyiket speciális igényekhez fejlesztették, megvalósították és sikeresen használják.

A standard eloszlása

Története 25 éve alatt az Unicode kódoláskapott, valószínűleg a legelterjedtebb a világon. A programokat és a weboldalakat is ennek a szabványnak megfelelően alakítják ki. Az a tény, hogy az Unicode-ot ma az internetes erőforrások több mint 60% -a használja, jelezheti az alkalmazás szélességét.

Most már tudja, mikor jött létre az Unicode szabvány. Mi ez, azt is tudja, és értékelni fogja a találmány teljes jelentőségét, amelyet az Unicode Inc. szakembercsoportja készített. több mint 25 évvel ezelőtt.

tetszett: