Paulturner-Mitchell.com / computers / Unicode-codering: standaard voor tekencodering

Unicode-codering: standaard voor tekencodering

Elke internetgebruiker probeert hetom een of meer van zijn functies minstens één keer in te stellen als hij het woord "Unicode" in Latijnse letters op het display zag staan. Wat is het, leer je door dit artikel te lezen.

definitie

Unicode-codering - coderingsstandaardkarakters. Het is voorgesteld door de non-profitorganisatie Unicode Inc. in 1991. De standaard is ontworpen om zoveel mogelijk verschillende soorten karakters in één document te combineren. Een daarop gebaseerde pagina kan letters en tekens uit verschillende talen (van Russisch tot Koreaans) en wiskundige tekens bevatten. In dit geval worden alle tekens in deze codering zonder problemen weergegeven.

Redenen om te creëren

Er was eens, lang voor de opkomst van een enkel systeem"Unicode", de codering is gekozen op basis van de voorkeuren van de auteur van het document. Om deze reden is het vaak nodig om verschillende tabellen te gebruiken om één document te lezen. Soms moest dit meerdere keren worden gedaan, wat het leven van een gewone gebruiker aanzienlijk bemoeilijkte. Zoals reeds vermeld, werd in 1991 een oplossing voor dit probleem voorgesteld door de non-profitorganisatie Unicode Inc., die een nieuw type tekencodering voorstelde. Het was bedoeld om verouderde en diverse normen te combineren. "Unicode" is een codering die het mogelijk maakte om het destijds ondenkbare te bereiken: een tool maken die een enorm aantal karakters ondersteunt. Het resultaat overtrof vele verwachtingen: er verschenen documenten die zowel Engelse als Russische tekst, Latijnse en wiskundige uitdrukkingen bevatten.

Maar de creatie van een enkele codering ging voorafde noodzaak om een aantal problemen op te lossen die zijn ontstaan door de enorme verscheidenheid aan standaarden die toen al bestonden. De meest voorkomende:

elven letters of "krakozyabry";
tekenset beperkingen;
coderingsconversieprobleem;
duplicatie van lettertypen.

Een kleine historische excursie

Stel je voor dat het de jaren 80 is. Computertechnologie is nog niet zo wijdverspreid en heeft een andere vorm dan nu. Op dat moment is elk besturingssysteem op zijn eigen manier uniek en wordt het door elke liefhebber aangepast aan specifieke behoeften. De behoefte aan informatie-uitwisseling verandert in een extra verfijning van alles in de wereld. Bij een poging om een document te lezen dat is gemaakt onder een ander besturingssysteem, wordt vaak een onbegrijpelijke reeks tekens op het scherm weergegeven en beginnen games met een codering. Het is niet altijd mogelijk om dit snel te doen, en soms kan het benodigde document na zes maanden of zelfs later worden geopend. Mensen die regelmatig informatie uitwisselen, maken voor zichzelf conversietabellen. En nu onthult het werk eraan een interessant detail: ze moeten in twee richtingen worden gemaakt: "van de mijne naar de jouwe" en terug. De machine kan geen banale omkering van berekeningen maken, want in de rechterkolom is de bron, en in de linkerkant - het resultaat, maar niet andersom. Als er speciale tekens in het document moesten worden gebruikt, moesten deze eerst worden toegevoegd en vervolgens aan de partner worden uitgelegd wat hij moest doen, zodat deze tekens niet in "krakozyabry" veranderden. En laten we niet vergeten dat u voor elke codering uw eigen lettertypen moest ontwikkelen of implementeren, wat leidde tot de creatie van een groot aantal duplicaten in het besturingssysteem.

Stel je ook voor dat je op de lettertypepaginaje ziet 10 identieke Times New Roman met kleine markeringen: voor utf-8, UTF-16, ANSI, UCS-2. Begrijpt u nu dat het absoluut noodzakelijk was om een universele standaard te ontwikkelen?

"Creator Fathers"

De oorsprong van Unicode gaat terug tot 1987jaar, toen Joe Becker van Xerox, samen met Lee Collins en Mark Davis van Apple, begon met onderzoek naar de praktische creatie van een universele tekenset. In augustus 1988 publiceerde Joe Becker een conceptvoorstel voor een 16-bits internationaal meertalig coderingssysteem.

Een paar maanden later kwam de Unicode-werkgroepwerd uitgebreid met Ken Whistler en Mike Kernegan van RLG, Glenn Wright van Sun Microsystems en verschillende anderen, wat leidde tot de voltooiing van de voorlopige ontwikkeling van een gemeenschappelijke coderingsstandaard.

Algemene beschrijving

Unicode is gebaseerd op het concept van een personage. Deze definitie wordt opgevat als een abstract fenomeen dat bestaat in een specifieke schrijfvorm en wordt gerealiseerd door middel van grafemen (hun "portretten"). Elk teken wordt in "Unicode" gespecificeerd door een unieke code die bij een specifiek blok van de standaard hoort. Er is bijvoorbeeld een grafeem B in zowel het Engelse als het Russische alfabet, maar in Unicode komt het overeen met 2 verschillende karakters. Ze worden geconverteerd naar een kleine letter, dat wil zeggen dat ze allemaal worden beschreven met een databasesleutel, een reeks eigenschappen en een volledige naam.

Voordelen van Unicode

Van andere tijdgenoten de codering "Unicode"onderscheidde zich door een enorm aanbod van karakters voor de "encryptie" van karakters. Feit is dat zijn voorgangers 8 bits hadden, dat wil zeggen dat ze 28 tekens ondersteunden, maar de nieuwe ontwikkeling had al 216 tekens, wat een enorme stap voorwaarts was. Dit maakte het mogelijk om bijna alle bestaande en gangbare alfabetten te coderen.

Met de komst van "Unicode" was dat niet meer nodiggebruik conversietabellen: als een enkele standaard maakte het simpelweg de noodzaak ervan overbodig. Op dezelfde manier zijn de "krakozyabry" in de vergetelheid geraakt - een enkele standaard maakte ze onmogelijk en elimineerde de noodzaak om dubbele lettertypen te maken.

Ontwikkeling van Unicode

De vooruitgang staat natuurlijk niet stil, en vanaf het momentde eerste presentatie is al 25 jaar verstreken. De Unicode-codering houdt echter koppig stand in de wereld. In veel opzichten werd dit mogelijk doordat het gemakkelijk werd geïmplementeerd en wijdverspreid raakte en werd erkend als ontwikkelaars van propriëtaire (betaalde) en open source software.

unicode-codering (standaard voor tekencodering)

Tegelijkertijd moet men er niet van uitgaan dat we vandaagdezelfde Unicode-codering is beschikbaar als een kwart eeuw geleden. Op dit moment is de versie gewijzigd in 5.x.x en is het aantal gecodeerde tekens gestegen tot 231. De mogelijkheid om een groter aantal tekens te gebruiken werd verlaten om nog steeds ondersteuning te bieden voor Unicode-16 (coderingen waarbij het maximale aantal tekens was beperkt tot 216). Sinds de oprichting en tot versie 2.0.0 heeft de "Unicode Standard" het aantal tekens dat het bevat bijna verdubbeld. De groei van kansen zette zich in de daaropvolgende jaren voort. Met versie 4.0.0 werd het noodzakelijk om de standaard zelf te verhogen, wat werd gedaan. Als resultaat heeft "Unicode" de vorm gekregen waarin we het vandaag kennen.

Wat is er nog meer in Unicode?

Naast het enorme, constant groeiendeaantal karakters, "Unicode" -codering van tekstinformatie heeft nog een andere handige functie. Dit is de zogenaamde normalisatie. In plaats van teken voor teken door het hele document te scrollen en de juiste pictogrammen uit de opzoektabel te vervangen, wordt een van de bestaande normalisatie-algoritmen gebruikt. Waar hebben we het over?

In plaats van computerbronnen te verspillenmachine om regelmatig hetzelfde teken te controleren, dat in verschillende alfabetten vergelijkbaar kan zijn, wordt een speciaal algoritme gebruikt. Hiermee kunt u soortgelijke tekens in een aparte kolom van de vervangingstabel verwijderen en ernaar verwijzen, in plaats van alle gegevens steeds opnieuw te controleren.

Er zijn vier van dergelijke algoritmen ontwikkeld en geïmplementeerd. In elk van hen vindt de transformatie plaats volgens een strikt gedefinieerd principe dat verschilt van de andere, dus het is niet mogelijk om een van hen het meest effectief te noemen. Elk is ontwikkeld voor specifieke behoeften, is geïmplementeerd en wordt met succes gebruikt.

Verdeling van de standaard

Al 25 jaar van zijn geschiedenis, de Unicode-coderingontvangen, waarschijnlijk de meest verspreide ter wereld. Programma's en webpagina's zijn ook op deze standaard afgestemd. Het feit dat Unicode door meer dan 60% van de internetbronnen wordt gebruikt, kan de breedte van de toepassing aangeven.

Nu weet je wanneer de Unicode-standaard is ontstaan. Wat het is, weet u ook en u zult in staat zijn om de volledige betekenis van de uitvinding van een groep specialisten van Unicode Inc. meer dan 25 jaar geleden.

leuk vond: