Paulturner-Mitchell.com / Computer / Unicode-Codierung: Zeichencodierungsstandard

Unicode-Codierung: Zeichencodierungsstandard

Jeder Internetnutzer versucht esdie eine oder andere seiner Funktionen mindestens einmal einzurichten, wenn er das Wort „Unicode“ in lateinischen Buchstaben auf dem Display sah. Was es ist, erfahren Sie in diesem Artikel.

Definition

Unicode-Codierung - CodierungsstandardZeichen. Es wurde von der gemeinnützigen Organisation Unicode Inc. vorgeschlagen. im Jahr 1991. Der Standard soll so viele verschiedene Arten von Zeichen wie möglich in einem Dokument kombinieren. Eine darauf basierende Seite kann Buchstaben und Zeichen aus verschiedenen Sprachen (von Russisch bis Koreanisch) und mathematische Zeichen enthalten. In diesem Fall werden alle Zeichen in dieser Kodierung ohne Probleme angezeigt.

Gründe für das Erstellen

Es war einmal, lange vor dem Aufkommen eines einheitlichen SystemsUnicode, die Codierung wurde basierend auf den Einstellungen des Autors des Dokuments ausgewählt. Aus diesem Grund ist es häufig erforderlich, unterschiedliche Tabellen zum Lesen eines Dokuments zu verwenden. Manchmal musste es mehrmals gemacht werden, was das Leben eines normalen Benutzers sehr erschwerte. Wie bereits erwähnt, wurde die Lösung dieses Problems 1991 von der gemeinnützigen Organisation Unicode Inc. vorgeschlagen, die eine neue Art der Zeichenkodierung vorschlug. Er wurde aufgefordert, veraltete und vielfältige Standards zu kombinieren. Unicode ist eine Kodierung, die es damals ermöglichte, das Undenkbare zu erreichen: Erstellen Sie ein Tool, das eine große Anzahl von Zeichen unterstützt. Das Ergebnis übertraf viele Erwartungen - es erschienen Dokumente, die gleichzeitig englischen und russischen Text, lateinische und mathematische Ausdrücke enthielten.

Но созданию единой кодировки предшествовала die Notwendigkeit, eine Reihe von Problemen zu lösen, die sich aus der Vielzahl der zu diesem Zeitpunkt bereits bestehenden Standards ergaben. Die häufigsten von ihnen:

elf Buchstaben oder "krakozyabry";
Zeichensatzbeschränkungen;
Codierungskonvertierungsproblem;
Vervielfältigung von Schriften.

Ein kleiner historischer Ausflug

Stellen Sie sich vor, Sie wären in den 80ern.Computertechnologie ist noch nicht so verbreitet und sieht anders aus als heute. Zu dieser Zeit war jedes Betriebssystem auf seine Weise einzigartig und wurde von jedem Enthusiasten für spezifische Bedürfnisse fertiggestellt. Das Bedürfnis nach Informationsaustausch führt zu einer weiteren Verfeinerung von allem auf der Welt. Beim Versuch, ein Dokument zu lesen, das unter einem anderen Betriebssystem erstellt wurde, wird häufig ein unverständlicher Zeichensatz angezeigt, und Spiele mit einer Codierung beginnen. Dies ist nicht immer schnell möglich, und manchmal kann das erforderliche Dokument nach sechs Monaten oder sogar später geöffnet werden. Menschen, die oft Informationen austauschen, erstellen für sich selbst Umrechnungstabellen. Und hier zeigt die Arbeit an ihnen ein interessantes Detail: Sie müssen sie in zwei Richtungen erstellen: „von meiner zu deiner“ und umgekehrt. Die Maschine kann keine banale Umkehrung von Berechnungen vornehmen, da sich die Quelle in der rechten Spalte und das Ergebnis in der linken Spalte befindet, aber nicht umgekehrt. Wenn im Dokument Sonderzeichen verwendet werden mussten, mussten diese zuerst hinzugefügt und dann dem Partner erklärt werden, was er tun musste, damit diese Zeichen nicht zu "krummen Haaren" wurden. Und vergessen wir nicht, dass wir für jede Kodierung unsere eigenen Schriften entwickeln oder implementieren mussten, was zu einer großen Anzahl von Einstellungen im Betriebssystem führte.

Stellen Sie sich das auf der Schriftseite vorSie sehen 10 identische Times New Roman-Teile mit kleinen Markierungen: für utf-8, UTF-16, ANSI, UCS-2. Verstehen Sie jetzt, dass die Entwicklung eines universellen Standards ein dringender Bedarf war?

"Schöpfer-Väter"

Die Ursprünge von Unicode sollten 1987 gesucht werdenIn diesem Jahr begann Joe Becker von Xerox zusammen mit Lee Collins und Mark Davis von Apple mit der Erforschung der praktischen Erstellung eines universellen Zeichensatzes. Im August 1988 veröffentlichte Joe Becker einen Entwurf für ein internationales 16-Bit-Codierungssystem.

Nach einigen Monaten wurde die Unicode-Arbeitsgruppewurde um Ken Whistler und Mike Kernegan von RLG, Glenn Wright von Sun Microsystems und mehrere andere Spezialisten erweitert, wodurch wir die Arbeit an der vorläufigen Bildung eines einheitlichen Codierungsstandards abschließen konnten.

Allgemeine Beschreibung

Unicode basiert auf dem Konzept eines Symbols.Mit dieser Definition ist ein abstraktes Phänomen gemeint, das in einer bestimmten Form der Schrift existiert und durch Grapheme (ihre "Porträts") realisiert wird. Jedes Zeichen wird in Unicode mit einem eindeutigen Code angegeben, der zu einem bestimmten Block des Standards gehört. Zum Beispiel ist Graphem B sowohl in englischem als auch in russischem Alphabet, aber in Unicode 2 entsprechen ihm verschiedene Zeichen. Auf sie wird eine Konvertierung in Kleinbuchstaben angewendet, dh, jeder von ihnen wird durch einen Datenbankschlüssel, eine Reihe von Eigenschaften und einen vollständigen Namen beschrieben.

Unicode-Vorteile

Von anderen Zeitgenossen stammt die Unicode-Kodierungzeichnet sich durch ein riesiges Zeichenangebot für die "Verschlüsselung" von Zeichen aus. Tatsache ist, dass seine Vorgänger 8 Bit hatten, das heißt, sie unterstützten 28 Zeichen, aber die neue Entwicklung hatte bereits 216 Zeichen, was ein riesiger Fortschritt war. Dies ermöglichte es uns, fast alle vorhandenen und gebräuchlichen Alphabete zu kodieren.

Mit dem Aufkommen von Unicode wird die Notwendigkeit vonVerwendung von Umrechnungstabellen: Als einziger Standard hob er einfach deren Bedarf auf. Ebenso sind die „Gauner“ in Vergessenheit geraten - ein einziger Standard machte sie unmöglich und beseitigte die Notwendigkeit, doppelte Schriften zu erstellen.

Unicode-Entwicklung

Конечно, прогресс не стоит на месте, и с момента Die erste Präsentation ist 25 Jahre her. Die Unicode-Kodierung behauptet sich jedoch hartnäckig in der Welt. In vielerlei Hinsicht wurde dies möglich, weil es leicht zu implementieren und zu verbreiten war und von den Entwicklern von proprietärer (kostenpflichtiger) und Open-Source-Software anerkannt wurde.

Unicode-Codierung (Zeichencodierungsstandard)

Gleichzeitig sollten wir nicht davon ausgehen, dass wir heuteDie gleiche Unicode-Codierung ist wie vor einem Vierteljahrhundert verfügbar. Derzeit wurde die Version auf 5.x.x geändert und die Anzahl der codierten Zeichen auf 231 erhöht. Sie weigerten sich, eine größere Anzahl von Zeichen zu verwenden, um die Unterstützung für Unicode-16 (Codierungen, deren maximale Anzahl auf 216 begrenzt war) beizubehalten. Seit dem Erscheinen der Version 2.0.0 hat Unicode Standard die Anzahl der darin enthaltenen Zeichen fast zweimal erhöht. Das Wachstum der Chancen setzte sich in den Folgejahren fort. Ab Version 4.0.0 war es bereits erforderlich, den Standard selbst zu erhöhen, was auch getan wurde. Infolgedessen hat Unicode die Form erhalten, wie wir sie heute kennen.

Was gibt es sonst noch in Unicode?

Neben den riesigen, ständig nachfüllendenAnzahl der Zeichen, Unicode-Codierung von Textinformationen hat eine weitere nützliche Funktion. Wir sprechen von der sogenannten Normalisierung. Anstatt Zeichen für Zeichen durch das gesamte Dokument zu scrollen und die entsprechenden Symbole aus der Entsprechungstabelle zu ersetzen, wird einer der vorhandenen Normalisierungsalgorithmen verwendet. Wovon redest du

Anstatt Rechenressourcen zu verschwendenMaschinen, die regelmäßig dasselbe Zeichen überprüfen, das in verschiedenen Alphabeten ähnlich sein kann, verwenden einen speziellen Algorithmus. Sie können ähnliche Zeichen in einer separaten Spalte der Nachschlagetabelle erstellen und auf diese verweisen, und nicht nur alle Daten immer wieder überprüfen.

Таких алгоритмов разработано и внедрено четыре.In jedem von ihnen erfolgt die Transformation nach einem streng definierten Prinzip, das sich von den anderen unterscheidet. Daher ist es nicht möglich, einen von ihnen als den effektivsten zu bezeichnen. Jedes wurde für spezifische Bedürfnisse entwickelt, implementiert und erfolgreich eingesetzt.

Standardverteilung

Seit 25 Jahren seiner Geschichte, die Unicode-Codierungerhielt wahrscheinlich die am weitesten verbreitete in der Welt. Programme und Webseiten sind ebenfalls an diesen Standard angepasst. Die Tatsache, dass Unicode heute mehr als 60% der Internetressourcen nutzt, kann über die Anwendungsbreite sprechen.

Jetzt wissen Sie, wann der Unicode-Standard angezeigt wurde. Was es ist, wissen Sie auch und werden in der Lage sein, die volle Bedeutung der Erfindung zu schätzen, die von einem Team von Spezialisten von Unicode Inc. gemacht wurde. vor über 25 Jahren.

Mochte: