Paulturner-Mitchell.com / コンピュータ / Unicodeエンコーディング：文字エンコーディング標準

Unicodeエンコーディング：文字エンコーディング標準

すべてのインターネットユーザーが試みていますディスプレイにラテン文字で書かれた「Unicode」という単語が表示されたら、少なくともその機能のいずれかを設定します。あなたはそれが何であるかをこの記事を読むことによって知るでしょう。

定義

Unicodeエンコーディング-エンコーディング標準文字。これは、非営利団体UnicodeIncによって提供されました。 1991年。この規格は、1つのドキュメントにできるだけ多くの異なるタイプの文字を組み合わせるように設計されています。それに基づいて作成されたページには、さまざまな言語（ロシア語から韓国語まで）の文字と象形文字、および数学記号が含まれている場合があります。この場合、このエンコーディングのすべての文字は問題なく表示されます。

作成の理由

昔々、単一のシステムが出現するずっと前に「Unicode」、エンコーディングはドキュメントの作者の好みに基づいて選択されました。このため、1つのドキュメントを読み取るために異なるテーブルを使用する必要があることがよくあります。時々これは数回行われなければならず、それは普通のユーザーの生活を著しく複雑にしました。すでに述べたように、1991年にこの問題の解決策は、新しいタイプの文字エンコードを提案した非営利団体UnicodeInc。によって提案されました。これは、廃止された多様な標準を組み合わせることが意図されていました。「Unicode」は、当時考えられなかった膨大な数の文字をサポートするツールを作成することを可能にしたエンコーディングです。結果は多くの期待を上回りました-英語とロシア語のテキスト、ラテン語と数式の両方を同時に含む文書が登場しました。

しかし、単一のエンコーディングの作成の前に当時すでに存在していた多種多様な標準のために発生した多くの問題を解決する必要性。最も一般的なものは次のとおりです。

エルフの文字、または「krakozyabry」;
限られた文字セット。
エンコーディングの変換の問題。
フォントの複製。

小さな歴史的な遠足

それが80年代だと想像してみてください。コンピュータ技術はまだそれほど普及しておらず、今日とは異なる形をしています。当時、各OSは独自の方法で一意であり、特定のニーズに合わせて各愛好家によって変更されています。情報交換の必要性は、世界のすべてのもののさらなる洗練に変わります。別のOSで作成されたドキュメントを読み込もうとすると、画面に理解できない文字のセットが表示されることが多く、エンコードされたゲームが始まります。これを迅速に行うことが常に可能であるとは限りません。また、必要なドキュメントを6か月後、またはそれ以降に開くことができる場合もあります。情報を交換する人は、自分で換算表を作成することがよくあります。そのため、それらの作業により、興味深い詳細が明らかになります。「私のものからあなたのものへ」とその逆の2つの方向で作成する必要があります。マシンは計算の平凡な反転を行うことができません。これは、右側の列がソースであり、左側が結果であるためですが、その逆はありません。ドキュメントで特殊文字を使用する必要がある場合は、最初にそれらを追加する必要があり、次に、これらの文字が「krakozyabry」にならないようにするために必要なことをパートナーに説明しました。また、エンコーディングごとに独自のフォントを開発または実装する必要があり、その結果、OSに膨大な数の複製が作成されたことを忘れないでください。

フォントのページであなたがutf-8、UTF-16、ANSI、UCS-2の場合、小さなマークが付いた10個の同一のTimes NewRomanが表示されます。普遍的な標準を開発することが不可欠であったことを今あなたは理解していますか？

「クリエーターファーザーズ」

Unicodeの起源は1987年までさかのぼることができますゼロックスのジョー・ベッカーが、アップルのリー・コリンズとマーク・デイビスとともに、普遍的なキャラクターセットの実用的な作成の研究を始めた年。 1988年8月、Joe Beckerは、16ビットの国際多言語コーディングシステムの提案案を発表しました。

数か月後、UnicodeワーキンググループRLGのKenWhistlerとMikeKernegan、SunMicrosystemsのGlennWrightなどを含むように拡張され、共通のコーディング標準の予備開発が完了しました。

一般的な説明

Unicodeは、文字の概念に基づいています。この定義は、特定の書き方で存在し、書記素（それらの「肖像画」）を通じて実現される抽象的な現象として理解されます。各文字は、標準の特定のブロックに属する一意のコードによって「Unicode」で指定されます。たとえば、英語とロシア語の両方のアルファベットに書記素Bがありますが、Unicodeでは2つの異なる文字に対応します。これらは小文字に変換されます。つまり、それぞれがデータベースキー、一連のプロパティ、およびフルネームで記述されます。

Unicodeの利点

他の同時代人からのエンコーディング「Unicode」文字の「暗号化」のための文字の膨大な供給によって区別されました。事実、前任者は8ビット、つまり28文字をサポートしていましたが、新しい開発ではすでに216文字であり、これは大きな前進でした。これにより、ほとんどすべての既存の一般的なアルファベットをエンコードすることが可能になりました。

「Unicode」の出現により、必要はありませんでした変換テーブルを使用する：単一の標準として、それは単にそれらの必要性を否定しました。同様に、「krakozyabry」は忘却の中に沈んでいます。単一の標準によってそれらは不可能になり、重複するフォントを作成する必要がなくなりました。

Unicodeの開発

もちろん、進歩は止まらず、その瞬間から最初のプレゼンテーションはすでに25年を過ぎています。しかし、Unicodeエンコーディングは頑固に世界でその地位を維持しています。多くの点で、これは、プロプライエタリ（有料）およびオープンソースソフトウェアの開発者として認識され、簡単に実装および普及するようになったという事実によって可能になりました。

同時に、今日私たちが四半世紀前と同じUnicodeエンコーディングが利用可能です。現時点では、そのバージョンは5.xxに変更され、エンコードされた文字の数は231に増加しました。Unicode-16（最大文字数は216文字に制限されていました）。「UnicodeStandard」は、その開始以来、バージョン2.0.0まで、含まれる文字数をほぼ2倍にしました。機会の成長はその後も続いた。バージョン4.0.0では、標準自体を増やす必要がありましたが、これは行われました。その結果、「Unicode」は私たちが今日知っている形を獲得しました。

Unicodeには他に何がありますか？

巨大な、絶えず補充することに加えて文字数、テキスト情報の「Unicode」エンコーディングには、もう1つの便利な機能があります。これはいわゆる正規化です。ドキュメント全体を1文字ずつスクロールしてルックアップテーブルの適切なアイコンに置き換える代わりに、既存の正規化アルゴリズムの1つが使用されます。私たちは何について話していますか？

コンピューティングリソースを無駄にする代わりに異なるアルファベットで類似している可能性のある同じ文字を定期的にチェックするマシンでは、特別なアルゴリズムが使用されます。これにより、すべてのデータを何度も再チェックするのではなく、置換テーブルの別の列にある類似の文字を取り出して参照することができます。

このような4つのアルゴリズムが開発され、実装されています。それぞれにおいて、変換は他とは異なる厳密に定義された原則に従って行われるため、それらのいずれかを最も効果的なものと名付けることはできません。それぞれが特定のニーズに合わせて開発され、実装され、正常に使用されています。

標準の配布

その歴史の25年間、Unicodeエンコーディングおそらく世界で最も普及している。プログラムとWebページもこの標準に合わせて調整されています。 Unicodeがインターネットリソースの60％以上で使用されているという事実は、アプリケーションの幅広さを物語っています。

これで、Unicode標準がいつ誕生したかがわかりました。それが何であるか、あなたはまた、Unicode Incの専門家のグループによってなされた発明の完全な重要性を知っており、理解することができるでしょう。 25年以上前。

気に入った点 -