/ / यूनिकोड एन्कोडिंग: चरित्र एन्कोडिंग मानक

यूनिकोड एन्कोडिंग: चरित्र एन्कोडिंग मानक

हर इंटरनेट उपयोगकर्ता कोशिश कर रहा हैकम से कम एक बार मैंने एक या दूसरे फ़ंक्शन को कॉन्फ़िगर करने के लिए प्रदर्शन पर लैटिन अक्षरों में लिखा "यूनिकोड" शब्द देखा। इस लेख को पढ़कर आपको पता चलेगा कि यह क्या है।

यूनिकोड क्या है

परिभाषा

यूनिकोड एन्कोडिंग - एन्कोडिंग मानकपात्र। यह गैर-लाभकारी संगठन यूनिकोड इंक द्वारा पेश किया गया था। 1991 में। मानक को एक दस्तावेज़ में यथासंभव कई विविध वर्णों को संयोजित करने के लिए डिज़ाइन किया गया है। पृष्ठ जो इसके आधार पर बनाया गया था, उसमें विभिन्न भाषाओं के अक्षर और चित्रलिपि (रूसी से कोरियाई तक) और गणितीय संकेत हो सकते हैं। इस स्थिति में, इस एन्कोडिंग के सभी वर्ण समस्याओं के बिना प्रदर्शित किए जाते हैं।

बनाने के कारण

एक बार, एक बार एक प्रणाली के उद्भव से पहले"यूनिकोड", दस्तावेज़ के लेखक की प्राथमिकताओं के आधार पर एन्कोडिंग को चुना गया था। इस कारण से, किसी दस्तावेज़ को पढ़ने के लिए विभिन्न तालिकाओं का उपयोग करना अक्सर आवश्यक होता है। कभी-कभी यह कई बार करना पड़ता था, जो एक साधारण उपयोगकर्ता के जीवन को काफी जटिल करता था। जैसा कि पहले ही उल्लेख किया गया है, 1991 में इस समस्या का समाधान गैर-लाभकारी संगठन यूनिकोड इंक द्वारा प्रस्तावित किया गया था, जिसने एक नए प्रकार के चरित्र एन्कोडिंग का प्रस्ताव किया था। इसका उद्देश्य अप्रचलित और विविध मानकों को संयोजित करना था। "यूनिकोड" एक एन्कोडिंग है जिसने हमें उस समय अकल्पनीय हासिल करने की अनुमति दी: एक उपकरण बनाने के लिए जो बड़ी संख्या में वर्णों का समर्थन करता है। परिणाम कई अपेक्षाओं को पार कर गया - अंग्रेजी और रूसी दोनों पाठ, लैटिन और गणितीय अभिव्यक्ति वाले दस्तावेज थे।

लेकिन एकल एन्कोडिंग के निर्माण से पहले थाउस समय पहले से मौजूद मानकों की विशाल विविधता के कारण कई समस्याओं को हल करने की आवश्यकता थी। सबसे आम हैं:

  • elven पत्र, या "krakozyabry";
  • सीमित चरित्र सेट;
  • एनकोडिंग को परिवर्तित करने की समस्या;
  • फोंट का दोहराव।

यूनिकोड मानक

एक छोटा सा ऐतिहासिक भ्रमण

कल्पना कीजिए कि यह 80 का दशक है। कंप्यूटर तकनीक अभी तक इतनी व्यापक नहीं है और आज से एक अलग रूप है। उस समय, प्रत्येक ओएस अपने तरीके से अद्वितीय होता है और विशिष्ट आवश्यकताओं के लिए प्रत्येक उत्साही द्वारा संशोधित होता है। सूचना विनिमय की आवश्यकता दुनिया की हर चीज के अतिरिक्त परिशोधन में बदल जाती है। एक अन्य ओएस के तहत बनाए गए दस्तावेज़ को पढ़ने का प्रयास अक्सर स्क्रीन पर पात्रों का एक समझदार सेट प्रदर्शित करता है, और एक एन्कोडिंग के साथ गेम शुरू होता है। यह जल्दी से करना हमेशा संभव नहीं होता है, और कभी-कभी आवश्यक दस्तावेज छह महीने, या बाद में भी खोला जा सकता है। जो लोग अक्सर सूचनाओं का आदान-प्रदान करते हैं वे अपने लिए रूपांतरण तालिकाएँ बनाते हैं। और उन पर काम करने से एक दिलचस्प विवरण का पता चलता है: उन्हें दो दिशाओं में बनाने की आवश्यकता है: "मेरा से तुम्हारा" और पीछे। मशीन गणना का एक व्युत्क्रम नहीं बना सकती है, क्योंकि यह स्रोत दाहिने कॉलम में है, और परिणाम बाईं ओर है, लेकिन इसके विपरीत नहीं है। यदि दस्तावेज़ में किसी विशेष वर्ण का उपयोग करने की आवश्यकता होती है, तो उन्हें पहले जोड़ा जाना चाहिए, और फिर साथी को यह भी समझाया कि उसे ऐसा करने की क्या ज़रूरत है ताकि ये पात्र "क्रैकोज़ैब्री" में बदल न जाएं। और यह मत भूलो कि प्रत्येक एन्कोडिंग के लिए, आपको अपने स्वयं के फोंट विकसित करने या कार्यान्वित करने की आवश्यकता थी, जिसके कारण ओएस में बड़ी संख्या में डुप्लिकेट का निर्माण हुआ।

यह भी कल्पना करें कि फ़ॉन्ट के पृष्ठ पर आपआपको छोटे चिह्नों के साथ समान टाइम्स न्यू रोमन के 10 टुकड़े दिखाई देंगे: यूटीएफ-8, यूटीएफ-16, एएनएसआई, यूसीएस-2 के लिए। अब क्या आप समझते हैं कि एक सार्वभौमिक मानक का विकास एक तत्काल आवश्यकता थी?

यूनिकोड एन्कोडिंग

"निर्माता पिता"

यूनिकोड की उत्पत्ति 1987 में पाई जाती हैवर्ष, जब ज़ेरॉक्स के जो बेकर ने, ली कोलिन्स और ऐप्पल के मार्क डेविस के साथ, एक सार्वभौमिक चरित्र सेट के व्यावहारिक निर्माण पर शोध शुरू किया। अगस्त 1988 में, जो बेकर ने 16-बिट अंतर्राष्ट्रीय बहुभाषी कोडिंग प्रणाली के लिए एक मसौदा प्रस्ताव प्रकाशित किया।

कुछ ही महीनों में, यूनिकोड वर्किंग ग्रुपप्रारंभिक कोडिंग मानक को पूरा करने के लिए आरएलजी के केन व्हिस्लर और माइक कर्नेगन, सन माइक्रोसिस्टम्स के ग्लेन राइट और कुछ अन्य लोगों को शामिल करने के लिए इसका विस्तार किया गया।

यूनिकोड एन्कोडिंग

सामान्य विवरण

यूनिकोड एक वर्ण की अवधारणा पर आधारित है।यह परिभाषा एक अमूर्त घटना को संदर्भित करती है जो एक विशिष्ट प्रकार के लेखन में मौजूद होती है और ग्रेफेम्स (इसके "चित्र") के माध्यम से महसूस की जाती है। प्रत्येक वर्ण को मानक के एक विशिष्ट ब्लॉक से संबंधित एक अद्वितीय कोड द्वारा "यूनिकोड" में निर्दिष्ट किया जाता है। उदाहरण के लिए, ग्रैफेम बी अंग्रेजी और रूसी दोनों वर्णमालाओं में मौजूद है, लेकिन यूनिकोड में इसमें 2 अलग-अलग अक्षर हैं। उन्हें लोअरकेस में परिवर्तित किया जाता है, यानी प्रत्येक को डेटाबेस कुंजी, गुणों का एक सेट और एक पूर्ण नाम द्वारा वर्णित किया जाता है।

यूनिकोड के लाभ

अन्य समकालीनों से "यूनिकोड" एन्कोडिंगइसे "एन्क्रिप्टिंग" वर्णों के लिए वर्णों की विशाल आपूर्ति द्वारा प्रतिष्ठित किया गया था। तथ्य यह है कि इसके पूर्ववर्तियों में 8 बिट्स थे, यानी, उन्होंने 28 अक्षरों का समर्थन किया था, लेकिन नए विकास में पहले से ही 216 अक्षर थे, जो एक बड़ा कदम था। इससे लगभग सभी मौजूदा और सामान्य अक्षरों को एन्कोड करना संभव हो गया।

यूनिकोड के आगमन के साथ, इसकी आवश्यकता हुईरूपांतरण तालिकाओं का उपयोग करें: एकल मानक के रूप में, इसने उनकी आवश्यकता को नकार दिया। उसी तरह, "क्रैकोज़ीब्री" गुमनामी में डूब गए हैं - एक एकल मानक ने उन्हें असंभव बना दिया, साथ ही डुप्लिकेट फ़ॉन्ट बनाने की आवश्यकता को भी समाप्त कर दिया।

यूनिकोड का विकास

निःसंदेह, प्रगति स्थिर नहीं रहती, और इसी क्षण सेपहली प्रस्तुति को 25 साल बीत चुके हैं। हालाँकि, यूनिकोड एन्कोडिंग दुनिया में अपनी स्थिति बनाए हुए है। कई मायनों में, यह इस तथ्य के कारण संभव हुआ कि इसे आसानी से लागू किया गया और फैलाया गया, इसे मालिकाना (भुगतान) और ओपन सोर्स सॉफ़्टवेयर के डेवलपर्स द्वारा मान्यता दी गई।

यूनिकोड एन्कोडिंग (वर्ण एन्कोडिंग मानक)

साथ ही हमें यह भी नहीं मान लेना चाहिए कि आज हमवही "यूनिकोड" एन्कोडिंग एक चौथाई सदी पहले की तरह उपलब्ध है। फिलहाल, इसका संस्करण 5.x.x में बदल गया है, और एन्कोडेड वर्णों की संख्या बढ़कर 231 हो गई है। यूनिकोड-16 (एक एन्कोडिंग जहां उनके अधिकतम संख्या 216) तक सीमित थी। अपनी स्थापना के बाद से और संस्करण 2.0.0 तक, "यूनिकोड मानक" ने इसमें शामिल किए गए वर्णों की संख्या लगभग 2 गुना बढ़ा दी है। बाद के वर्षों में अवसरों की वृद्धि जारी रही। संस्करण 4.0.0 तक मानक को ही बढ़ाने की आवश्यकता पहले से ही थी, जो की गयी। परिणामस्वरूप, "यूनिकोड" ने वह रूप प्राप्त कर लिया जिस रूप में हम इसे आज जानते हैं।

यूनिकोड क्या है

यूनिकोड में और क्या है?

विशाल के अलावा, लगातार बढ़ रहा हैवर्णों की संख्या, पाठ्य सूचना की "यूनिकोड" एन्कोडिंग की एक और उपयोगी विशेषता है। यह तथाकथित सामान्यीकरण है। संपूर्ण दस्तावेज़ को वर्ण दर वर्ण स्क्रॉल करने और लुकअप तालिका से संबंधित आइकन को प्रतिस्थापित करने के बजाय, मौजूदा सामान्यीकरण एल्गोरिदम में से एक का उपयोग किया जाता है। हम किस बारे में बात कर रहे हैं?

कंप्यूटिंग संसाधनों को बर्बाद करने के बजायमशीन में एक ही अक्षर को नियमित रूप से जांचने के लिए, जो अलग-अलग वर्णमाला में समान हो सकता है, एक विशेष एल्गोरिदम का उपयोग किया जाता है। यह आपको प्रतिस्थापन तालिका के एक अलग कॉलम में समान वर्णों को निकालने और उन्हें पहले से ही संदर्भित करने की अनुमति देता है, और सभी डेटा को बार-बार दोबारा जांचने की अनुमति नहीं देता है।

ऐसे चार एल्गोरिदम विकसित और कार्यान्वित किए गए हैं।उनमें से प्रत्येक में, परिवर्तन एक कड़ाई से परिभाषित सिद्धांत के अनुसार होता है जो दूसरों से भिन्न होता है, इसलिए उनमें से किसी एक को सबसे प्रभावी कहना संभव नहीं है। प्रत्येक को विशिष्ट आवश्यकताओं के लिए विकसित किया गया, कार्यान्वित किया गया और सफलतापूर्वक उपयोग किया गया।

पाठ्य सूचना का यूनिकोड एन्कोडिंग

मानक का वितरण

अपने इतिहास के 25 वर्षों के लिए, यूनिकोड एन्कोडिंगसंभवतः दुनिया में सबसे अधिक व्यापक। प्रोग्राम और वेब पेज भी इस मानक के अनुसार समायोजित किए जाते हैं। यह तथ्य कि आज 60% से अधिक इंटरनेट संसाधनों द्वारा यूनिकोड का उपयोग किया जाता है, अनुप्रयोग की व्यापकता के बारे में बता सकता है।

अब आप जानते हैं कि यूनिकोड मानक कब सामने आया। यह क्या है, आप भी जानते हैं और विशेषज्ञों के एक समूह यूनिकोड इंक द्वारा किए गए आविष्कार के पूर्ण महत्व की सराहना करने में सक्षम होंगे। 25 वर्ष से अधिक पहले.

इसे पसंद किया:
0
लोकप्रिय पोस्ट
आध्यात्मिक विकास
भोजन
y