Paulturner-Mitchell.com / คอมพิวเตอร์ / การเข้ารหัส Unicode: มาตรฐานการเข้ารหัสอักขระ

การเข้ารหัส Unicode: มาตรฐานการเข้ารหัสอักขระ

ผู้ใช้อินเทอร์เน็ตทุกคนพยายามตั้งค่าฟังก์ชันอย่างน้อยหนึ่งอย่างอย่างน้อยเมื่อฉันเห็นคำว่า "Unicode" เขียนด้วยตัวอักษรละตินบนหน้าจอ คุณจะพบว่ามันคืออะไรโดยการอ่านบทความนี้

คำนิยาม

การเข้ารหัส Unicode - มาตรฐานการเข้ารหัสตัวอักษร นำเสนอโดยองค์กรไม่แสวงหาผลกำไร Unicode Inc. ในปี 1991 มาตรฐานนี้ออกแบบมาเพื่อรวมอักขระประเภทต่างๆ ไว้ในเอกสารฉบับเดียวให้ได้มากที่สุด หน้าที่สร้างขึ้นบนพื้นฐานของมันอาจมีตัวอักษรและอักษรอียิปต์โบราณจากภาษาต่างๆ (จากรัสเซียเป็นภาษาเกาหลี) และเครื่องหมายทางคณิตศาสตร์ ในกรณีนี้ อักขระทั้งหมดในการเข้ารหัสนี้จะแสดงโดยไม่มีปัญหา

เหตุผลในการสร้าง

กาลครั้งหนึ่งนานมาแล้วก่อนการเกิดขึ้นของระบบเดียว"Unicode" การเข้ารหัสถูกเลือกตามความชอบของผู้เขียนเอกสาร ด้วยเหตุนี้ จึงมักจำเป็นต้องใช้ตารางต่างๆ เพื่ออ่านเอกสารฉบับเดียว บางครั้งต้องทำหลายครั้งซึ่งทำให้ชีวิตของผู้ใช้ทั่วไปซับซ้อนอย่างมาก ดังที่ได้กล่าวไปแล้ว องค์กรไม่แสวงหากำไร Unicode Inc. เสนอวิธีแก้ปัญหานี้ในปี 2534 ซึ่งเสนอการเข้ารหัสอักขระประเภทใหม่ มีวัตถุประสงค์เพื่อรวมมาตรฐานที่ล้าสมัยและหลากหลายเข้าด้วยกัน "Unicode" เป็นการเข้ารหัสที่ช่วยให้เราบรรลุสิ่งที่คิดไม่ถึงในขณะนั้น: เพื่อสร้างเครื่องมือที่รองรับอักขระจำนวนมาก ผลลัพธ์เกินความคาดหมายมากมาย - เอกสารปรากฏว่ามีทั้งข้อความภาษาอังกฤษและรัสเซีย ละติน และนิพจน์ทางคณิตศาสตร์พร้อมกัน

แต่การสร้างการเข้ารหัสเดียวนำหน้าด้วยความจำเป็นในการแก้ไขปัญหาจำนวนมากที่เกิดจากมาตรฐานที่หลากหลายที่มีอยู่แล้วในขณะนั้น ที่พบบ่อยที่สุดคือ:

ตัวอักษรพรายหรือ "krakozyabry";
ชุดอักขระจำกัด;
ปัญหาการแปลงการเข้ารหัส
การทำสำเนาแบบอักษร

การท่องเที่ยวเชิงประวัติศาสตร์เล็ก ๆ

ลองนึกภาพว่าเป็นยุค 80เทคโนโลยีคอมพิวเตอร์ยังไม่แพร่หลายและมีรูปแบบที่แตกต่างจากปัจจุบัน ในขณะนั้น แต่ละ OS มีลักษณะเฉพาะในแบบของตัวเอง และถูกแก้ไขโดยผู้สนใจแต่ละรายสำหรับความต้องการเฉพาะ ความจำเป็นในการแลกเปลี่ยนข้อมูลกลายเป็นการปรับแต่งเพิ่มเติมของทุกสิ่งในโลก ความพยายามที่จะอ่านเอกสารที่สร้างขึ้นภายใต้ระบบปฏิบัติการอื่นมักจะแสดงชุดอักขระที่เข้าใจยากบนหน้าจอ และเกมที่มีการเข้ารหัสเริ่มต้นขึ้น ไม่สามารถทำได้อย่างรวดเร็วเสมอไป และบางครั้งสามารถเปิดเอกสารที่จำเป็นได้หลังจากหกเดือนหรือหลังจากนั้น ผู้ที่แลกเปลี่ยนข้อมูลมักสร้างตารางการแปลงสำหรับตนเอง ดังนั้นงานของพวกเขาจึงเผยให้เห็นรายละเอียดที่น่าสนใจ: พวกเขาจะต้องสร้างขึ้นในสองทิศทาง: "จากของฉันถึงของคุณ" และย้อนกลับ เครื่องไม่สามารถทำการคำนวณแบบผกผันซ้ำ ๆ ได้เพราะในคอลัมน์ด้านขวาคือแหล่งที่มาและในด้านซ้าย - ผลลัพธ์ แต่ไม่ใช่ในทางกลับกัน หากจำเป็นต้องใช้อักขระพิเศษใดๆ ในเอกสาร จะต้องเพิ่มอักขระเหล่านี้ก่อน แล้วจึงอธิบายให้พาร์ทเนอร์ทราบถึงสิ่งที่เขาต้องทำเพื่อไม่ให้อักขระเหล่านี้กลายเป็น "krakozyabry" และอย่าลืมว่าในการเข้ารหัสแต่ละครั้ง คุณต้องพัฒนาหรือใช้แบบอักษรของคุณเอง ซึ่งนำไปสู่การสร้างสำเนาจำนวนมากในระบบปฏิบัติการ

ลองนึกภาพด้วยว่าในหน้าแบบอักษรคุณคุณจะเห็น Times New Roman 10 รายการที่เหมือนกันโดยมีเครื่องหมายเล็ก ๆ สำหรับ utf-8, UTF-16, ANSI, UCS-2 ตอนนี้คุณเข้าใจหรือไม่ว่าจำเป็นต้องพัฒนามาตรฐานสากล?

“บิดาผู้สร้าง”

ต้นกำเนิดของ Unicode สามารถสืบย้อนไปถึงปี 1987ปีที่ Joe Becker แห่ง Xerox พร้อมด้วย Lee Collins และ Mark Davis แห่ง Apple เริ่มค้นคว้าเกี่ยวกับการสร้างชุดตัวละครที่เป็นสากล ในเดือนสิงหาคม พ.ศ. 2531 Joe Becker ได้เผยแพร่ร่างข้อเสนอสำหรับระบบการเข้ารหัสหลายภาษาแบบ 16 บิตแบบหลายภาษา

ไม่กี่เดือนต่อมา คณะทำงาน Unicodeขยายให้ครอบคลุม Ken Whistler และ Mike Kernegan จาก RLG, Glenn Wright จาก Sun Microsystems และอื่นๆ อีกหลายๆ คน ส่งผลให้การพัฒนาเบื้องต้นของมาตรฐานการเข้ารหัสทั่วไปเสร็จสมบูรณ์

คำอธิบายทั่วไป

Unicode ขึ้นอยู่กับแนวคิดของตัวละครคำจำกัดความนี้เข้าใจว่าเป็นปรากฏการณ์นามธรรมที่มีอยู่ในรูปแบบการเขียนเฉพาะและรับรู้ผ่านกราฟ ("ภาพเหมือน") อักขระแต่ละตัวถูกระบุใน "Unicode" ด้วยรหัสเฉพาะที่เป็นของบล็อกเฉพาะของมาตรฐาน ตัวอย่างเช่น มีกราฟ B ทั้งในตัวอักษรภาษาอังกฤษและรัสเซีย แต่ใน Unicode จะตรงกับอักขระ 2 ตัวที่แตกต่างกัน พวกมันจะถูกแปลงเป็นอักษรตัวพิมพ์เล็ก กล่าวคือ แต่ละอันมีคำอธิบายโดยคีย์ฐานข้อมูล ชุดของคุณสมบัติ และชื่อเต็ม

ประโยชน์ของ Unicode

จากโคตรอื่น ๆ การเข้ารหัส "Unicode"โดดเด่นด้วยตัวละครจำนวนมากสำหรับ "การเข้ารหัส" ของอักขระ ความจริงก็คือว่ารุ่นก่อนมี 8 บิต นั่นคือ รองรับ 28 อักขระ แต่การพัฒนาใหม่มีอักขระ 216 ตัวแล้ว ซึ่งเป็นก้าวที่ยิ่งใหญ่ ทำให้สามารถเข้ารหัสตัวอักษรที่มีอยู่และตัวอักษรทั่วไปเกือบทั้งหมดได้

ด้วยการถือกำเนิดของ "Unicode" จึงไม่มีความจำเป็นใช้ตารางการแปลง: เป็นมาตรฐานเดียว ทำให้ไม่ต้องการมาตรฐานเหล่านี้ ในทำนองเดียวกัน "krakozyabry" ได้จมลงสู่การลืมเลือน - มาตรฐานเดียวที่ทำให้พวกเขาเป็นไปไม่ได้ รวมทั้งขจัดความจำเป็นในการสร้างแบบอักษรที่ซ้ำกัน

การพัฒนา Unicode

แน่นอนความก้าวหน้าไม่หยุดนิ่งและจากนี้ไปการนำเสนอครั้งแรกผ่านไป 25 ปีแล้ว อย่างไรก็ตาม การเข้ารหัส Unicode ยังคงยึดถือพื้นฐานของโลก ในหลาย ๆ ด้าน สิ่งนี้เกิดขึ้นได้เนื่องจากการที่มันถูกนำไปใช้อย่างง่ายดายและแพร่หลาย โดยได้รับการยอมรับว่าเป็นนักพัฒนาซอฟต์แวร์ที่เป็นกรรมสิทธิ์ (แบบชำระเงิน) และโอเพ่นซอร์ส

การเข้ารหัส Unicode (มาตรฐานการเข้ารหัสอักขระ)

ในขณะเดียวกัน ก็ไม่ควรเหมารวมว่าวันนี้เราการเข้ารหัส Unicode แบบเดียวกันนั้นมีให้ใช้งานเมื่อสี่ศตวรรษก่อน ในขณะนี้ เวอร์ชันของมันถูกเปลี่ยนเป็น 5.х.х และจำนวนอักขระที่เข้ารหัสได้เพิ่มขึ้นเป็น 231 ตัว ความสามารถในการใช้อักขระที่มากขึ้นถูกละทิ้งเพื่อให้ยังคงรองรับ Unicode-16 (การเข้ารหัสโดยที่ จำกัดจำนวนอักขระสูงสุดที่ 216) ตั้งแต่เริ่มก่อตั้งจนถึงเวอร์ชัน 2.0.0 "Unicode Standard" ได้เพิ่มจำนวนอักขระที่มีอยู่เกือบสองเท่า การเติบโตของโอกาสยังคงดำเนินต่อไปในปีต่อๆ ไป ในเวอร์ชัน 4.0.0 จำเป็นต้องเพิ่มมาตรฐานซึ่งทำเสร็จแล้ว เป็นผลให้ "Unicode" ได้รับรูปแบบที่เรารู้จักในปัจจุบัน

Unicode มีอะไรอีกบ้าง?

นอกจากจะเติมใหญ่ต่อเนื่องจำนวนอักขระการเข้ารหัส "Unicode" ของข้อมูลข้อความมีคุณลักษณะที่มีประโยชน์อีกอย่างหนึ่ง นี่คือสิ่งที่เรียกว่าการทำให้เป็นมาตรฐาน แทนที่จะเลื่อนดูทั้งอักขระในเอกสารทีละอักขระและแทนที่ไอคอนที่เหมาะสมจากตารางค้นหา หนึ่งในอัลกอริธึมการทำให้เป็นมาตรฐานที่มีอยู่จะถูกนำมาใช้ เรากำลังพูดเรื่องอะไรอยู่?

แทนที่จะเปลืองทรัพยากรคอมพิวเตอร์เครื่องตรวจสอบตัวอักษรเดียวกันเป็นประจำซึ่งอาจมีความคล้ายคลึงกันในตัวอักษรต่างกันจะใช้อัลกอริธึมพิเศษ ช่วยให้คุณสามารถนำอักขระที่คล้ายกันออกมาในคอลัมน์ที่แยกจากกันของตารางการแทนที่และอ้างอิงถึงอักขระเหล่านี้ แทนที่จะตรวจสอบข้อมูลทั้งหมดซ้ำแล้วซ้ำอีก

สี่อัลกอริธึมดังกล่าวได้รับการพัฒนาและดำเนินการในแต่ละคน การเปลี่ยนแปลงเกิดขึ้นตามหลักการที่กำหนดไว้อย่างเคร่งครัดซึ่งแตกต่างจากที่อื่น ดังนั้นจึงไม่สามารถระบุชื่อใดที่มีประสิทธิภาพที่สุดได้ แต่ละรายการได้รับการพัฒนาเพื่อตอบสนองความต้องการเฉพาะ มีการนำไปใช้งานและใช้งานได้สำเร็จ

การกระจายมาตรฐาน

เป็นเวลา 25 ปีของประวัติศาสตร์ การเข้ารหัส Unicodeที่ได้รับน่าจะแพร่หลายมากที่สุดในโลก โปรแกรมและเว็บเพจได้รับการปรับแต่งให้เข้ากับมาตรฐานนี้เช่นกัน ความจริงที่ว่า Unicode ถูกใช้โดยทรัพยากรอินเทอร์เน็ตมากกว่า 60% พูดถึงความกว้างของแอปพลิเคชัน

ตอนนี้คุณรู้แล้วว่ามาตรฐาน Unicode เกิดขึ้นเมื่อใด มันคืออะไร คุณรู้และจะสามารถชื่นชมความสำคัญอย่างเต็มที่ของการประดิษฐ์ที่ทำโดยกลุ่มผู้เชี่ยวชาญจาก Unicode Inc. เมื่อกว่า 25 ปีที่แล้ว

ชอบ: