यूनिकोड क्या है? यूनिकोड कैरेक्‍टर एन्कोडिंग का स्पष्टीकरण

Unicode in Hindi

Unicode in Hindi

एक कंप्यूटर के लिए टेक्‍स्‍ट और नंबर्स को स्‍टोर करने में सक्षम होने के लिए जिसे मनुष्य समझ सकते है, एक कोड होने की आवश्यकता है जो कैरेक्‍टर्स को नंबर्स में बदल देता है। यूनिकोड Unicode स्‍टैंडर्ड कैरेक्‍टर एन्कोडिंग का उपयोग करके ऐसे कोड को परिभाषित करता है।

कारण कैरेक्‍टर एन्कोडिंग इतना महत्वपूर्ण है कि प्रत्येक उपकरण समान इनफॉर्मेशन प्रदर्शित कर सकता है। एक कस्टम कैरेक्‍टर एन्कोडिंग स्कीम एक कंप्यूटर पर शानदार ढंग से काम कर सकती है, लेकिन समस्या तब होगी जब आप उसी टेक्‍स्‍ट को किसी और को भेजेंगे। यह नहीं पता होगा कि आप क्या बात कर रहे हैं जब तक कि यह एन्कोडिंग स्कीम को भी नहीं समझता है।

 

Character Encoding

Character Encoding of Unicode in Hindi – अक्षरों को सांकेतिक अक्षरों में बदलना

सभी कैरेक्‍टर एन्कोडिंग में प्रत्येक कैरेक्‍टर के लिए एक नंबर असाइन किया जाता है जिसका उपयोग किया जा सकता है। आप अभी एक कैरेक्‍टर एन्कोडिंग बना सकते हैं।

उदाहरण के लिए, मैं कह सकता हूं कि अक्षर A नंबर 13 बन जाता हैं, a = 14, 1 = 33, # = 123 और इसी तरह।

यह वह जगह है जहां उद्योग-व्यापी स्टैण्डर्ड आते हैं। यदि संपूर्ण कंप्यूटर उद्योग समान कैरेक्‍टर एन्कोडिंग स्कीम का उपयोग करता है, तो प्रत्येक कंप्यूटर समान कैरेक्‍टर प्रदर्शित कर सकता है।

 

Unicode History in Hindi

History of Unicode in Hindi- यूनिकोड इतिहास

Unicode से पहले, लेटर्स और अन्य कैरेक्‍टर्स को एक नंबर पर असाइन करने के लिए सैकड़ों अलग-अलग कैरेक्‍टर एन्कोडिंग थे जो कंप्यूटर द्वारा पढ़े जा सकते थे।

इस प्रणाली की सीमाओं का मतलब था कि यह दुनिया की सभी भाषाओं को कवर करने के लिए पर्याप्त कैरेक्‍टर्स को एनकोड नहीं कर सकती थी, और वास्तव में, सभी लेटर्स, विराम चिह्नों और तकनीकी प्रणालियों को आम उपयोग में नहीं ले सकती थी।

कैरेक्‍टर एन्कोडिंग के बीच संघर्ष का मतलब यह भी था कि दो एन्कोडिंग दो अलग-अलग कैरेक्‍टर्स के लिए एक ही संख्या का उपयोग कर सकते हैं, या एक ही कैरेक्‍टर के लिए कई संख्याएँ भी हो सकती हैं।

किसी भी कंप्यूटर को कई एन्कोडिंग को सपोर्ट करने की आवश्यकता होगी, और इस प्रणाली ने डेटा करप्‍शन की एक उच्च जोखिम को पैदा किया जब डेटा विभिन्न मशीनों से या विभिन्न एन्कोडिंग के बीच से गुजरता था।

1991 के अक्टूबर में, यूनिकोड कंसोर्टियम का लक्ष्य “कैरेक्‍टर्स को एन्कोड करने के कई सैकड़ों विरोधी तरीकों को एकजुट करना, उन्हें एक, सार्वभौमिक स्टैण्डर्ड के साथ बदलना” था और इसलिए Unicode Standard के वर्शन 1.0 को पब्लिश किया गया था।

 

Unicode Kya Hai

Basics of Unicode in Hindi – Unicode की मूल बातें

यूनिकोड हर कैरेक्‍टर के लिए एक विशिष्ट नंबर प्रदान करता है जिसमें विराम चिह्न, गणितीय सिम्‍बल, तकनीकी सिम्‍बल, एरो और गैर-लैटिन अल्फाबेट्स जैसे थाई, चीनी या अरबी लिपि के अक्षर शामिल हैं।

इसकी स्थापना के बाद से, यूनिकोड को सभी आधुनिक सॉफ्टवेयर प्रोवाइडर्स द्वारा अपनाया गया, जो बिना करप्शन के डिवाइसेस, एप्‍लीकेशन और प्लेटफार्मों के माध्यम से डेटा के ट्रांसपोर्टेशन की अनुमति देता है। यह अब सभी प्रमुख ऑपरेटिंग सिस्टम, ब्राउज़र, सर्च इंजन, लैपटॉप, स्मार्टफोन और इंटरनेट पर उपयोग किया जाता है।

Unicode को यूनिकोड कंसोर्टियम द्वारा मेंटेंन किया जाता है, जो एक गैर-लाभकारी संगठन है जो यूनिकोड स्टैंडर्ड को विकसित करने और बढ़ावा देने के लिए मौजूद है।

यूनिकोड स्टैण्डर्ड में परिवर्तन को कंसोर्टियम और अंतर्राष्ट्रीय स्टैण्डर्ड ISO / IEC 10646 दोनों द्वारा अनुमोदित किया जाना चाहिए, यह सुनिश्चित करते हुए कि कैरेक्‍टर असाइनमेंट सिंक में रखे गए हैं।

Unicode Standard और ISO/IEC 10646 तीन एन्कोडिंग फॉर्मेट को सपोर्ट करते हैं: UTF-8, UTF-16 और UTF-32। इन एन्कोडिंग रूपों में से प्रत्येक कैरेक्‍टर्स के एक सामान्य प्रदर्शनों की सूची का उपयोग करता है और एक लाख कैरेक्‍टर्स के रूप में एन्कोडिंग के लिए अनुमति देता है।

 

What Is Unicode in Hindi

यूनिकोड क्या है?

ASCII (American Standard Code for Information Interchange) पहली व्यापक एन्कोडिंग स्कीम बन गई। हालाँकि, यह केवल 128 कैरेक्‍टर परिभाषाओं तक सीमित है। यह सबसे आम अंग्रेजी कैरेक्‍टर, नंबर और विराम चिह्न के लिए ठीक है, लेकिन दुनिया के बाकी हिस्सों के लिए थोड़ा सीमित है।

स्वाभाविक रूप से, बाकी दुनिया अपने कैरेक्‍टर्स के लिए भी यही एन्कोडिंग स्कीम चाहती है। हालाँकि, थोड़े समय के लिए, जहाँ आप थे, उसके आधार पर, समान ASCII कोड के लिए एक अलग कैरेक्‍टर प्रदर्शित हो सकता है।

अंत में, दुनिया के अन्य हिस्सों ने अपनी खुद की एन्कोडिंग स्कीम्‍स बनाना शुरू कर दिया, और चीजें थोड़ी भ्रमित होने लगीं। न केवल विभिन्न लंबाई की कोडिंग स्कीम्‍स थीं, प्रोग्राम्‍स को यह पता लगाने की आवश्यकता थी कि कौन सी एन्कोडिंग स्कीम उन्हें उपयोग करने वाली थी।

यह स्पष्ट हो गया कि एक नई कैरेक्‍टर एन्कोडिंग स्कीम की आवश्यकता थी, जो कि Unicode स्टैण्डर्ड बनाया गया था। Unicode का उद्देश्य सभी विभिन्न एन्कोडिंग स्कीम को एकजुट करना है ताकि कंप्यूटर के बीच भ्रम को यथासंभव सीमित किया जा सके।

इन दिनों, Unicode स्टैण्डर्ड 128,000 से अधिक कैरेक्‍टर्स के लिए वैल्‍यू को परिभाषित करता है और इसे यूनिकोड कंसोर्टियम में देखा जा सकता है। इसके कई कैरेक्‍टर एन्कोडिंग रूप हैं:

 

UTF-8:

अंग्रेजी कैरेक्‍टर्स को एनकोड करने के लिए केवल एक बाइट (8 बिट) का उपयोग करता है। यह अन्य कैरेक्‍टर्स को एनकोड करने के लिए बाइट्स के अनुक्रम का उपयोग कर सकता है। UTF-8 का उपयोग ईमेल सिस्टम और इंटरनेट पर व्यापक रूप से किया जाता है।

 

UTF-16:

सबसे अधिक उपयोग किए जाने वाले कैरेक्‍टर्स को एनकोड करने के लिए दो बाइट्स (16 बिट्स) का उपयोग करता है। यदि आवश्यक हो, तो अतिरिक्त कैरेक्‍टर्स को 16-बिट नंबर्स की एक जोड़ी द्वारा दर्शाया जा सकता है।

 

UTF-32:

कैरेक्‍टर्स को एनकोड करने के लिए चार बाइट्स (32 बिट्स) का उपयोग करता है। यह स्पष्ट हो गया कि जैसे ही यूनिकोड स्टैण्डर्ड बढ़ा, सभी कैरेक्‍टर्स का प्रतिनिधित्व करने के लिए 16-बिट नंबर बहुत कम है। UTF-32 एक नंबर के रूप में हर यूनिकोड कैरेक्‍टर का प्रतिनिधित्व करने में सक्षम है।

नोट: UTF का अर्थ है Unicode Transformation Unit

 

Unicode Meaning in Hindi

Meaning of Unicode in Hindi – यूनिकोड क्या है?

यूनिकोड एक यूनिवर्सल कैरेक्‍टर एन्कोडिंग स्टैण्डर्ड है जिसका उपयोग नॉनर-ASCII लिपियों में कैरेक्‍टर्स को सपोर्ट करने के लिए किया जाता है। इंटरनेट मूल रूप से ASCII पर बनाया गया था, जो अंग्रेजी कैरेक्‍टर पर आधारित है और इसमें केवल 128 अक्षर हैं।

यूनिकोड दुनिया भर की सभी भाषाओं और उनके अद्वितीय कैरेक्‍टर सेटों के सपोर्ट की अनुमति देता है – यूनिकोड 1 मिलियन से अधिक कैरेक्‍टर्स को सपोर्ट कर सकता है! जिस तरह से यूनिकोड काम करता है वह अधिक बिट्स की अनुमति देता है, binary digit के लिए शॉर्ट है, जो एक मशीन पर इनफॉर्मेशन का यूनिट हैं।

ASCII कैरेक्‍टर्स को केवल 7 बिट्स की आवश्यकता होती है, जबकि यूनिकोड 16 बिट्स का उपयोग करता है। यह आवश्यक है क्योंकि यह चीनी, अरबी और रूसी जैसी भाषाओं को रिसोर्स करने के लिए अधिक बिट लगते है।

UTF -8 और UTF -16, दो सबसे आम Unicode के विभिन्न प्रकार हैं। UTF-8 वेब पर उपयोग किया जाने वाला विशिष्ट स्टैण्डर्ड बन गया है क्योंकि यह कैरेक्‍टर के आधार पर उपयोग की जाने वाली बिट्स की नंबर को एडजस्‍ट करता है। इसका अर्थ है कि UTF-8 में ASCII कैरेक्‍टर केवल उन बिट्स को लेते हैं जिनकी उन्हें प्रोसेस करने की आवश्यकता होती है।

 

What is Unicode? and Why do I need to use Unicode?

यूनिकोड क्या है? और मुझे यूनिकोड का उपयोग करने की आवश्यकता क्यों है?

यूनिकोड एक यूनिवर्सल कैरेक्‍टर एन्कोडिंग स्टैण्डर्ड है। यह टेक्‍स्‍ट फ़ाइलों, वेब पेजों और अन्य प्रकार के डयाक्‍युमेंट में व्यक्तिगत कैरेक्‍टर का प्रतिनिधित्व करने के तरीके को परिभाषित करता है।

ASCII के विपरीत, जिसे केवल मूल अंग्रेजी कैरेक्‍टर्स का प्रतिनिधित्व करने के लिए डिज़ाइन किया गया था, यूनिकोड को दुनिया भर की सभी भाषाओं के कैरेक्‍टर्स को सपोर्ट करने के लिए डिज़ाइन किया गया था।

Standard ASCII कैरेक्‍टर सेट केवल 128 कैरेक्‍टर्स को सपोर्ट करता है, जबकि यूनिकोड लगभग 1,000,000 कैरेक्‍टर्स को सपोर्ट कर सकता है। जबकि ASCII प्रत्येक कैरेक्‍टर का प्रतिनिधित्व करने के लिए केवल एक बाइट का उपयोग करता है, यूनिकोड प्रत्येक कैरेक्‍टर के लिए 4 बाइट्स को सपोर्ट करता है।

यूनिकोड एनकोडिंग के कई अलग-अलग प्रकार हैं, हालांकि UTF-8 और UTF-16 सबसे आम हैं। UTF-8 वेब पर उपयोग किया जाने वाला स्टैण्डर्ड कैरेक्‍टर एन्कोडिंग बन गया है और कई सॉफ़्टवेयर प्रोग्राम द्वारा उपयोग की जाने वाली डिफ़ॉल्ट एन्कोडिंग भी है। जबकि UTF-8 प्रति कैरेक्‍टर चार बाइट्स को सपोर्ट करता है, अक्सर उपयोग किए जाने वाले कैरेक्‍टर्स का प्रतिनिधित्व करने के लिए चार बाइट्स का उपयोग करना अक्षम होगा। इसलिए, UTF-8 आम अंग्रेजी कैरेक्‍टर्स का प्रतिनिधित्व करने के लिए केवल एक बाइट का उपयोग करता है। यूरोपीय (लैटिन), हिब्रू और अरबी कैरेक्‍टर्स को दो बाइट्स के साथ दर्शाया जाता है, जबकि तीन बाइट्स चीनी, जापानी, कोरियाई और अन्य एशियाई कैरेक्‍टर के लिए उपयोग किए जाते हैं। अतिरिक्त यूनिकोड कैरेक्‍टर्स को चार बाइट्स के साथ दर्शाया जा सकता है।

 

The importance of Unicode

Advantage of Unicode in Hindi – यूनिकोड का महत्व

यूनिकोड अधिक क्षेत्रीय रूप से लोकप्रिय एन्कोडिंग सिस्टम को सपोर्ट करने के लिए एक तंत्र का प्रतिनिधित्व करता है – जैसे कि यूरोप में ISO-8859 वेरिएंट, जापान में Shift -JIS, या चीन में BIG-5।

अनुवाद / स्थानीयकरण के दृष्टिकोण से, Unicode स्टैंडर्डडाइज़ेशन की ओर एक महत्वपूर्ण कदम है, कम से कम एक टूल और फ़ाइल फॉर्मेट के दृष्टिकोण से।

Unicode एक सिंगल सॉफ्टवेयर प्रोडक्‍ट या एक सिंगल वेबसाइट को कई प्लेटफार्मों, भाषाओं और देशों (री-इंजीनियरिंग की कोई आवश्यकता नहीं) के लिए डिज़ाइन करने में सक्षम बनाता है जिससे विरासत कैरेक्‍टर सेट के उपयोग पर लागत में उल्लेखनीय कमी आ सकती है।

यूनिकोड डेटा का उपयोग बिना डेटा करप्शन के कई अलग-अलग सिसटम के माध्यम से किया जा सकता है।

यूनिकोड सभी भाषाओं और कैरेक्‍टर के लिए सिंगल एन्कोडिंग स्कीम का प्रतिनिधित्व करता है।

अन्य कैरेक्‍टर एन्कोडिंग स्कीम के बीच रूपांतरण में यूनिकोड एक कॉमन पॉइंट है। चूंकि यह अन्य सामान्य कैरेक्‍टर एन्कोडिंग सिस्टम के सभी का एक सुपरसेट है, आप एक एन्कोडिंग स्कीम से यूनिकोड में परिवर्तित कर सकते हैं, और फिर यूनिकोड से अन्य एन्कोडिंग स्कीम के लिए।

यूनिकोड एक पसंदीदा एन्कोडिंग स्कीम है जिसका उपयोग XML- आधारित टूल और एप्लिकेशन द्वारा किया जाता है।

 

The Unicode Standard

Standard of Unicode in Hindi – यूनिकोड मानक

यूनिकोड स्टैण्डर्ड यूनिवर्सल कैरेक्‍टर-एन्कोडिंग स्टैण्डर्ड है जो कंप्यूटर प्रोसेसिंग के लिए टेक्‍स्‍ट के प्रतिनिधित्व के लिए उपयोग किया जाता है।

यूनिकोड स्टैण्डर्ड के वर्शन International Standard ISO/IEC 10646 के कॉरस्पान्डिंग वर्शन के साथ पूरी तरह से कम्पेटिबल और सिंक्रनाइज़ हैं, जो यूनिवर्सल कैरेक्टर सेट कैरेक्‍टर एन्कोडिंग को परिभाषित करता है।

दूसरे शब्दों में, यूनिकोड में ISO / IEC 10646: 2003 के समान सभी कैरेक्‍टर और एन्कोडिंग पॉइंट हैं और 96,447 कैरेक्‍टर्स के लिए कोड प्रदान करता है, जो दुनिया के सभी अल्फाबेट्स, आइडिओग्राम्‍स और सिम्‍बल को डिकोड करने के लिए पर्याप्त से अधिक है।

यह प्‍लैटफॉर्म, प्रोग्राम और लैग्‍वेज इंडिपेंडेंट है।

हालांकि, Unicode प्‍लेन टेक्‍स्‍ट का प्रतिनिधित्व करने के लिए एक स्टैण्डर्ड स्कीम है – यह समृद्ध टेक्‍स्‍ट का प्रतिनिधित्व करने के लिए एक स्कीम नहीं है।

 

Code Points

Code Points of Unicode in Hindi – कोड पॉइंट

एक कोड पॉइंट वह वैल्‍यू है जो एक कैरेक्‍टर यूनिकोड स्टैण्डर्ड में दिया गया है। यूनिकोड के अनुसार वैल्‍यू हेक्साडेसिमल नंबर्स के रूप में लिखे गए हैं और इसमें U+ का उपसर्ग है।

उदाहरण के लिए, जिन कैरेक्‍टर्स को हमने पहले देखा था, उन्हें एनकोड करने के लिए:

A = U + 0041 है

a = + U + 0061 है

1 = U + 0031 है

# = U + 0023 है

इन कोड पॉइंट को 17 अलग-अलग वर्गों में विभाजित किया जाता है जिन्हें प्लेन कहा जाता है, जिन्हें 0 से 16 के माध्यम से पहचाना जाता है। प्रत्येक प्लेन में 65,536 कोड पॉइंट होते हैं। पहला प्‍लेन, 0, सबसे अधिक इस्तेमाल किया जाने वाला कैरेक्‍टर रखता है और इसे Basic Multilingual Plane (BMP) के रूप में जाना जाता है।

 

Code Units

Code Units of Unicode in Hindi – कोड यूनिट

एन्कोडिंग स्कीम कोड यूनिट से बनती हैं, जिनका उपयोग एक सूचकांक प्रदान करने के लिए किया जाता है जहां एक कैरेक्‍टर को एक प्‍लेन पर तैनात किया जाता है।

उदाहरण के तौर पर UTF-16 पर विचार करें। प्रत्येक 16-बिट नंबर एक कोड यूनिट है। कोड यूनिट को कोड पॉइंट में बदला जा सकता है। उदाहरण के लिए, फ्लैट नोट सिम्‍बल ♭ में U + 1D160 का एक कोड पॉइंट होता है और यह यूनिकोड स्टैण्डर्ड (पूरक आइडियोग्राफिक प्लेन) के दूसरे प्लेन पर रहता है। इसे 16-बिट कोड यूनिट U + D834 और U + DD60 के संयोजन का उपयोग करके एन्कोड किया जाएगा।

BMP के लिए, कोड पॉइंट और कोड यूनिट के मूल्य समान हैं। यह UTF-16 के लिए एक शॉर्टकट की अनुमति देता है जो बहुत सारी स्‍टोरेज स्‍पेस बचाता है। उन कैरेक्‍टर्स का प्रतिनिधित्व करने के लिए केवल एक 16-बिट नंबर का उपयोग करना होगा।

Unicode in Hindi, Unicode Kya Hai, Unicode for Hindi, Unicode to Hindi, Unicode for Hindi font, Unicode Hindi font