OCR क्या है और यह कैसे काम करता है?

6308

OCR Full From- OCR Hindi

OCR Full From: OCR in Hindi

कंप्यूटर्स को सबसे ज्यादा तब काम करना पड़ता है, जब अधिक ह्यूमन टाइप की इनफॉर्मेशन को प्रोसेस करना पड़ता है, जैसे फाउंटन पेन या पुराने फ़ैशन प्रिंटेड बुक्‍स। यह वह जगह है जहां Optical Character Recognition हमारे बचाव में आता है। यह उपयोगी तकनीक प्रिंटेड या हैंडराइटिंग टेक्‍स्‍ट को एनालाइज़ करती है और उसे एक ऐसे फॉर्म में बदलती है जिसे कंप्यूटर समझता है। यह आर्टिकल इस बारे में और जानकारी देता है कि यह तकनीक कैसे काम करती है और यह बहुत उपयोगी क्यों है।

 

OCR Full Form

OCR Full From is – Optical Character Recognition

 

Full Form of OCR

Full Form of OCR is – Optical Character Recognition

 

OCR Full Form in Hindi

OCR Ka Full Form हैं – ऑप्टिकल कैरेक्टर रिकॉग्निशन / Optical Character Recognition

 

OCR Full Form in Computer

Computer में OCR Ka Full Form हैं – Optical Character Recognition – ऑप्टिकल कैरेक्टर रिकॉग्निशन

 

What Is OCR in Hindi:

दोस्तों, यदि आप पहले से ही एक डॉक्यूमेंट स्कैनर से लैस कार्यालय में काम करते हैं, तो आप शायद एक बार से अधिक OCR का उपयोग कर चुके हैं। लेकिन OCR क्या है और इसका उपयोग किस लिए किया जाता है? यह लेख बताता है कि OCR का क्या मतलब है और आपके सभी सवालों को कवर करता है।

OCR या Optical Character Recognition, एक तकनीक है जो आपको विभिन्न प्रकार के डयॉक्‍युमेंटस् को कन्‍वर्ट करना एनेबल करती है। इस टेक्‍नोलॉजी से स्कैन किए गए पेपर डयॉक्‍युमेंटस्, पीडीएफ फाइलें या एक डिजिटल कैमरे से लिए गए इमेजेस को एडिट और सर्च करने योग्य डेटा में कन्‍वर्ट किया जा सकता हैं।

तकनीकी रूप से, OCR, हैंडराइटिंग, प्रिंटेड या टाइप किए गए टेक्‍स्‍ट कि इमेजेस के इलेक्ट्रॉनिक या मैकेनिकल वर्जन को मशीन-एन्कोडेड टेक्स्ट में कन्‍वर्ट करते हैं।

 

Meaning of OCR in Hindi

OCR का मतलब Optical Character Recognition हैं।

 

OCR Kya Hai in Hindi

कल्पना करो कि आपके पास एक पेपर डयॉक्‍युमेंट है – उदाहरण के लिए, मैगज़ीन, आर्टिकल, ब्रोशर, या किसी ने ईमेल से आपको भेजे हुए पीडीएफ़। जाहिर है, इन डयॉक्‍युमेंटस् को स्‍कैन करने पर आप उस इनफॉर्मेशन को माइक्रोसॉफ्ट वर्ड में एडिट नहीं कर सकते। क्योंकि सभी स्‍कैनर डयॉक्‍युमेंट को इमेज में कन्‍वर्ट करते हैं, जो केवल एक ब्‍लैंक एंड वाइट या कलर डॉटस् के एक कलेक्‍शन से ज्यादा कुछ नहीं है, जिसे रास्टर इमेज के रूप में जाना जाता है।

इन इमेजेस से टेक्‍स्‍ट या नंबर्स को फिर से एक्‍सट्रैक्‍ट करने के लिए आपको OCR सॉफ्टवेयर की जरूरत होगी। OCR इमेजेस से टेक्‍स्‍ट को बाहर करता हैं, उन्हें शब्दों में डालता हैं और फिर इन शब्दों के वाक्य बनाता हैं, जिसे आप वर्ड में एडिट कर सकते हैं।

इस तकनीक का उपयोग विभिन्न प्रकार के पेपर डेटा रिकॉर्ड से डेटा एंट्री के लिए व्यापक रूप से किया जाता है। इसे चालान, पासपोर्ट डयॉक्‍युमेंट बिज़नेस कार्ड, लेटर्स या प्रिंटआउट को डिजिटाइज़ करने के लिए इस्तेमाल किया जाता हैं।

जब टेक्‍स्‍ट को डिजिटाइज़ किया जाता है, तो इसे इलेक्ट्रॉनिक रूप से सर्च और एडिट किया जा सकता है, अधिक कॉम्पैक्टली स्‍टोर किया जाता है, और ऑनलाइन डिस्‍प्‍ले किया जा सकता है।

यह टेक्स्ट-टू-स्पीच, मशीन ट्रांसलेशन और टेक्स्ट माइनिंग जैसे मशीन प्रोसेस में डेटा के उपयोग को एनेबल बनाता है।

 

How Does OCR Work in Hindi

OCR Full From – OCR in Hindi – OCR कैसे काम करता है:

जब एक प्रिंटेड या हैंडराइटिंग पेज को स्कैन किया जाता है, तो उसे JPG या TIF फॉर्मेट फ़ाइल के रूप में सेव किया जाता है। इस इमेज को ओपन कर आप मॉनिटर पर इसके अंदर के टेक्‍स्‍ट को पढ़ सकते हैं। हालांकि, कंप्यूटर के लिए यह केवल ब्‍लैंक एंड वाइट डॉटस् की सीरीज है।

इसका मतलब है कि स्‍कैन किए गए डयॉक्‍युमेंट के सभी टेक्‍स्‍ट आपके कंप्यूटर के लिए केवल एक डॉट्स की एक इमेज है।

OCR सॉफ्टवेयर इन इमेजेस की हर लाइन को देखता है और यह निर्धारित करता है कि डॉट्स की यह सीरीज एक विशेष नंबर या टेक्‍स्‍ट से मेल खाती है।

 

Hindi OCR Software

आज कई सॉफ्टवेयर भी उपलब्‍ध हैं, जो हिंदी में स्‍कैन किए गए डयॉक्‍युमेंट को हिंदी एडिटेबल और सर्चेबल टेक्‍स्‍ट में कन्‍वर्ट कर सकते हैं। लेकिन यह सभी पेड़ वर्जन हैं।

 

Technology in OCR

OCR के पीछे कौन सी तकनीक है?

ऑप्टिकल कैरेक्टर रिकग्निशन, या OCR, एक ऐसी तकनीक है जो आपको विभिन्न प्रकार के डॉक्यूमेंट को बदलने में सक्षम बनाती है, जैसे स्कैन किए गए पेपर डॉक्यूमेंट, PDF फ़ाइलें या डिजिटल कैमरा द्वारा कैप्चर की गई इमेज एडिटेबल और सर्च करने योग्य डेटा में।

कल्पना कीजिए कि आपके पास एक पेपर डॉक्यूमेंट है – उदाहरण के लिए, मैगज़ीन आर्टिकल, ब्रोशर या आपके पार्टनर ने ईमेल से भेजा हुआ PDF कौन्‍ट्रैक्‍ट। जाहिर है, Microsoft Word में इन इनफॉर्मेशन को एडिट करने के लिए एक स्कैनर पर्याप्त नहीं है। सभी स्कैनर जो कर सकते हैं, वह एक इमेज या डॉक्यूमेंट का एक स्नैपशॉट बना सकता है जो कि काले और सफेद या रंगीन डॉट्स के संग्रह से अधिक कुछ नहीं है, जिसे एक रेखापुंज इमेज के रूप में जाना जाता है। स्कैन किए गए डॉक्यूमेंट, कैमरा इमेज या इमेज-पीडीएफ से डेटा को एक्सट्रेक्ट करने के लिए, आपको एक OCR सॉफ़्टवेयर की आवश्यकता होगी जो इमेज पर अक्षरों को एकल कर देगा, उन्हें शब्दों में और फिर – शब्दों को वाक्य में डाल देगा, इस प्रकार आपको एक्सेस करने में सक्षम होगा। इस तरह से आप मूल डॉक्यूमेंट के कंटेंट को एडिट कर सकते हैं।

 

How Does OCR Work

OCR Hindi

Working of OCR in Hindi- कैसे काम करता है OCR

जब कोई प्रिंटेड या हस्तलिखित पेज स्कैन किया जाता है, तो उसे TIF फॉर्मेट की बिट-मैप की गई फ़ाइल के रूप में सेव किया जाता है। हम इस इमेज को स्क्रीन पर डिस्‍प्‍ले होने पर पढ़ सकते हैं। हालांकि, कंप्यूटर के लिए, यह केवल सफेद और काले डॉट्स की एक श्रृंखला है। यह इमेज की प्रत्येक पंक्ति को देखता है और निर्धारित करता है कि डॉट्स की श्रृंखला किसी विशेष संख्या या अक्षर से मेल खाती है या नहीं।

ऑप्टिकल कैरेक्टर रिकॉग्निशन में दो अलग-अलग तकनीक (या एल्गोरिदम) हैं: Pattern Recognition और Feature Extraction। अब इन तकनीक को थोड़ा और अधिक विस्तार से जानते है।

 

Pattern Recognition

सॉफ़्टवेयर में स्‍टोर कैरेक्‍टर का मैट्रिक्स। नतीजतन, इस तकनीक को pattern matching या matrix matching के रूप में भी जाना जाता है। इस तकनीक का दोष यह है कि यह इनपुट कैरेक्‍टर और स्‍टोर किए गए कैरेक्‍टर पर समान फ़ॉन्ट और समान स्‍केल पर निर्भर करता है।

इस इमेज को देखें – यह OCR – OCR-A – के लिए 1960 के दशक में बनाया गया पहला फॉन्ट था, जहाँ हर अक्षर की चौड़ाई समान थी। बैंकिंग कंप्यूटरों को संसाधित करने की अनुमति देने के लिए इस फ़ॉन्ट का उपयोग करके सभी चेक प्रिंट किए गए थे!

 

Feature Extraction

यह एक बहुत अधिक परिष्कृत तरीके से कैरेक्‍टर को पहचानता है। यह लाइनों, क्‍लोज लूप, लाइन दिशाओं और इंटरसेक्‍शन जैसे फीचर्स में कैरेक्‍टर को विघटित करता है।

एक उदाहरण के रूप में लेटर A को लें। यदि कंप्यूटर शीर्ष पर मिलने वाली दो कोण रेखाओं को देखता है, और दोनों रेखाएँ मध्य में एक क्षैतिज रेखा से जुड़ती हैं, तो वह अक्षर A है।

इस तरह के नियमों का उपयोग करके, प्रोग्राम उस कैपिटल के ‘A’ की पहचान कर सकता है, भले ही वह किसी भी फ़ॉन्ट में लिखा गया हो।

 

Pre-processing to improve text recognition

टेक्‍स्‍ट पहचान में सुधार के लिए पूर्व-प्रसंस्करण

टेक्‍स्‍ट को प्रभावी ढंग से पहचानने के लिए, सॉफ़्टवेयर को तकनीक का उपयोग करके इमेज को पूर्व-संसाधित करना होगा:

De-skew – टेक्‍स्‍ट की पंक्तियों को पूरी तरह से क्षैतिज या ऊर्ध्वाधर बनाने के लिए इमेज को कुछ डिग्री तक tilting करना

Despeckle – स्पॉट को हटाना और कैरेक्‍टर के किनारों को चिकना करना

Character isolation – स्प्लिट टचिंग कैरेक्टर जो एक दूसरे में ब्लीड हो सकते हैं

Layout analysis – टेक्‍स्‍ट स्थिति, कॉलम और पैराग्राफ की पहचान करना

Line removal – ओवरलाइनिंग लाइन या बॉक्स को हटाना

अधिक परिष्कृत सॉफ्टवेयर पोस्ट-प्रोसेसिंग चरणों का भी संचालन करता है। सॉफ्टवेयर उत्तोलक आउटपुट को एक लेक्सिकॉन (अनुमति प्राप्त कैरेक्‍टर का एक शब्दकोश) से मिलाएगा, या पड़ोसी के शब्दों का पहचान करने के लिए पास-पास विश्लेषण करेगा, जो आमतौर पर एक साथ देखे जाते हैं (उदाहरण के लिए, “living doom” वाक्यांश “living room”, में आटोमेटिकली सही हो जाएगा क्योंकि living और room शब्द अक्सर एक साथ होते हैं)।

 

Advantages of OCR in Hindi

1) डेटा को सर्च करना और मनिप्‍युलेट करना:

स्कैन किए गए डयॉक्‍युमेंट का टेक्‍स्‍ट वर्जन बनाने कि OCR की क्षमता से टेक्‍स्‍ट को सर्च करना और डयॉक्‍युमेंट में वर्ड के किसी सेट को लोकेट करना संभव बन गया हैं।

यह आपको वर्ड प्रोसेसर के माध्यम से डयॉक्‍युमेंट को एडिट करने की सुविधा भी देता है।

 

2) ब्लाइंड और दृष्टिहीन कि सहायता:

स्क्रीन रीडर मशीन-रिडेबल टेक्‍स्‍ट को डीकोड कर सकते हैं और नेत्रहीन लोगों को समझने के लिए स्क्रीन पर दिए गए शब्द पढ़ सकते हैं।

 

3) फास्ट डेटा एंट्री:

आम तौर पर, OCR ऑफिस के काम की प्रभावशीलता और दक्षता में काफी सुधार कर सकता है। इसका कारण यह है कि किसी भी ऑफिसेस में, हाइ डयॉक्‍युमेंट इन्फ्लो के साथ बहुत ज्यादा स्कैनिंग हो रही है, और ऐसी तकनीकों की बहुत ज़रूरत है जो काम को तेज़ बनाते हैं।

 

OCR सॉफ्टवेयर आपके लिए क्या कर सकता है?

यदि आप एक इमेज-बेस्‍ड स्कैन किए गए पीडीएफ़ को सर्च करने योग्य और एडिट करने योग्य बनाना चाहते हैं, तो आपको केवल एक सही OCR सॉफ्टवेयर कि जरूरत हैं।

LEAVE A REPLY

Please enter your comment!
Please enter your name here

This site uses Akismet to reduce spam. Learn how your comment data is processed.