देवनागरी OCR

Submitted by जयदीप चिपलकट्टी on रविवार, 30/04/2017 - 06:26

या धाग्याचा इवलासा हेतू असा की ‘देवनागरी OCR’ ह्या प्रकाराचा कुणाला प्रत्यक्ष अनुभव असेल तर तो किती बरा किंवा वाईट आहे ते कळावं.

OCR चा अर्थ Optical Character Recognition. म्हणजे समजा मराठी वर्तमानपत्रातल्या एखाद्या लेखाचा फोटो काढून कंप्यूटरमध्ये टाकला तर OCR सॉफ्टवेअरला त्या फोटोकडे पाहून त्यातले शब्द आणि अक्षरं यांची फोड करता यायला हवी, आणि त्या लेखाची text file तयार करता यायला हवी. अशा प्रकारचं तंत्रज्ञान रोमन लिपीसाठी कित्येक वर्षांपासून उपलब्ध आहे, पण देवनागरीत आहे का आणि असल्यास किती चांगलं काम करतं हे मला ठाऊक नाही. (संपादकीण बाईंनाही ह्या विषयात रस आहे.) इथे ‘चांगलं’ ह्याचा निकष असा की बाहेर येणाऱ्या text file मध्ये चुका खूप कमी असायला हव्यात.

ह्या प्रांतातली नेहमीची अडचण अशी की देवनागरी अक्षरं रोमन लिपीपेक्षा गुंतागुंतीची असल्यामुळे (आणि अर्थात जोडाक्षरं असल्यामुळे) ती अोळखायला कंप्यूटरला ‘शिकवणं’ अवघड जातं. हस्ताक्षर अोळखणं तर सोडाच पण छापील मजकूर अोळखणंही तितकंसं सोपं नसतं. पण जर हे करता आलं तर खूप मोठी सोय होईल, आणि digital humanities ही जी ज्ञानशाखा आहे तिच्यात मराठी-हिंदीला शिरता येईल.

पण ते एक असो. वर म्हटल्याप्रमाणे अशासारखा प्रकार कुणी प्रत्यक्ष वापरून पाहिलेला असेल तर कृपया आपला अनुभव सांगावा.

field_vote:

No votes yet

Log in or register to post comments
13086 reads

हीण नको.

Permalink Submitted by ३_१४ विक्षिप्त अदिती on रविवार, 30/04/2017 - 08:13.

मला 'ईण' प्रत्ययान्त शब्दांमध्ये काही रस नाही. मी OCR बनवून तर त्यात असे शब्द बॅन करून टाकेन.

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

+१

Permalink Submitted by धनंजय on सोमवार, 01/05/2017 - 04:56.

+१

वाचतो आहे.

Permalink Submitted by आदूबाळ on रविवार, 30/04/2017 - 11:41.

वाचतो आहे.

माझ्या माहितीप्रमाणे मराठीसाठी ओसीआर उपलब्ध नाही.

बादवे - ओसीआरचा अल्गोरिदम नेमका कसा असतो? C हे अक्षर Cच आहे, O किंवा E नाही हे संगणकाला कसं पटवतात?

********
It is better to have questions which don't have answers, than having answers which cannot be questioned.

ओसीआरचा अल्गोरिदम नेमका कसा

Permalink Submitted by बॅटमॅन on रविवार, 30/04/2017 - 13:51.

ओसीआरचा अल्गोरिदम नेमका कसा असतो? C हे अक्षर Cच आहे, O किंवा E नाही हे संगणकाला कसं पटवतात?

ढोब‌ळ आय‌ड्या खालील‌प्र‌माणे.

अगोद‌र‌ जी टार्गेट लिपी आहे त्यात‌ले ऑल पॉसिब‌ल‌ ग्लिफ्स‌/सिम्बॉल्स‌ जे आहेत त्यांची एक लिस्ट ब‌न‌वाय‌ची. म्ह‌ण‌जे अ ते ज्ञ, प्र‌त्येकाची सुटी बाराख‌डी आणि शिवाय जोडाक्ष‌रे व त्यांचीही बाराख‌डी. या प्र‌त्येक सिम्बॉल‌चे व्हॅरियंट्स फीड क‌राय‌चे, उदा. अ हे अक्ष‌र‌ चार‌पाच‌ फॉण्टांत लिहिलेले वाप‌रायचे.

डेटासेट‌ची फीच‌र्स‌ खालील‌प्र‌माणे.

व‌रील‌प्र‌माणे प्र‌त्येक सिम्बॉल‌ची इमेज‌ आणि त्याचे लेब‌ल. (अ आ ई इ.इ.) ही एक रो झाली. इमेज म्ह‌. त्यात‌ले अनेक फीच‌र्स व‌गैरे. उदा. अक्ष‌र‌ अ साठी.

फीच‌र‌ १ फीच‌र‌ २..... फीच‌र‌ न लेब‌ल‌
१ ०-------------- १ अ

किंवा १-० च्या ऐव‌जी काही न्युम‌रिक व्हॅल्यूज‌ ऑब्टेन्ड आफ्ट‌र इमेज प्रोसेसिंग‌.

प्र‌त्येक सिम्बॉल‌साठीची अशी रो अस‌ते. असे स‌ग‌ळे क‌रून म‌ग तो डेटासेट स‌ज‌वाय‌चा. स‌ज‌व‌ल्याव‌र त्याव‌र‌ न्यूर‌ल‌ नेट‌व‌र्क‌सार‌खे अल्गोरिद‌म वाप‌रून ते नेट‌व‌र्क ट्रेन क‌राय‌चे- की ही फीच‌र्स अस‌तील, या फीच‌र्स‌ची व्हॅल्यू त‌मुक‌ रेंज‌म‌ध्ये असेल त‌र मोस्ट लाईक‌लि लेब‌ल हे असेल व‌गैरे. क्रॉस‌व्हॅलिडेश‌न‌ व‌गैरे टेक्निक्स वाप‌रून‌ नेट‌व‌र्क अधिकाधिक रिफाईन क‌र‌त जाय‌चे.

एक‌दा या ट्रेनिंग डेटासेट‌व‌र‌ती नेट‌व‌र्क ट्रेन झाले पुरेसे की म‌ग न‌ये टेस्ट डेटा पे उस‌की टेस्ट घ्याय‌ची. ट्रेनिंग डेटासेट जित‌का वैविध्य‌पूर्ण तित‌कीच टेस्ट डेटाव‌र त्याची अॅक्युर‌सी उत्त‌म‌.

लिपी कुठ‌लीही असो, ओसीआर‌चा अल्गोरिद‌म सामान्य‌त: असाच अस‌तो.

माहिष्मती साम्राज्यं अस्माकं अजेयं

अगोद‌र‌ जी टार्गेट लिपी आहे

Permalink Submitted by आदूबाळ on रविवार, 30/04/2017 - 16:38.

अगोद‌र‌ जी टार्गेट लिपी आहे त्यात‌ले ऑल पॉसिब‌ल‌ ग्लिफ्स‌/सिम्बॉल्स‌ जे आहेत त्यांची एक लिस्ट ब‌न‌वाय‌ची. म्ह‌ण‌जे अ ते ज्ञ, प्र‌त्येकाची सुटी बाराख‌डी आणि शिवाय जोडाक्ष‌रे व त्यांचीही बाराख‌डी. या प्र‌त्येक सिम्बॉल‌चे व्हॅरियंट्स फीड क‌राय‌चे, उदा. अ हे अक्ष‌र‌ चार‌पाच‌ फॉण्टांत लिहिलेले वाप‌रायचे.

याऐवजी उलटा प्रकार केला तर? प्रत्येक अक्षर डिफाईन‌ क‌र‌णारे "किमान‌ गुण‌ध‌र्म‌" शोधून‌ काढाय‌चे. म्ह‌ण‌जे, मिनिम‌म‌ ठिप‌के वाप‌रून‌ ते अक्ष‌र‌ डिफाईन‌ क‌राय‌च‌ं.
उदा० "न‌" चे किमान‌ गुण‌ध‌र्म‌ --> ··: (शिरोरेषा प्र‌त्येक‌ अक्ष‌राव‌र‌ अस‌तेच‌, त्यामुळे त्याची डेफिनिश‌न‌ नाही केली त‌री चालाव‌ं.) हा पॅट‌र्न‌ पाहिला की अल्गोरिद‌म‌ने हा 'न‌' आहे असं ओळ‌खाव‌ं.

म‌ग‌ फॉन्ट‌ कोण‌ताही असो (किंवा म‌ग‌ अग‌दी ह‌स्ताक्ष‌र‌ असो) - हे गुण‌ध‌र्म‌ तेच‌ राह‌णार‌. हे 'व्हेरिय‌ंट‌ - इन्डिपेन्ड‌न्ट‌' ओसीआर होईल‌. माण‌साचा मेंदूही अक्ष‌र‌ असंच‌ ओळ‌ख‌त‌ असावा.

********
It is better to have questions which don't have answers, than having answers which cannot be questioned.

माण‌साचा मेंदूही अक्ष‌र‌ असंच

Permalink Submitted by अभ्या.. on रविवार, 30/04/2017 - 17:02.

माण‌साचा मेंदूही अक्ष‌र‌ असंच‌ ओळ‌ख‌त‌ असावा.

क‌दाचित त‌सेच ओळ‌ख‌त असावा.
प‌त्रिका छापाय‌च्या निमित्ताने मि क‌न्न‌ड टाय‌पिंग शिक‌लो. शिक‌लो म्ह‌न‌जे श्रीलिपीला ज्या किबोर्ड लेआऊट‌ने देव‌नाग‌रि होते त्याच लेआऊट‌ने क‌न्न‌ड होते. फॉन्ट चेंज क‌राय‌चा फ‌क्त्. एव‌ढ्याने संप‌ले नाही. ५० ट‌क्के ब‌रोब‌र असाय‌चं. क‌रेक्ट क‌र‌ताना क‌न्न‌ड येणारा सांगाय‌चा "ते आ क‌रा अ न‌को" म‌ग त्यात‌ला आ कोण‌ता ते सरावाने ल‌क्शात येउ लाग‌ले. वेलांटि म्ह‌ण‌जे अक्षराला नुस‌ता काना देऊन एक टोपी ब‌स‌व‌णे न‌व्हे. क‌न्न‌ड अक्षरांचा क‌र्व‌च (स्व‌रुप्) ब‌द‌ल‌तो. जोडाक्श‌रे प‌ण त‌सेच. म‌राठिप्र‌माणे नाही होत‌. (अर्थात हे स‌र्व भाष्हेनुसार नाहीच्. म‌ला ते स‌र्व चित्रेच वाटाय‌ची. व‌ळ‌णे, ठिप‌के, रिपिटेश‌न अशा ग्राफिक मेथ‌ड‌ने हे टाय‌पिंग शिक‌त गेलो.)
अग‌दिच एखादे कॅरेक्ट‌र ज‌म‌लेच नाहि त‌र ते कोर‌ल‌म‌ध्ये क्रियेट क‌रुन सीम‌लेस घुस‌व‌ण्याचा प्र‌कार प‌ण क‌रुन पाह्य‌ला.
क‌धी क‌धी वाट‌ते पेंट‌र ज्या प‌ध्द‌तीने अक्ष्ह‌रे घ‌ट‌व‌तात तिच मेथ‌ड वाप‌रावी. किंवा टाय‌पोग्राफी मेथ‌ड‌ने.

ते गुण‌ध‌र्म‌च‌ फीड केले

Permalink Submitted by बॅटमॅन on सोमवार, 01/05/2017 - 00:30.

ते गुण‌ध‌र्म‌च‌ फीड केले जातात‌ रे. वेग‌वेग‌ळ्या फॉण्टात‌ले गुण‌ध‌र्म वेग‌ळे अस‌ले त‌री लेब‌ल एक‌च‌ आहे हे त्या न्यूर‌ल‌ नेट‌व‌र्क‌ला अगोद‌र‌च सांगित‌ले जाते, त्या हिशेबाने मॉडेल म‌ग अॅड‌ज‌स्ट केल्या जाते.

माहिष्मती साम्राज्यं अस्माकं अजेयं

अर्धे क‌ळ‌ले. अर्धे नाही. प‌ण

Permalink Submitted by सामो on सोमवार, 01/05/2017 - 00:41.

अर्धे क‌ळ‌ले. अर्धे नाही. प‌ण रोच‌क‌ आहे.

साधारण कल्पना

Permalink Submitted by ३_१४ विक्षिप्त अदिती on सोमवार, 01/05/2017 - 20:39.

बादवे - ओसीआरचा अल्गोरिदम नेमका कसा असतो? C हे अक्षर Cच आहे, O किंवा E नाही हे संगणकाला कसं पटवतात?

किंवा देवनागरीसाठी -

म आणि र या अक्षरांतला फरक आल्गोरिदमला कसा समजतो?

काही अक्षरांत उभी रेघ असते, काही अक्षरांत नसते. मी रँडम फॉरेस्टचा उल्लेख खाली, आधी एका प्रतिसादात केला आहे. उदाहरणार्थ, रँडम फॉरेस्ट आल्गोरिदम (मूळ आल्गोरदिम - डिसिजन ट्री) अक्षरांचे दोन गट करेल, उभी रेष असणारे आणि नसणारे. र, ड, उ, ऊ आणि कदाचित ळ या उभी रेष नसणाऱ्या गटात येतील. (उ या अक्षराचं वर्गीकरण टंकानुसार बदलू शकतं.) तिरकी रेष असणाऱ्यांचा दुसरा गट करेल, यात ष आणि ब येतील. अक्षरात उभी रेष असणारा गट बनवून, त्यात क, त, ख, अशी बहुसंख्य अक्षरं येतील. प्रत्येक वेळेस काही 'फीचर' - म्हणजे उभी, आडवी, तिरपी रेष असं काही - आल्गोरिदम स्वतः तयार करेल. हे तयार करण्यासाठी मुळात त्याला खायला घातलेली विदा वापरली जाईल आणि आपल्याला असे काही 'फीचर' वापरायचे असं सांगावं लागणार नाही.

कोणतं फीचर आणि किती प्रमाणात वापरायचं, ही गोष्टही रँडम फॉरेस्ट (मूळ आल्गोरदिम - डिसिजन ट्री) ठरवेल. (ज्यांना या विषयाच्या पायाभूत माहितीमध्ये रस आहे त्यांनी ते वाचून पाहा. गंंमतीशीर माहिती आहे. नाही तर मला वेळ मिळाला की मी तपशिलात लिहेन.)

न्यूरल नेटवर्क आणि रँडम फॉरेस्ट यांतला फरक -
न्यूरल नेटवर्क हेसुद्धा जंगलासारखेच 'फीचर्स' ठरवेल. पण त्यात फरक असा की गुंतागुंतीच्या दुसऱ्या पातळीवर, आल्गोरिदम फीचरांचा मिलाप करेल. म्हणजे आडवी रेष आणि उभी रेष आहे का, यात म, न, त अशी अक्षरं मिळतील, पण ल, य मिळणार नाहीत. या प्रकाराला 'फीचर इंजिनियरींग' म्हणतात. न्यूरल नेटवर्क हा प्रकार आपण होऊन करतात; इतर बऱ्याच आल्गोरिदमांमध्ये हा प्रकार आपल्याला करावा लागतो. रँडम फॉरेस्टला 'फीचर इंजिनियरींग' करता येणार नाही. पण त्यामुळे उत्तरं कितपत अचूक येतील, याबद्दल मला शंका आहे. (म्हणून मला तो प्रयोग करून बघायचा आहे.)

शरद यांनी खाली एका ओसीआरचं आउटपुट दाखवलं आहेत. ते वाचलं तर आल्गोरिदम ब आणि व यांतला फरक ओळखण्यात गफलत करतंय, हे दिसतंय. ही गफलत का होत असेल, याचा अंदाज, माणसांना स्पष्टीकरणाशिवायच येतो. अशीच गल्लत प आणि ष या अक्षरांतही होऊ शकते.

माझ्या मते यासाठी उत्तर म्हणजे आणखी विदा आल्गोरिदमला खायला घालायची. जेवढं जास्त खायला घालू तेवढं आल्गोरिदम हे बालक पुष्ट होईल.

आणखी एक कल्पना म्हणजे, आल्गोरिदमला शब्द मिळाला की शब्दकोशात तो शब्द आहे का, हे तपासून बघायचं. समजा, 'वघायचं' (४५% शक्यता) आणि 'बघायचं' (३५% शक्यता) असे दोन शब्द एकाच शब्दासाठी आल्गोदिरमनं दिले, तर शब्दकोश सांगू शकेल की 'वघायचं' हा शब्द अस्तित्वात नाही. मग आल्गोरिदमचं आऊटपुट 'बघायचं' हा शब्द असेल.

यात सुरुवातीला चित्रांवर शार्पन आणि ब्लर फिल्टर वापरले जातात; त्याबद्दल लिहिलेलं नाही. (ते नंतर प्रतिसाद संपादित करून लिहेन.)

ही सगळी माहिती कोरडी, काठावरून दिलेली आहे. आशा आहे की लवकरच मला अक्षरांची विदा बनवून त्यात हात माखवून घेता येतील.

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

मी बरेच महिने शोधात आहे.

Permalink Submitted by अचरट ऐसीकर on रविवार, 30/04/2017 - 12:35.

मी बरेच महिने शोधात आहे. एकवेळ ज्ञानदेवासारखी भिंत चालवणे सोपे असेल पण मराठी OCR मारक्या रेड्याकडून काम करवण्यासारखे वाटतेय.

(अतिअवांत‌र) असेल न‌व्हे, आहेच!

Permalink Submitted by 'न'वी बाजू on रविवार, 30/04/2017 - 13:05.

एकवेळ ज्ञानदेवासारखी भिंत चालवणे सोपे असेल

असेल न‌व्हे, आहेच!

खुद्द‌ आम्ही चाल‌विलेली आहे. (प्रात्य‌क्षिकाचा दुवा)

" आणखी भिंतचर्चा खफवर चालवा "

Permalink Submitted by अचरट ऐसीकर on रविवार, 30/04/2017 - 15:00.

" आणखी भिंतचर्चा खफवर चालवा " असा शेरा येण्या अगोदर लिहितो - तुम्ही भिंत केवळ चालवली नसून नांदवली आहे.
आडकित्ता गायब होण्याचं कारण त्यांना मोठे कंत्राट मिळाले काय नट्स क्रॅकायचे? उगाच वेळ घालवताहेत. इथे दात कुणाला उरलेत? नट्सची पावडरच करावी त्यांनी. उदा० आस्तिकनास्तिकइकॅानमीपावडर धागा पाहा.
( वै लेखकाचा धागा वाया घालवतोय माफ करा)

देवनागरी ओसीआर केले तर

Permalink Submitted by अभ्या.. on रविवार, 30/04/2017 - 15:08.

देवनागरी ओसीआर केले तर गुगलवाल्याणि करावे. इंडिकला आहेच ती मेथड इमेजला वर्कआउट होईल.

ISI क‌ल‌क‌त्ता

Permalink Submitted by १४टॅन on रविवार, 30/04/2017 - 15:44.

माग‌च्या दिवाळीत आयएसाय क‌लक‌त्त्याला जाऊन आलो होतो. तिथे स‌ल‌ग दोन दिव‌स, स‌ल‌ग १२-१२ तास पीएच‌डी स्कॉल‌र्सची व्याख्याने ऐक‌ली. आयएसआय क‌ल‌क‌त्त्याम‌ध्ये पॅट‌र्न रिक‌ग्निश‌न, ऑप्टिक‌ल कॅरेक्ट‌र रिक‌ग्निश‌न, मोश‌न प्रेडिक्श‌न इत्यादींव‌र ब‌र‌ंच काम चालू आहे.
त‌र, तुम‌चा धागा वाचून एक प्रोफेस‌र आणि त्यांच्या दोन प‌ट्टशिष्यांची आठ‌व‌ण झाली. त्यांचं मुख्य‌ काम हे फॉर्म फिलींग म‌ध्ये लोक जी माहिती भ‌र‌तात ती संग‌णकीकृत क‌र‌ण्यासाठी ओसीआर विक‌सित क‌र‌ण्यासाठी ओसीआर डीझाईन‌ क‌र‌णं. त्यांनी स‌ग‌ळ्याच भार‌तीय भाषांच‌ं, एक साधार‌ण ओसीआर कराय‌चं ठ‌र‌व‌लेलं आहे. त्यात बंगालीम‌ध्ये त्यांना थोडंसं य‌श आलेलं दिस‌त‌ही होतं. ब‌ंगालीत त्यांनी 'मुंब‌ई'लिहून म‌ग ते युनिकोड बांग‌ला टेक्स्ट म‌ध्ये रुपांत‌रित क‌रुन दाख‌व‌लं. प‌ण नंत‌र स्क्रीन ऑफ क‌रून त्या प्रोफेस‌रनी जे सांगित‌लं ते ह्याप्र‌माणे:
" भार‌तीय भाषा ह्या अतिश‌य स‌ंकुचित (कॉम्पॅक्ट) अस‌ल्याने, आणि प‌र‌त मैलामैलाला लिपी ब‌द‌ल‌त अस‌ल्याने त्यांचा एक साचेब‌द्ध ओसीआर सांगाडा त‌यार क‌र‌णं फार जिकीरीचं काम आहे. शिवाय आपल्या भाषा ह्या इंग्र‌जीप्र‌माणे रेषीय नाहीत. इकार, उकार हे त्यात‌ली गुंतागुंत अधिक‌च वाढ‌व‌तात. प्र‌त्येक अक्ष‌राच्या बाराख‌डीत‌लं प्र‌त्येक रुप हे वेगवेग‌ळं मान‌लं, त‌र संपूर्ण प्र‌क्रिया अत्यंत जिकीरीची आणि वेळ‌खाऊ होते. ते नाही, त‌र चुकीचं प‌रिमाण खूप वाढ‌त‌ं. ह्या स‌ग‌ळ्या अड‌थ‌ळ्यांव‌र मात क‌रून एक चांग‌लं ओसीआर बाजारात आणाय‌ला आण‌खी द‌हा व‌र्षं त‌री न‌क्कीच लाग‌तील. आम्ही बांग‌ला म‌ध्ये जे केलेलं आहे ते अजून‌ही जोडाक्ष‌रांप‌र्य‌ंत नेता आलेलं नाहीये."
तेव्हा त्यांना फ‌क्त सोपे सोपे आणि सुटेच श‌ब्द रुपांत‌रित क‌र‌ता येत होते. तेव्हा म‌नात च‌म‌कून गेलेलं की हे क‌धी आपल्याला म‌राठीसाठी किमान सुरू त‌री क‌र‌ता येईल‌ का? म‌ग एकाएकी इक‌ड‌ची स‌ग‌ळीच प‌रिस्थिती झ‌र्र‌क‌न डोळ्यांस‌मोरून फिरून गेली आणि म‌ग - स्वाक्ष‌री प‌हा.

तिज्यायला मजकूर आणि स्वाक्षरीच्या मध्ये डिफॉल्ट एक लाईन मारा की मालक
Hope is for sissies.

हस्ताक्षर ते टेक्स्ट

Permalink Submitted by बिटकॉइनजी बाळा on रविवार, 30/04/2017 - 15:59.

हा नंतरचा भाग आहे. पण वर्तमानपत्राचा फोटो ते टेक्स्ट साठी नक्कीच उत्तम सॉफ्टवेअर बनवता येईल.

----------------------------------------------------
बिटकॉइनजी बाळा नित्य ध्यातसे हृदयिं दाम माला

सी डॅक

Permalink Submitted by बिटकॉइनजी बाळा on रविवार, 30/04/2017 - 16:08.

सी डॅक यात बरीच वर्षं काम करत आहे आणि सॉफ्टवेअर विकत आहे.
https://cdac.in/index.aspx?id=mc_ocr_ocr

९० टक्क्यांपर्यंत बरोबर काम करते असं ते म्हणताहेत. विचारून पाहा

----------------------------------------------------
बिटकॉइनजी बाळा नित्य ध्यातसे हृदयिं दाम माला

सी डॅक यात बरीच वर्षं काम करत

Permalink Submitted by -प्रणव- on बुधवार, 09/08/2017 - 10:58.

सी डॅक यात बरीच वर्षं काम करत आहे आणि सॉफ्टवेअर विकत आहे.

कोणी वापरलय का हे? कसं आहे?

खाज, हौस इत्यादी

Permalink Submitted by ३_१४ विक्षिप्त अदिती on सोमवार, 01/05/2017 - 07:50.

हौस म्हणून, काम सुरू करेन तेव्हा न्यूरल नेटवर्कच्या जागी रँडम फाॅरेस्ट चालवून पाहायचा विचार करत्ये. न्यूरल नेटवर्कला नोकऱ्या दिसत नाहीयेत.

वेळ मिळेल तेव्हा हे काय असतं, याबद्दल लिहेन.

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

रॅण्ड‌म‌ फॉरेस्ट‌ उत्त‌म

Permalink Submitted by बॅटमॅन on सोमवार, 01/05/2017 - 14:27.

रॅण्ड‌म‌ फॉरेस्ट‌ उत्त‌म टेक्निक आहे. एन्सेम्ब‌ल‌ ल‌र्निंग‌ हे न‌क्कीच‌ सुपीरिय‌र अस‌ते. प‌ण न्यूर‌ल‌ नेट‌व‌र्क‌सुद्धा ज‌र‌ पुरेसे डीप असेल त‌र ज‌व‌ळ‌पास‌ कुठ‌लेही फंक्श‌न‌ अप्रॉक्सिमेट क‌रू श‌क‌ते असे थेर‌म‌च आहे.

माहिष्मती साम्राज्यं अस्माकं अजेयं

मराठी OCR १)अॅप नाही सापडले

Permalink Submitted by अचरट ऐसीकर on सोमवार, 01/05/2017 - 08:30.

मराठी OCR १)अॅप नाही सापडले अजून.
२) काही ठिकाणी सॅाफ्टवेर विकत घ्यायला /डाउनलोड करायला सांगतात.
३) Online करणारी http://www.newocr.com/
ही वेबसाइट वापरून ऐसिवरच्याच लेखनाचा स्क्रीन शॅाट वापरून केले मराठी OCR
//
२९ एप्रिल
जन्मदिवस: गणितच्छा, डॉक्टर व विनोदी
लेखकजॉन आरबथनॉट (१६६७), चित्रकार
राजारक्विर्मा (१८४८), गणितज्ञ,
(१८५४), ग्रीक कवीकॅव्हण्फी (१८६३), ४०
पेटंटे घेणारे आणि २०० शोधनावाबर असणारे
वैज्ञानिकशंका आबाजी भिसे (१८६७),
समस्थानिकांबद्दल संशोधन कांण्यासाठो
नोबेलमिळव्णप्स हँएल्ह उरे (१८९३), जाझ
पियानोवादकव //

त्यांच्याकडे सॅाफ्टवेर असावे पण ओनलाइनवर पूर्ण सर्विस देत नसतील. पेपरातील,खफ वरील फोटोचे आले नाही.

न्युर‌ल नेट‌व‌र्क असे म्ह‌ण

Permalink Submitted by अनु राव on मंगळवार, 02/05/2017 - 11:52.

न्युर‌ल नेट‌व‌र्क असे म्ह‌ण‌तात, प‌ण मेंदुम‌धे त्याच अल्गोनी प्रोसेसिंग होते असे कुठे सिद्ध‌ झाले आहे का?
एक‌त‌र हे सिद्ध‌ कसे क‌र‌ता येइल ते प‌ण स‌म‌जुन घेण्यात इंटरेस्ट आहे.

गूगलचा देवनागरी ओसीआर

Permalink Submitted by सुशान्त on मंगळवार, 22/08/2017 - 14:40.

गूगलने देवनागरी लिपीतील मजकूर ओसीआरद्वारे रूपांतरित करण्याची सोय गूगलड्राइव्हवर उपलब्ध करून दिलेली आहे. ती वापरण्याची प्रक्रिया खालीलप्रमाणे

०१. मराठी मजकुराची प्रतिमा असलेली लहान (साधारणपणे १ एमबीपेक्षा लहान) आकारमानाची (पीडीएफ किंवा जेपीजी) धारिका (फाईल) आपल्या गूगलड्राइव्हर चढवावी.
०२. ती धारिका आपल्या यादीत दिसू लागल्यावर राइटक्लिकद्वारे गूगलडॉकमध्ये उघडण्याचा पर्याय (ओपन विथ गूगलडॉक) वापरून गूगलडॉकमध्ये रूपांतरित करावी.
०३. रूपांतर व्हायला काही वेळ जातो. त्यानंतर मराठी मजकूर धारिकेत टेक्स्ट स्वरूपात दिसू लागतो.
मी करून पाहिलेल्या प्रयोगाचे फलित खाली दिलेल्या दुव्यांवर पाहता येईल. मी पुढील दुव्यावर उपलब्ध पीडीएफ धारिका त्यासाठी वापरली (https://drive.google.com/open?id=0B8m4NJu3L0B8elBFRTBqNWRWems)
ह्याचे फलित खालील दुव्यावर पाहता येईल.
https://docs.google.com/document/d/12z1egqJn8HEZPoof8M8jzj2QZkOXBmFus0Oc...

ह्यात सगळा मजकूर रूपांतरित झालेला नाही. पण बराचसा झालेला आहे.

मराठी विकिस्रोतावरही गूगलचा ओसीआर जोडलेला आहे. https://mr.wikisource.org/wiki/%E0%A4%85%E0%A4%A8%E0%A5%81%E0%A4%95%E0%A... ह्या दुव्यावर लाल रंगात असलेल्या क्रमांकांची पाने ओसीआर न झालेली आहेत.

सुशान्त

कूल!

Permalink Submitted by बिटकॉइनजी बाळा on मंगळवार, 22/08/2017 - 14:44.

फारच भारी! धन्यवाद सुशान्त.

----------------------------------------------------
बिटकॉइनजी बाळा नित्य ध्यातसे हृदयिं दाम माला

लोकसत्तेतील बातमी

Permalink Submitted by बोका on मंगळवार, 22/08/2017 - 19:39.

देवनागरी हस्तलिखिताची संगणकीय प्रत -‘टीआयएफआर’मध्ये संशोधनास सुरुवात.
http://www.loksatta.com/mumbai-news/new-research-in-tiar-1533884/

दखल

#ऐसीअक्षरे #दिवाळी२०२३

दिवाळी अंक पाहिलात का?

दिनवैशिष्ट्य

१३ मे
जन्मदिवस : मलेरियाच्या जंतूंचा शोध लावणारे नोबेलविजेते रोनॉल्ड रॉस (१८५७), चित्रकार व शिल्पकार जॉर्ज ब्राक (१८८२), राष्ट्रपती फक्रुद्दीन अहमद (१९०५), लेखिका दाफ्ने द्यु मोरिए (१९०७), राष्ट्रपती नीलम संजीव रेड्डी (१९१३), नर्तिका बालसरस्वती (१९१८), समीक्षक भालचंद्र फडके (१९२५), समीक्षक गो. मा. पवार (१९३२), लेखक आर्मिस्टेड मॉपिन (१९४४), गायक स्टीव्ही वंडर (१९५०), संगीतकार आनंद मोडक (१९५१)
मृत्युदिवस : 'बकिंगहॅम पॅलेस'चा वास्तुरचनाकार जॉन नॅश (१८३५), अभिनेता गॅरी कूपर (१९६१), जाझगायक व वादक चेट बेकर (१९८८), लेखक आर.के.नारायण (२००१), नाट्यकर्मी बादल सरकार (२०११), छायाचित्रकार जगदीश माळी (२०१३)
--
१६३८ : दिल्ली येथील लाल किल्ल्याचे बांधकाम सुरू.
१८८८ : ब्राझिलमध्ये गुलामगिरीविरोधात कायदा अमलात आला.
१९४० : दुसरे महायुद्ध : जर्मन सैन्य फ्रान्सच्या भूमीवर. ब्रिटिश पंतप्रधान विन्स्टन चर्चिल यांनी पार्लमेंटमध्ये 'Blood, toil, tears, and sweat' हे आपले सुप्रसिद्ध भाषण केले.
१९५० : ब्रिटनमधील सिल्व्हरस्टोन येथे पहिल्या फॉर्म्युला वन स्पर्धेची सुरुवात.
१९५२ : प्रजासत्ताक भारताच्या पहिल्या संसदेचे (राज्यसभेचे) पहिले सत्र सुरू झाले.
१९५८ : 'वेल्क्रो'ची ट्रेडमार्क म्हणून नोंदणी.
१९६८ : फ्रान्समधील विद्यार्थ्यांच्या विद्रोही चळवळीला साथ देत कामगारांनी देशव्यापी संप पुकारला. आठ लाख विद्यार्थी आणि एक कोटी कामगार यांची ही युती अभूतपूर्व होती.
२००८ : जयपूर येथे बॉम्बस्फोट; १२ मृत

दिवाळी अंक २०२३

दिवाळी अंक २०२३
धाकट्या मामाच्या बारा गोष्टी - माधुरी पुरंदरे
दाकाराई सुमन ओकोये
साखर उद्योग आणि आफ्रिका
उड उड रे काऊ। पुन्हा नको मज शिवू॥
बाँब देम
चहा-बिस्किटाची प्रेमकहाणी
इसासून : नायजेरियन खाद्यसंस्कृती
शोध एकोणिसाव्या शतकातील एका महाराष्ट्रकन्येचा…
रवांडामधील वंशसंहार
टिंबक्टू – इतिहास आणि वर्तमान
M-Pesa - आफ्रिकन खंडातील Fintech
सिंधुआज्जी आणि टारझनचे पशू
बिबट्याच्या कातड्याची पिलबॉक्स टोपी

सध्या कोण कोण आलेले आहे?

सध्या 0 सदस्य आलेले आहेत.

सदस्य आगमन

ऐशा रसां ऐसे रसिक...

देवनागरी OCR

हीण नको.

+१

वाचतो आहे.

ओसीआरचा अल्गोरिदम नेमका कसा

अगोद‌र‌ जी टार्गेट लिपी आहे

माण‌साचा मेंदूही अक्ष‌र‌ असंच

ते गुण‌ध‌र्म‌च‌ फीड केले

अर्धे क‌ळ‌ले. अर्धे नाही. प‌ण

साधारण कल्पना

मी बरेच महिने शोधात आहे.

(अतिअवांत‌र) असेल न‌व्हे, आहेच!

" आणखी भिंतचर्चा खफवर चालवा "

देवनागरी ओसीआर केले तर

ISI क‌ल‌क‌त्ता

हस्ताक्षर ते टेक्स्ट

सी डॅक

सी डॅक यात बरीच वर्षं काम करत

खाज, हौस इत्यादी

रॅण्ड‌म‌ फॉरेस्ट‌ उत्त‌म

मराठी OCR १)अॅप नाही सापडले

न्युर‌ल नेट‌व‌र्क असे म्ह‌ण

गूगलचा देवनागरी ओसीआर

कूल!

लोकसत्तेतील बातमी

दखल

दिनवैशिष्ट्य

दिवाळी अंक २०२३

आवागमन (navigation)

सध्या कोण कोण आलेले आहे?

ऐशा रसां ऐसे रसिक...

उद्दिष्टे - मार्गदर्शक तत्त्वे - धोरणे