मराठी भाषेची विस्कळ - जयदीप आणि मिहिरचं संशोधन

Submitted by ३_१४ विक्षिप्त अदिती on शुक्रवार, 28/07/2017 - 02:54

ऐसी सदस्य आणि संशोधक जयदीप चिपलकट्टी आणि मिहिर यांनी मराठी भाषेची विस्कळ (entropy) या विषयावर लिहिलेला हा पेपर. त्यात लिहिलेल्या गोष्टी सोप्या करून लिहिण्याची जाहीर विनंती करण्यासाठी आणि त्यावर चर्चा करण्यासाठी हा धागा.

हा पेपर - On the letter frequencies and entropy of written Marathi

(सध्या धागा माझ्या नावावर असला तरीही जयदीप/मिहिरला त्याचं पितृत्व देण्यासाठी मी उत्सुक आहे.)

धाग्याचा प्रकार निवडा: :

भाषा

माहितीमधल्या टर्म्स:

भाषा

field_vote:

No votes yet

Log in or register to post comments
29617 reads

प्रतिक्रिया

प्रश्न

Permalink Submitted by ३_१४ विक्षिप्त अदिती on शुक्रवार, 28/07/2017 - 03:10.

अतिशय मूलभूत (अडाणी) प्रश्न -

Quantity of information - या गणितात log₂ का वापरलं आहे हे मला समजलं नाही. (मूळ संदर्भ वाचायचा आळस आहे, म्हणून विचारून घेत्ये.)

समजा डोळे बंद करून तिरंग्यावर कुठेतरी बोट ठेवलं तर, हिरवा आणि भगव्याची शक्यता एकसमान असेल, पांढऱ्याची त्यापेक्षा कमी असेल आणि निळ्याची अगदी कमी असेल. साधारण ०.३३, ०.३३, ०.३२, ०.०२ असं अनुक्रमे मानलं. तर त्यातली माहिती किती, हे शोधताना log₂ वापरणार का log₄?

ज्या गोष्टीची शक्यता जितकी कमी त्या प्रमाणात त्यातली माहिती जास्त ही गोष्ट मला फारच सुंदर वाटली. अनपेक्षित घटना घडली की त्यातून अधिक माहिती मिळते; ही गोष्ट पत्रकारितेत फारच वापरून घेतात.

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

log_2 इत्यादि...

Permalink Submitted by जयदीप चिपलकट्टी on शुक्रवार, 28/07/2017 - 09:40.

> या गणितात log2 का वापरलं आहे हे मला समजलं नाही.

त्या २ ह्या आकड्याला सोनं चिकटलेलं नाही. समजा २ ऐवजी सरसकट ५ वापरला तर सगळे आकडे log_5(2) = 0.43 इतक्या गुणोत्तराने कमी होतील. पण मूलभूत फरक असा काही होणार नाही. एकतर मैल वापरा किंवा किलोमीटर वापरा तसंच ते आहे.

> समजा डोळे बंद करून तिरंग्यावर कुठेतरी बोट ठेवलं…

तिरंगा म्हणजे काय ते स्पष्ट करत जा हो! नेदरलंडचा किंवा रशियाचा झेंडा तिरंगाच आहे. ज्याला पाहताक्षणीच कोमल हृदयाच्या व्यक्ती दु:खसंतापाने हतबल होतात तो कॉनफेडरेट फ्लॅगही तिरंगाच आहे. पण ते असो. रंग कितीही असले तरी एकदा log_2 वापरायचा ठरवल्यावर सगळीकडे तोच वापरायचा.

> ज्या गोष्टीची शक्यता जितकी कमी त्या प्रमाणात त्यातली माहिती जास्त ही गोष्ट मला फारच सुंदर वाटली.

हो ना! आता समजा दिवाळी अंकासाठीचे सगळे लेख १५ सप्टेंबरपर्यंत खरोखरीच जर आले तर किती सुंदर होईल नाही?! पण तसं होण्याची शक्यता कमी नसून शून्य आहे.

- जयदीप चिपलकट्टी

(होमपेज)

विशेषनाम

Permalink Submitted by ३_१४ विक्षिप्त अदिती on शुक्रवार, 28/07/2017 - 20:59.

तिरंगा हा शब्द विशेषनाम म्हणून वापरल्यामुळे कोणाचंही कोमल हृदय दुःखसंतापानं हतबल झालं नसेल अशी अपेक्षा!

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

तिरंगा म्हणजे काय ते स्पष्ट

Permalink Submitted by -प्रणव- on शुक्रवार, 28/07/2017 - 10:07.

तिरंगा म्हणजे काय ते स्पष्ट करत जा हो!

मराठी माणसाने असं वाक्य म्हणणे हे मी कधी इमॅजीनच केलं नसत!

का?

Permalink Submitted by भाऊ on शुक्रवार, 28/07/2017 - 12:58.

का?
जगात निम्मे ध्वज तर तिरंगेच असतील. हां आता त्यावर संशोधन करावं लागेल.
निम्मे ऐसीकर भारतात रहातच नसतील तर तिरंगाशंकेवर आश्चर्य वाटू नये!
.
बाकी सांप्रत लेखकाची भूमिका इथे वाचून मग लेख वाचला तर अधिक चांगला कळेल असा अंदाज आहे.

माहिती

Permalink Submitted by ३_१४ विक्षिप्त अदिती on शुक्रवार, 28/07/2017 - 16:57.

बघा! म्हणजे त्या वाक्यातून बरीच माहिती मिळाली.

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

१) तिरंगा हे भारतीय लोक बोलत

Permalink Submitted by अचरट ऐसीकर on शुक्रवार, 28/07/2017 - 11:52.

१) तिरंगा हे भारतीय लोक बोलत तेव्हा यनिअन जॅक वि तिरंगा. इतर लोक Indian Tricolour.
२)लेखकास दोनाच्या घातांकाची पट्टी आवडली आहे.
३)मराठी भाषेची विस्कळ -
मराठी भाषेच्या देवनागरी लिपितील अक्षरांची वाढत जाणारी विस्कळ (= कमी होणारी वारंवारिता.)

अक्षरांचे युनिकोड क्रमांक ठरवण्यासाठी हे entropy संशोधन करावे लागते का?

देवनागरी अक्षरे मूळ अक्षर व

Permalink Submitted by मृदुला on शुक्रवार, 28/07/2017 - 19:12.

देवनागरी अक्षरे मूळ अक्षर व काने-मात्रा असे वेगवेगळे पाहण्याऐवजी एकत्र पाहण्याचे काय कारण?
एकंदरित या उपक्रमाचा हेतू काय होता व तो साध्य झाला का हे शोधनिबंध वाचून लक्षात आले नाही.

एंट्रपी

Permalink Submitted by जयदीप चिपलकट्टी on शुक्रवार, 28/07/2017 - 20:50.

> देवनागरी अक्षरे मूळ अक्षर व काने-मात्रा असे वेगवेगळे पाहण्याऐवजी एकत्र पाहण्याचे काय कारण?

हे वाक्य पाहा: टिळक पुण्यतिथी निमित्त शाळेत झालेल्या वादविवाद स्पर्धेत वंदनाला ब◼︎स मिळालं.

इथे ◼︎ च्या जागी काय असेल हे वाचणाऱ्याला सहज अोळखता येतं. पण तो असं नाही म्हणत की ‘इथे बहुतेक आधी क्ष येईल, आणि त्यामागोमाग दीर्घ वेलांटी येईल.’ वाचताना ‘क्षी’ हा एकसंध घटक म्हणून दिसतो, त्यातले ‘क+ष+ी’ असे घटक वेगवेगळे दिसत नाहीत. ‘भाषेची एंट्रपी’ ह्या कल्पनेमध्ये वाचणारा वाचत असताना पुढचा घटक ‘अोळखायला’ किती सोपा किंवा अवघड आहे याचं सरासरी मोजमाप अपेक्षित आहे. तेव्हा त्या चौकटीत विचार करता कानामात्रा वेगळ्या काढणं योग्य वाटत नाही.

> एकंदरित या उपक्रमाचा हेतू काय होता व तो साध्य झाला का हे शोधनिबंध वाचून लक्षात आले नाही.

उपक्रमाचा हेतू मराठीची एंट्रपी काढून पाहणे हा होता, आणि आमच्या मते तो साध्य झाला. (अर्थात एंट्रपी हा एकच आकडा नसून परस्परांशी विशिष्ट संबंध असलेले ते अनेक आकडे आहेत, पण तो तपशीलाचा मुद्दा झाला.) मराठीचे ‘canonical letter sets’ काढता येणं हा सुरवातीला मुख्य उद्देश जरी नसला तरी ह्या निमित्ताने तोही साध्य झाला.

- जयदीप चिपलकट्टी

(होमपेज)

ब(ब्लीप)स, वगैरे...

Permalink Submitted by 'न'वी बाजू on शनिवार, 29/07/2017 - 17:40.

तसेही, ब-ने सुरू होऊन स-ने संपणारे असे कितीसे तीन(ब्लीप)क्ष(ब्लीप) शब्द मराठीत आहेत? बघूस, बनूस, बसूस असे काही मोजकेच लक्षात येतात.
उलटपक्षी, क्षी हे अक्षर मध्यभागी असलेले कितीसे शब्द मराठीत आहेत?
'वादविवाद स्पर्धेत वंदनाला (ब्लीप)क्षी(ब्लीप) मिळाले' म्हटल्यास पुरेसे नि:संदिग्ध होणार नाही काय?

नाही म्हणजे, एण्ट्रॉपी नक्की कशाची, क्षी या अक्षराची की आणखी कशाची, याचा अंदाज बांधतोय.

बाकी, मूळ प्रबंध वाचलेला नसल्याने (१) त्याविषयी काही टिप्पणी करणे उचित समजत नाही, आणि (२) (समजुतीत) काही चुकलेमाकले असल्यास क्षमा करावी.

स्पष्टीकरण

Permalink Submitted by जयदीप चिपलकट्टी on रविवार, 30/07/2017 - 00:21.

> नाही म्हणजे, एण्ट्रॉपी नक्की कशाची, क्षी या अक्षराची की आणखी कशाची, याचा अंदाज बांधतोय.

'Entropy is a measure of the disorder of the system' हे सर्वश्रुतच आहे. एंट्रपी ही एकट्यादुकट्या अक्षराची नसून तसं पाहिलं तर अखिल विश्वाचीच असते. ती मोजताना अनेक शक्यता विचारात घ्याव्या लागतात:

(१) टिळक जर मुखदुर्बळ असते किंवा त्यांचा स्वभाव जर चि.वि. जोशांसारखा भिडस्त असता तर त्यांच्या स्मृतीप्रीत्यर्थ वादविवाद स्पर्धा कुणी घेतली नसती. तर असं होण्या न होण्याची शक्यता किती?
(२) वंदनाच्या पत्रिकेत ‘व’ हे अक्षर आलं नाही आणि म्हणून तिचं नाव वंदना नाही, अहोनहोशकि?
(३) वंदनाच्या पत्रिकेत ‘व’ हे अक्षर आलं नाही, आणि पण तिच्या आजोबांचा पत्रिकेवर विश्वास नसल्यामुळे त्यांच्या आग्रहाखातर नातीचं नाव वंदनाच ठेवलं अहोनहोशकि?
(४) जर मोंगल भारतात आले नसते तर ‘बक्षीस’ हा शब्दही मराठीत आला नसता. अहोनहोशकि?

ह्या वानगीदाखल लिहिल्या, पण अशा कोट्यवधी शक्यता असतात आणि त्यांना फाटे फुटत जातात. तर ह्या सगळ्या शाखाउपशाखांतल्या शक्यतांच्या गुणाकारांची बेरीज करून त्याचा लॉगॅरिथम काढून एंट्रपी येते. फार किचकट प्रकार असतो. म्हणून तर पेपर इंग्रजीत लिहिला आहे.

- जयदीप चिपलकट्टी

(होमपेज)

>>वेगवेगळे पाहण्याऐवजी एकत्र

Permalink Submitted by अचरट ऐसीकर on शुक्रवार, 28/07/2017 - 19:37.

>>वेगवेगळे पाहण्याऐवजी एकत्र पाहण्याचे काय कारण?>>

एखादा शब्दकोश आहे आणि त्यामध्ये शोध चौकटीत एकेक अक्षर हवे असलेल्या शब्दाचे टंकू लागलो की खालच्या ओळीत शब्द सुचवले जातात.
उदा शब्द आराधना.
१) आ टंकल्यावर असंख्य पर्याय पुढे येतील परंतू त्यातील एकदोनच दिसतात.
२) पुढचे अक्षर या टंकल्यावर काम सोपे होईल.
आराखडा,आराम,आराध्य वगैरे.
३)ध टंकल्यावर आराधना सुचवले जाईल आणि आपण त्या शब्दावरच टिचकी मारू शकू , ना टंकावे लागणार नाही.
४)यामध्ये काही गणित काम आणखी सोपे करेल.
५) पुढेमागे मराठी लेखन वाचून दाखवण्याचे अॅप काढण्याचे काम हे लेखक निश्चितच करतील.

माझा प्रश्न होता की र व रा

Permalink Submitted by मृदुला on शुक्रवार, 28/07/2017 - 19:55.

माझा प्रश्न होता की र व रा अशी दोन 'अक्षरे' गणण्याऐवजी र व काना अशी दोन चिन्हे वापरली असती तर काय फरक पडला असता? उपयुक्ततेच्या दृष्टीने व अभ्यासाच्या दृष्टीने.

व्यंजन१+आकार याची वारंवारिता

Permalink Submitted by आदूबाळ on शुक्रवार, 28/07/2017 - 20:07.

व्यंजन_१+आकार याची वारंवारिता व्यंजन_१+उकार आणि व्यंजन_२+आकार याच्यापेक्षा वेगळी असू शकते. त्यामुळे, समजा व्यंजन_१+आकार याची वारंवारिता कमी असेल तर त्यातून मिळणारी माहिती जास्त. त्यामुळे असा वापर केला असावा.

********
It is better to have questions which don't have answers, than having answers which cannot be questioned.

+१

Permalink Submitted by ३_१४ विक्षिप्त अदिती on शुक्रवार, 28/07/2017 - 20:58.

असंच वाटतं. किंबहुना पेपरमध्ये तेलुगु-रोमन ट्रान्सलिटरेटचा तळटिपांत उल्लेख आहे; तो आक्षेप याच कारणांमुळे पटतो.

जयदीपच्या या जुन्या लेखात स्वर आणि व्यंजनांचा असाच काहीसा स्वतंत्र अभ्यास आहे; इथे दोन्ही एकत्र केलं आहे.

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

ठीक

Permalink Submitted by मिहिर on शुक्रवार, 28/07/2017 - 22:03.

ते ठीक आहे, पण एंट्रॉपी जास्तीत जास्त यावी हे मनात धरून अक्षरं कशी मोजावीत हे ठरवलेले नाही. वर जयदीपने म्हटल्यानुसार आपण मराठी वाचताना अक्षर म्हणून कशाचा विचार करतो हे महत्त्वाचे आहे. लेखी मराठी वाचताना मी 'आदूबाळ' ह्या शब्दात आ, दू, बा आणि ळ ही चार अक्षरे आहेत असे मी म्हणेन. आ, द्, ऊ, ब्, आ, ळ्, अ अशी सात अक्षरे आहेत असे म्हणणार नाही. 'आ'नंतरचे पुढचे अक्षर 'दू' आहे हे एका टप्प्यात वाचेन. भाषेची एंट्रॉपी ही आपण अक्षरे वाचताना पुढील अक्षरांचा अंदाज करण्याची जी प्रक्रिया आपल्या मेंदूत आपोआप होत असते तिचे मोजमाप असल्याने अक्षरांची ही व्याख्या वापरली आहे.

उत्तर बरेचसे बरोबर असेल पण स्वयंस्पष्ट नाही

Permalink Submitted by धनंजय on गुरुवार, 03/08/2017 - 00:17.

वर जयदीपने म्हटल्यानुसार आपण मराठी वाचताना अक्षर म्हणून कशाचा विचार करतो हे महत्त्वाचे आहे. लेखी मराठी वाचताना मी 'आदूबाळ' ह्या शब्दात आ, दू, बा आणि ळ ही चार अक्षरे आहेत असे मी म्हणेन. आ, द्, ऊ, ब्, आ, ळ्, अ अशी सात अक्षरे आहेत असे म्हणणार नाही. 'आ'नंतरचे पुढचे अक्षर 'दू' आहे हे एका टप्प्यात वाचेन.

हा मुद्दा महत्त्वाचा आहे, आणि दिलेले उत्तर काहीसे बरोबरही असावे. पण स्वयंस्पष्ट नाही.
अनेक-स्वर-असलेल्या मराठी पदांत एक जाणवणारे-अक्षर कुठे संपते आणि पुढचे कधी सुरू होते, ते काही बाबतीत कळणे सोपे आहे, तर काही जोडाक्षरांच्या बाबतीत कठिण आहे.
"साक्षात्कार" याची फोड माझ्या दृष्टीने "सा" "क्षात्" "कार्" (अगदी संस्कृत उच्चार केला तर "सा" "क्षात्" "का" "र") अशी होते. "सा" "क्षा" "त्का" "र" अशी नव्हे.

तुमच्या मूळ निबंधातील "र्ज्वा" उदाहरण अक्षर म्हणून मला काहीसे पटले नव्हते -- परंतु र्-ज्-व्-आ ही क्रमात अक्षरे त्या एका आणि एका "बूर्ज्वा" च शब्दामध्ये दिसतात, इतपत उदाहरण म्हणून मला पटले होते, त्यामुळे उदाहरण वापरण्याबाबत माझा काही विरोध नाही.

छापखान्यातील कंपोझिटरांना या बाबतीत थोडे अनुभवजन्य ज्ञान असावे. ओळीच्या शेवटी लांब शब्द कुठे "-" खुणेने तोडून पुढच्या ओळीत घालावा? याबाबत त्यांना पुष्कळदा निर्णय घ्यावा लागतो.

अक्षरांचे घटक याबाबत काही विचार या विकिपीडिया चित्रात दिसू शकेल :

साक्षात्कार

Permalink Submitted by मिहिर on शुक्रवार, 04/08/2017 - 05:05.

साक्षात्कारची सिलॅबलांनुसार फोड 'सा' 'क्षात्' 'कार्' अशी होईल हे ठीकच आहे (की 'साक्' 'षात्' 'कर्' अशी?). ह्या प्रयोगात कानाला ऐकू कसे येते हे दुर्लक्षून लेखी मराठी वाचतानाचा विचार केला आहे. 'वस्तू' आणि 'स्तूप' ह्या दोन शब्दांत 'स्तू' हे अक्षर अनुक्रमे दोन व एका सिलॅबलात विभागले गेले असले, तरी वाचताना ते एकच अक्षर आहे. मराठी शब्दकोडे सोडवताना वेगवेगळ्या चौकटींत अक्षरे कशी भरू ह्याचा विचार करावा.

_____
बाकी, फर्माइशी आवडल्या. जमेल तशा पूर्ण करण्याचा प्रयत्न करेन. आणखीही फर्माइशी असतील तर स्वागतच आहे.

दहा बारा प्रतिसाद आल्यावर

Permalink Submitted by अचरट ऐसीकर on शुक्रवार, 28/07/2017 - 20:07.

दहा बारा प्रतिसाद आल्यावर लेखकांचे उत्तर येईल असे वाटते.

तरयकल

Permalink Submitted by अरविंद कोल्हटकर on शुक्रवार, 28/07/2017 - 21:19.

वरील शीर्षकाचा चिपलकट्टींचा ऐसीवरील लेख मराठी भाषेमध्ये अक्षरांच्या वापराची वारंवारिता किती आहे ह्या विषयावर आहे. सध्याच्या लेखातील काही कल्पना तेथेहि दिसतात. त्या लेखाच्या प्रयत्नाचा हा लेख पुढचा भाग आहे का? ह्या संशोधनाचे अंतिम फलित काय असावे - हे संशोधन पुरेसे पुढे नेता आले तर काय मिळण्याची अपेक्षा आहे - असे स्पष्टीकरण (ज्याला सैनिकांच्या भाषेत 'आम रुख' म्हणतात) मिळाल्यास टेक्नोमंद वाचकांना लेख अधिक सौकर्याने वाचता येईल असे वाटते.

सध्या सर्वत्र (रोमन, देवनागरी इत्यादि सर्व लिपींसाठी) जे Predictive text उपलब्ध आहे त्याहून ह्यामध्ये वेगळे आणि अधिक उपयोगाचे असे काय आहे तेहि टेक्नोमंद लोकांना सांगितले तर हवे आहे.

मिहिरच्या उत्तरांना पुरवणी

Permalink Submitted by जयदीप चिपलकट्टी on शनिवार, 29/07/2017 - 00:18.

एंट्रपीबद्दल चर्चा वर झालीच आहे. मराठीची एंट्रपी काढणे आणि इंग्रजीची काढणे (हा प्रयत्न साठेक वर्षांपूर्वी शॅननने केला होता) यांतला मुख्य फरक असा की मराठी लिखाण ‘तसंच्या तसं’ वापरता येत नाही. यामागे कारण असं की मराठीतल्या अक्षरांची संख्या इंग्रजीच्या मानाने खूपच जास्त असल्यामुळे संख्याशास्त्रीय अडचणी फार येतात. (उदा. कुठल्याही कादंबरीत हजारापेक्षा जास्त भिन्न अक्षरं असतात.)

तर यावर आम्ही काढलेला तोडगा म्हणजे Canonical Letter Sets. उदाहरणार्थ, ५४ अक्षरांचा असा एक संच असतो की सर्वसाधारण मराठी लिखाणाचा ६०% भाग त्यांतूनच आलेला असतो. त्याचप्रमाणे ८५% भाग त्याच त्या १७७ अक्षरांतून आलेला असतो. तर समजा हीच १७७ अक्षरं शिल्लक ठेवली आणि बाकीच्या अक्षरांच्या जागी नुसता ◼︎ असा ठसा उमटवला, तरी लिखाणाची जवळजवळ काहीच हानी होत नाही असं आमच्या ध्यानात आलं. तर एंट्रपी अशा प्रकारे ‘सुलभीकृत’ केलेल्या लिखाणावरून काढलेली आहे. यामागचा उघड फायदा असा की हजाराच्या मानाने १७७ हा आकडा खूपच आटोपशीर असल्यामुळे वर उल्लेखलेल्या अडचणी निकालात निघतात. हे सगळं आम्ही ‘मराठी विश्वकोश’ हे sample text घेऊन केलेलं आहे.

तर आम्हाला आशा अशी आहे की असेच Canonical Letter Sets इतर भारतीय भाषांसाठीही कुणीतरी शोधून काढावेत. उदा. मराठी, बंगाली, कोंकणी, हिंदी यांच्या Sets ची जर तुलना केली तर त्यांतून भाषा कशा बदलत जातात याबद्दल काही निश्चित संख्याशास्त्रीय निष्कर्ष काढता यावेत. पण ह्या फार पुढच्या गोष्टी झाल्या.

टीप: आमच्या पेपरमध्ये पान ११-१२ वर जे उतारे दिलेले आहेत, त्यांपैकी पहिला नितिन थत्त्यांच्या ‘मूल्य आणि किंमत (दिवाळी अंक २०१२)’ ह्या लेखामधून तर दुसरा अरविंद कोल्हटकरांच्या ‘मोल्सवर्थ कोश, मोल्सवर्थ आणि कँडी - भाग १ (९ जानेवारी,
२०१३)’ ह्या लेखातून घेतलेला आहे. दोन्ही लेख ‘ऐसी’वर प्रसिद्ध झालेले आहेत. ह्याबद्दलचा श्रेयनिर्देश पेपरमधून अनवधानाने राहून गेला याबद्दल क्षमस्व.

- जयदीप चिपलकट्टी

(होमपेज)

काही उत्तरे

Permalink Submitted by मिहिर on शुक्रवार, 28/07/2017 - 23:10.

लॉगचा बेस म्हणून २ ऐवजी इतर संख्याही वापरू शकतो, पण log₂ वापरल्यामुळे एंट्रॉपीचे एकक बिट्स हे आहे. माहिती सिद्धांताच्या क्षेत्रात साधारणपणे बेस २ वापरला जातो. एका अगदी सोप्या उदाहरणाचा विचार करू.
छापा व काटा ह्यांची संभाव्यता १/२ असणारी नाणेफेक घ्या. p(छापा) = 1/2 व p(काटा) = 1/2. ह्या नाणेफेकीची एंट्रॉपी (दिलेल्या सूत्रानुसार व लॉगचा बेस 2 वापरून) 1 बिट आहे. ह्या फेकीचे उत्तर दाखवण्यासाठी एक बिट पुरेसा आहे. 0 = छापा, 1 = काटा. तसेच एक नाणे दोनदा उडवले तर आपल्यासमोर छापा छापा, छापा काटा, काटा छापा व काटा काटा हे चार पर्याय आहेत. ह्या उदाहरणाची एंट्रॉपी 2 बिट आहे आणि उत्तर दाखवण्यासाठी दोन बिट पुरेसे आहेत. असमान संभाव्यतेच्या नाण्यांचा विचार केला तर ही तुलना तितकीशी थेट राहात नाही व किचकट होते, पण लॉगचा बेस दोन वापरणे व एंट्रॉपीचे एकक बिट्स असणे यांच्यातला संबंध समजण्यासाठी हे उदाहरण पुरेसे असावे.

अक्षरांचे युनिकोड क्रमांक ठरवण्यासाठी हे entropy संशोधन करावे लागते का?

नाही. देवनागी अक्षरांचे युनिकोड क्रमांक आधीच ठरले आहेत. इथे बघा. ह्या युनिकोड क्रमांकांचा वापर अक्षरे ओळखण्यासाठी व मोजण्यासाठी करण्यात आला.

वरील शीर्षकाचा चिपलकट्टींचा ऐसीवरील लेख मराठी भाषेमध्ये अक्षरांच्या वापराची वारंवारिता किती आहे ह्या विषयावर आहे. सध्याच्या लेखातील काही कल्पना तेथेहि दिसतात. त्या लेखाच्या प्रयत्नाचा हा लेख पुढचा भाग आहे का?

असे म्हणता यावे. तरयकल लेखात फक्त व्यंजनांची वारंवारिता मोजली होती. इथे वर उल्लेखलेल्या कारणांमुळे अक्षरांची संभाव्यता मोजली आहे. तसेच अमुक अक्षरानंतर तमुक अक्षर येण्याची संभाव्यता किती हेही मोजले आहे. ह्या एंट्रॉपीमापनाचा तसेच निबंधात शेवटी दिलेल्या अक्षरांच्या वारंवारितेचा एनकोडिंग, डेटा कंप्रेशन अशा कामांसाठी उपयोग होऊ शकतो. उदा. हफमन कोडिंग. म्हणजे वारंवार येणारी अक्षरांसाठी कमी बिट्स वापरून डेटा कंप्रेस करणे, 'च्या' अक्षर लिहिण्यासाठी 'च'+'्'+'य'+'ा' हे चार युनिकोड वापरण्याऐवजी कमी जागा वापरणे इ. इ.

तपशीलात उत्तराबद्दल आभार

Permalink Submitted by मृदुला on सोमवार, 31/07/2017 - 16:53.

तपशीलात उत्तराबद्दल आभार जयदीप, मिहिर.
> आदूबाळ
यात चार अक्षरे आहेत हे उदाहरण एकदम पटले.
अशी चर्चा काही सहकाऱ्यांसह एकदा झाली होती, तेव्हा इंग्रजीत मार्टिन नावात मार् व टिन् असे दोनच घटक आहेत असे त्यांचे मत पडले. (सिलॅबल्स) ते आठवले.

ह्म्म्

Permalink Submitted by राधिका on सोमवार, 31/07/2017 - 21:39.

निबंध बराचसा डोक्यावरून गेला. इथले साद-प्रतिसाद वाचलेले नाहीत.

मराठीच्या phonologyवर काम करत होते, तेव्हापासून उच्चारित शब्दांत कोणते sound sequences जास्त वारंवारितेने वापरले जातात हे शोधून काढण्याची इच्छा होती. आपण वापरलेली पद्धत IPA transcriptionsना लावण्यात काही अडचण उद्भवेल का?

राधिका

तेव्हापासून उच्चारित शब्दांत

Permalink Submitted by -प्रणव- on मंगळवार, 01/08/2017 - 07:21.

तेव्हापासून उच्चारित शब्दांत कोणते sound sequences जास्त वारंवारितेने वापरले जातात हे शोधून काढण्याची इच्छा होती

सोप्पे आहे की! आधी एक phonetic dictionary घ्या. म्ग पहिजे त्या लेखनाला phone sequence मधे convert करा. मग ते इनपुट घेऊन frequency काढण्याचा कोड लिहा.

तुम्ही एखाद्या विशिष्ट

Permalink Submitted by राधिका on मंगळवार, 01/08/2017 - 10:04.

तुम्ही एखाद्या विशिष्ट फोनच्या फ्रिक्वेंसीबद्दल बोलताय की मला फोनेटिक सिक्वेन्सच्या प्रिक्वेंसीबद्दल?

राधिका

फोनेटिक सिक्वेन्सच्या

Permalink Submitted by -प्रणव- on मंगळवार, 01/08/2017 - 10:06.

फोनेटिक सिक्वेन्सच्या प्रिक्वेंसीबद्दल.

चिपलकट्टी आणि मिहिर यांनी

Permalink Submitted by राधिका on मंगळवार, 01/08/2017 - 10:20.

चिपलकट्टी आणि मिहिर यांनी तुम्ही सुचवलेली पद्धतच वापरली आहे का?

राधिका

बघावे लागेल. पेपर नाही वाचला

Permalink Submitted by -प्रणव- on मंगळवार, 01/08/2017 - 10:26.

बघावे लागेल. पेपर नाही वाचला

अच्छा. बरं.

Permalink Submitted by राधिका on मंगळवार, 01/08/2017 - 10:31.

अच्छा. बरं.

राधिका

आपण वापरलेली पद्धत IPA

Permalink Submitted by आदूबाळ on मंगळवार, 01/08/2017 - 11:28.

आपण वापरलेली पद्धत IPA transcriptionsना लावण्यात काही अडचण उद्भवेल का?

पद्धत नक्कीच वापरता येईल, पण तशीच्या तशी नाही. कारण बोलताना प्रत्येक अक्षरावर सारखा जोर नसतो. त्यामुळे मिहिरने सांगितलेला "हे अक्षर नसलं तर शब्द ओळखा पाहू" हा खेळ syllables हे युनिट मानून खेळायला लागेल.

********
It is better to have questions which don't have answers, than having answers which cannot be questioned.

आपला मुद्दा भाषावैज्ञानिक आहे

Permalink Submitted by राधिका on मंगळवार, 01/08/2017 - 11:31.

आपला मुद्दा भाषावैज्ञानिक आहे की तांत्रिक?

राधिका

तांत्रिक. चिपलकट्टी-कुलकर्णी

Permalink Submitted by आदूबाळ on मंगळवार, 01/08/2017 - 12:09.

तांत्रिक. चिपलकट्टी-कुलकर्णी पद्धत बोलीभाषेसाठी कशी वापरता येईल याबद्दल.

********
It is better to have questions which don't have answers, than having answers which cannot be questioned.

सर्व अक्षरांवर जोर सारखा नसतो

Permalink Submitted by राधिका on मंगळवार, 01/08/2017 - 12:22.

सर्व अक्षरांवर जोर सारखा नसतो हा मुद्दा भाषावैज्ञानिक वाटतो. शिवाय त्याचा इथे संबंध कळला नाही.

राधिका

मनोबाने खफवर दिलेल्या

Permalink Submitted by आदूबाळ on मंगळवार, 01/08/2017 - 14:07.

मनोबाने खफवर दिलेल्या उदाहरणातून:

"बागकाम " ह्या शब्दाचा उच्चार "बाक्काम " का करतात?
चांदणी चौकाला बोलताना "चान्नी चौक" का म्हणतात ?

लिखित शब्द "बागकाम"मध्ये चि-कु पद्धतीप्रमाणे बा, ग, का, म अशी चार अक्षरं धरून विश्लेषण केलं जाईल. पण हेच विश्लेषण बोलीचं करायचं तर "क्का" (ग+का) हे विश्लेशणाचं युनिट धरायला लागेल. त्यालाच मी सैलपणे syllable म्हणत होतो. त्यामुळे हा तांत्रिक मुद्दा आहे.

********
It is better to have questions which don't have answers, than having answers which cannot be questioned.

IPA transcriptionमध्ये

Permalink Submitted by राधिका on मंगळवार, 01/08/2017 - 15:27.

IPA transcriptionमध्ये 'बागकाम' आणि 'बाक्काम' हे वेगवेगळे लिहिले जातात. त्यामुळे आपल्याला वाटतो आहे तो मुद्दा उद्भवत नाही.

राधिका

मुळात 'बाक्काम' असे कुठे

Permalink Submitted by अनु राव on मंगळवार, 01/08/2017 - 15:28.

मुळात 'बाक्काम' असे कुठे लिहिले जाते का?

मराठी लेखनात नाही. IPA

Permalink Submitted by राधिका on मंगळवार, 01/08/2017 - 15:37.

मराठी लेखनात नाही. IPA transcription हे वेगळे प्रकरण आहे.

राधिका

राधिकासाठी प्रश्न

Permalink Submitted by ३_१४ विक्षिप्त अदिती on मंगळवार, 01/08/2017 - 19:53.

दिव्य आणि दिवा या शब्दांची काही रूपं सारखीच लिहिली जातात, पण उच्चार निराळे असतात. दिव्यातून, दिव्याला, वगैरे. या दोन्हींचं उच्चार/मूळ शब्दानुसार IPA transcription निराळं होतं का?

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

IPA हे मुळात उच्चाराधारित

Permalink Submitted by राधिका on बुधवार, 02/08/2017 - 10:05.

IPA हे मुळात उच्चाराधारित असतं. त्यामुळे उच्चारात जर बारकासासुद्धा फरक असेल, तर तो IPAमधून दाखवता येतो. अर्थात, IPAलाही काही मर्यादा आहेत. पण तरी IPAचा आवाका इतर कोणत्याही लिपीपेक्षा खूप म्हणजे खूपच मोठा आहे.

काही उदाहरणे-

१. तुम्ही आणि तुम्म्ही असे दोन्ही (किंवा दोन्न्ही) उच्चार IPAत दाखवता येतात; नव्हे, जर तुम्ही 'तुम्म्ही' असा उच्चार करत असाल तर तो दर्शवण्यासाठी IPAत 'तुम्म्ही' असेच लेखन करावे लागते. 'तुम्ही' असे लेखन केले तर ते चुकीचे ठरेल.

२. 'शिकवणीचा' या रुपाचे दोन वेगवेगळे उच्चार होतील- शिक्वणीचा (राधिकाने आम्हाला उच्चारांकडे बारकाईने पाहण्याची शिकवण दिली. त्या शिकवणीचा आम्हाला पुढे खूप उपयोग झाला.) आणि शिकवणीचा (आम्ही राधिकाकडे फोनेटिक्सची शिकवणी लावली होती. त्या शिकवणीचा आम्हाला पुढे खूप उपयोग झाला.). हे दोन्ही उच्चार IPAत वेगवेगळे लिहिले जातील.

३. 'दर्या' आणि 'दऱ्या' या शब्दांतले वर्ण पाहता त्या वर्णांत आणि त्यांच्या रचनेत काय फरक आहे? दर्या = द् + अ + र् + य् + आ आणि दऱ्या म्हणजेदेखिल द् + अ + र् + य् + आ. म्हणजे वर्ण आणि त्यांची रचना यांत काहीच फरक नाही. परंतु सिलॅबल्सच्या रचनेत फरक आहे. 'दर्या'मध्ये 'र्'च्या नंतर यति (मी पॉजला किंवा सिलॅबिक ब्रेकला इथे यति म्हणते आहे. पारंपरिक व्याकरणात यतिचा अर्थ हा होतो का याच्याशी मला देणेघेणे नाही) आहे, तर 'दऱ्या'मध्ये 'र्'च्या आधी यति येऊन जाते. हा फरकही IPAत दाखवता येतो.

४. तुम्ही जर 'व' हे अक्षर उच्चारताना ओठांचा चंबू करत असाल तर तो उच्चार IPAत एका विशिष्ट प्रकारे दाखवला जाईल. जर तुम्ही खालचा ओठ वरच्या दातांच्या जवळ नेत असाल, तर तो उच्चार मात्र वेगळ्या प्रकारे दाखवला जाईल.

५. मराठी लोक उच्चारतात तो 'ओ' आणि प्रमाण अमेरिकी उच्चारातला 'ओ' हे वेगळे असतात, त्यामुळे IPAतही ते वेगळे लिहिले जातात.

इ. इ.

राधिका

आभार.

Permalink Submitted by ३_१४ विक्षिप्त अदिती on बुधवार, 02/08/2017 - 20:52.

माहितीपूर्ण प्रतिसाद.

'शिकवणीचा' हा शब्द डोक्यात आलाच नव्हता.

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

कुतूहल - मराठी की सर्व अबुगिद भाषांकरिता लागू होणारी एन्ट्रोपी?

Permalink Submitted by धनंजय on गुरुवार, 03/08/2017 - 20:12.

बऱ्याचशा मराठी पाठ्यांमध्ये एन्ट्रोपीचा आकडा जवळपास सारखा येतो, असे वाचल्यानंतर आणखी कुतुहल वाटू लागले आहे. हिंदी, गुजराती वगैरेंकरिता आकडा (सांख्यिक, विवक्षित अक्षरक्रम नव्हे) तोच येईल का? अन्य अबुगिद-लेखनपद्धतींच्या भाषा तमिळ, थाई, इथियोपियन... असे पुढील फर्माइशींचे वर्तुळ वाढवता येईल का?

आणखी काही बारीकसारीक टिप्पण्या

Permalink Submitted by धनंजय on गुरुवार, 03/08/2017 - 20:36.

टिप्पण्या बारीकसारीक आहेत, आणि मुख्य मुद्द्यास धक्का देत नाहीत. गैरसमज नसावा.

It is reasonable to suppose that the reader usually anticipates the next unread letter within an individual word, but only seldom beyond it.

यातील पहिले मानणे ठीक वाटते, की वाचक शब्दाकरिता अपेक्षा ठेवतात, आणि म्हणून सहा अक्षरांपुरते विश्लेषण करायचे आम्ही ठरवले, असे म्हणणे देखील योग्यच असते. परंतु "शब्दापलीकडे क्वचितच अपेक्षा ठेवतात", असे म्हणणे अनावश्यक आहे, आणि बहुधा चूकही आहे. अर्थपूर्ततेकरिता कमीतकमी एकक "वाक्य" हे आहे. इतकेच काय वाक्यांतर्गत घटक शब्द म्हणजे काय याची व्याख्या व्याकरणदृष्ट्या ठरवणे अतिशय जिकरीचे असते. व्याकरणातले कारक प्रकरण हे क्रियापदाने वाक्यांतर्गत अन्य विवक्षित पदांची अपेक्षा निर्माण केल्यामुळे घडते. सकर्मक-अकर्मक क्रियापदे ही या अपेक्षेमुळे ठरतात.

शिवाय भाषे-भाषेत पदप्रकारांचा काही एक विवक्षित क्रम अपेक्षित असतो. उदाहरणार्थ, मराठीत कर्ता-(अन्य कारके)-कर्म-क्रियापद असा काहीसा क्रम असतो. त्यामुळे कुठल्याही वाक्याच्या सुरुवातीला वाचक शेवटी क्रियापद येणार आहे, ही अपेक्षा ठेवून असतात. माझे भाकीत आहे की कोणी "." चिन्हाच्या आधी शोध घेतल्यास मराठीत "त/ता/ती/ते/तो/ल/ला/ली/ले/लो/ल्या/वा/वी/वे/आहे/नाही" हे पर्यायच फार मोठ्या वारंवारितेने सापडतील, अन्य अक्षरे पुष्कळ कमी वारंवारितेने सापडतील.

धनंजयच्या काही प्रश्नांना उत्तरे

Permalink Submitted by जयदीप चिपलकट्टी on शुक्रवार, 04/08/2017 - 00:33.

> हिंदी, गुजराती वगैरेंकरिता आकडा (सांख्यिक, विवक्षित अक्षरक्रम नव्हे) तोच येईल का? अन्य अबुगिद-लेखनपद्धतींच्या भाषा तमिळ, थाई, इथियोपियन... असे पुढील फर्माइशींचे वर्तुळ वाढवता येईल का?

प्रश्न साहजिक आहे, आणि आमच्या पेपरच्या पंधराव्या पानावर तो आम्ही उपस्थित केला आहे. (तिथे letter sets चा उल्लेख आहे, पण एकदा तिथे पोहोचलं की entropy लगेच काढता येईल.) पण त्या त्या भाषेची/लिपीची खोलवर जाण असणाऱ्यानेच त्यात पडावं हे उत्तम, अन्यथा कामात ढोबळ चुका होण्याची शक्यता बळावेल. मिहिरने लिहिलेला पायथन कोड असा आहे की थोडंफार इकडेतिकडे करून तो इतर कितीतरी भाषांसाठी वापरता येईल, तेव्हा भाविकांनी ह्या सुविधेचा लाभ घ्यावा ही विनंती.

> सकर्मक-अकर्मक क्रियापदे ही या अपेक्षेमुळे ठरतात.
> शिवाय भाषे-भाषेत पदप्रकारांचा काही एक विवक्षित क्रम अपेक्षित असतो.

हे मान्य आहेच. वाचणारा शब्दापलिकडे अपेक्षा ठेवतोच ठेवतो. पण ‘आता बहुतेक क्रियापद येईल’, किंवा आता ‘'तरीदेखील' अशासारखा शब्द येऊन वाक्याला वेगळंच वळण लागेल’ अशा धाटणीच्या त्या (काहीशा अंधुक) अपेक्षा असतात. पण ही अपेक्षा एकट्यादुकट्या अक्षराच्या पातळीवर बहुतेक वेळा नसते. तेव्हा anticipation बाबतीत आमचा मुद्दा ‘next unread letter’ एवढ्यापुरताच आहे.

बाकी research project सुचवल्याबद्दल आभारी आहे! थोडा फावला वेळ मिळाला की फर्माईश पुरी करण्याचा जरूर प्रयत्न करू. मिहिरने आपला कोड github वर टाकला आहे, तेव्हा इतरांनाही तो वापरता येईलच.

- जयदीप चिपलकट्टी

(होमपेज)

"." आधीची अक्षरे, एक छोटी खानेसुमारी

Permalink Submitted by धनंजय on गुरुवार, 03/08/2017 - 21:02.

खानेसुमारीकरिता जयदीप चिपलकट्टी यांचा लेख "लोकशाही राज्यपद्धतीचे फायदे व तोटे" वापरलेला आहे. त्यात "./?/!" चिन्हाआधीची अक्षरे नोंदवतो आहे -
खानेसुमारी हातेने करत आहे, या वाक्याशी थांबवली : "त्यावेळी तिला १ क्रमांक मिळेल आणि बाकी सर्वांचे क्रमांक पुढे जातील."

ली १०
ला ७
आहे ७
ल ६
त ६
तो ६
नाही ५
लं ४
ले ३
ते ३
चा ३
ता २
लो
ती
तं
घे
जा
गू
नको
स
व
कू
सं
च
वा
व्हे

फर्माईश : तर मिहीर आणि जयदीप यांनी केलेल्या विश्लेषणाशी समांतर, तीच सैद्धांतिक मोजणी-मापणी मानून "./?/!" चिन्हांच्या आधीची अक्षरे अभासता यावी, आणि त्यातही मराठीची "खूण" असलेले काहीतरी विवक्षित सापडू शकेल. इंग्रजीसारख्या कर्ता-क्रियापद-कर्म भाषेत मात्र वाक्यांतीच्या चिन्हांत मराठीपेक्षा खूपच अधिक वैविध्य असेल.

माझी आनुषंगिक शंका

Permalink Submitted by अरविंद कोल्हटकर on गुरुवार, 03/08/2017 - 21:05.

वरील सर्व चर्चा वाचतांना मला अनेकवार असे वाटले की कॉलेजात विश्वनाथाचे 'साहित्यदर्पण' शिकवितांना आमचे प्राध्यापक मामा पटवर्धन ह्यांनी असे विवेचन केल्याचे आठवते की अनेक वर्णांपासून झालेला शब्द ऐकतांना आपण वर्णांचे ध्वनि तर ऐकतोच पण शब्दाचा अर्थ केवळ ध्वनि ऐकून होत नाही तर शब्दामध्ये 'स्फोट' नावाची शक्ति असते जिच्यामुळे वर्ण ऐकताऐकता एका क्षणाला शब्दांच्या त्या वर्णमालिकेला अर्थ प्राप्त होतो. ह्या स्फोटशक्तीचे काही स्थान ह्या वरच्या चर्चेत असू शकेल काय? धनंजय अथवा राधिका ह्यावर प्रकाश टाकू शकतील असे वाटते.

पूर्वी 'अमृत' नावाचे मराठी डायजेस्ट वाचनात असे. त्यात एक मजेशीर लेख आला होता. मराठीतील रूढ शब्दांना संस्कृत रुपडे दिले तर काय होईल असे त्या लेखाचे स्वरूप होते आणि 'सिग्नल' (रेल्वेचा) ह्याला तेथे 'अग्निरथगमनागमनसूचकलोहपट्टिका' असे रूपान्तर सुचविले होते. ह्या आगगाडीच्याच लांबीच्या शब्दामधून थोडेफार संस्कृत जाणणाऱ्यांना त्याचा 'सिग्नल' हा अर्थ कळेल पण त्यासाठी शब्दामधील किती वर्ण कानावर पडायला लागतील असा काहीसा माझा प्रश्न आहे.

"स्फोट" मेटाफिझिकल काहीशी श्रद्धेकडी झुकणारी संज्ञा

Permalink Submitted by धनंजय on शनिवार, 05/08/2017 - 03:52.

"स्फोट" मेटाफिझिकल, काहीशी श्रद्धेकडी झुकणारी संज्ञा आहे. या बाबतीत, नैयायिक मीमांसक आणि वैयाकरण आपापसात किचकट आणि आजकाल आपल्याला निरर्थक वाटावीत अशी भांडणे करतात.

मात्र संज्ञा घडवण्याच्या हेतूबाबत विचार करून, कुठलीशी कामचलाऊ संकल्पना आज घडवता यावी. मात्र असे केल्यास प्राचीन व्याख्या आणि त्याविषयीचे वाद कदाचित निःसंदर्भ होतील, आणि ही नवी संकल्पना त्या प्राचीन संकल्पनेशी जुळलेली नाहीच, असे कोणी म्हणू शकेल.

प्राचीन वैयाकरणांसारखी आपणही जर भाषा सदासर्वकाळसाठी न-बदलणारी मानली, तर अमुक ध्वनीची तमुक अर्थाशी घातलेली कायमची सांगड [किंवा ईश्वरेच्छा] याला "स्फोट" म्हणतात.
(वर्ण, पद किंवा वाक्य अशा तीन प्रकारचे स्फोट असतात, पैकी वाक्यस्फोट तितका खरा, बाकी विद्यार्थ्याच्या सोयीकरिता कल्पित आहेत, असे वैयाकरण म्हणतात. )

मात्र ध्वनी आणि अर्थ यांची सांगड सदासर्वकाळसाठी नसते, एका मनुष्याच्या जीवनकालातही बदल जाणवून येतात, शिवाय बालके शिकताना ज्ञानात बदल होतात, म्हणजे ही अशी कुठली सांगड आपण मूलभूत मानू शकत नाही. मात्र वक्ता-लेखक आणि श्रोता-वाचक यांच्या एखाद्या मर्यादित संभाषणापुरते पाहिल्यास कित्येकदा परिस्थिती अशी असते : की दोन्ही बाजूंना अशी काहीतरी सांगड परस्परमान्य असते, आणि सांगड त्या मर्यादित काळात लक्षात घेण्यालायक बदलतही नाही. त्या संभाषणापुरती म्हणावी, तर ध्वनी आणि अर्थाची सांगड "मूलभूत" मानून काम चालवून घेता येते, आणि त्या संभाषणातील प्रयोगांचे उपयुक्त विश्लेषण करता येते. अशी ही सांगड कुठल्या एका वर्णाशी, किंवा वर्णसमुदायाशी नसते, पण क्रमासहित-वर्णसमुदायाशी असते. (हे असे नव्हे, पुढचा वर्ण उच्चारता-उच्चारता मागचा वर्ण नाहिसा होतो, आणि नाहिशा होणाऱ्या गोष्टींचा "क्रम" असा काही असूच शकत नाही... असा काहीतरी किचकट युक्तिवाद काही वैयाकरण करून आपल्या पायावर धोंडा घालतात, त्याच्याकडे मी सध्या दुर्लक्ष करतो आहे.) ... तरी बघूया -- एखादे शब्दरूप ऐकून त्याचा अर्थ ध्यानात यायला एकूण एक घटक वर्ण अनावश्यकही नसतात, अपरिहार्यही नसतात, असे काहीतरी त्यांचे त्रिशंकू सभासदत्व असते. जयदीप/मिहिर यांनी वर सोदहारण दाखवून दिले आहे, की काही वर्ण गाळूनही अर्थ निःसंशयपणे कळून येतो. पण अगदी टोकाला नेऊन कोणी म्हणू लागले, की कोणताच वर्ण कधीच आवश्यक नाही, तर मग त्याचे खंडन असे : "सोटा/लोटा, सोटा/सुटा, सोटा/सोडा, सोटा/सोटे" येथे प्रत्येक जोडीत वेगवेगळे अर्थ कळून येतात, म्हणजे मग स्, ओ, ट्, आ चारपैकी प्रत्येक वर्ण नेमका अर्थ कळण्यासाठी "आवश्यक" असेच म्हणावे लागेल. ...

अर्थनिर्णयाच्या संभवनीयतेचे सांख्यिकी गणित, वगैरे संकल्पनाच प्राचीन व्याकरणात युक्तिवादाकरिता उपलब्ध नव्हत्या. म्हणून त्यांना स्फोटशक्ती मूलभूत करावी लागली, आणि प्रत्युदाहरणांच्या दलदलीत फसले. आज असे विश्लेषण उपलब्ध आहे. म्हणून त्या प्राचीन लोकांचा संज्ञा-बनवण्याचा हेतू + आज उपलब्ध गणिती अवजारे एकत्र करून "स्फोट"सारखी काही उपयुक्त संकल्पना घडवून राबवता येईल, असे मला वाटते.

जुन्या संकल्पनेत तुमच्या 'अग्निरथगमनागमनसूचकलोहपट्टिका' उदाहरणाचे काय उत्तर द्यावे ते कोण्या एका टोकाचे असते, की "अवघा ध्वनिक्रम ऐकल्याशिवाय काही स्फोटमय अर्थ कळूनच येत नाही", किंवा "एकत्रित स्फोट असा असा काही नाहीच मुळी -- बारीक-बारीक अर्थांची रेल्वेगाडी एका-एका वर्णासह येत आहे" असे काहीतरी. आणि दोन्ही टोके अनुभवाशी विसंगत ठरली असती.

प्राचीन वैयाकरणांसारखी आपणही

Permalink Submitted by बॅटमॅन on शनिवार, 05/08/2017 - 15:49.

प्राचीन वैयाकरणांसारखी आपणही जर भाषा सदासर्वकाळसाठी न-बदलणारी मानली,

सदासर्वकाळ न बदलणारी म्हणजे फारतर कंटिन्युअस चेंज मानत नसतील, परंतु "जुन्या काळी तसे आणि सध्या असे" अशा थाटाची विधाने तर प्राचीन वैयाकरण करतातच, नाही का? आता असे उदाहरण मला माहिती नाही, परंतु एकाच वेळी विविध भागांमधील भाषा वेगवेगळी असते हे तर पाणिनी स्वत:च म्हणतो. सबब या ठिकाणी नक्की काय म्हणायचे आहे हे मला समजले नाही.

माहिष्मती साम्राज्यं अस्माकं अजेयं

जुन्या काळी विरुद्ध आता असे मानत नाहीत

Permalink Submitted by धनंजय on सोमवार, 07/08/2017 - 23:13.

वैदिक प्रयोगांसाठीचे काही वेगळे नियम पाणिनीने दिलेले आहेत खरे (म्हणजे कित्येक "अ-नियम" दिलेले आहेत, खरे.) परंतु यावेगळे काल-सापेक्षत्व काही मान्य केलेले दिसत नाही. वैदिक प्रयोग जुने म्हणून वेगळे, असे नसून त्यांचे धार्मिक असणे वादातीत आहे, म्हणून ते ग्राह्य आहेत. लोकभाषेत साधुप्रयोग धर्मनियमाकरिता असतात, ते साधुप्रयोग कुठले, ते प्रतिष्ठित लोकांना व्याकरण न-शिकताही कळतात. पण व्याकरण शिकून सोय होते.

आता त्यांच्या-त्यांच्या काळात प्रतिष्ठित लोकांमध्ये ऐकू येणारे, पाणिनीकडून "चुकून गणना करायचे राहिलेले प्रयोग" कात्यायन आणि पतंजली अधूनमधून देतात. कित्येकदा ते खरेच पाणिनीच्या नजरचुकीने राहिलेले आहेत, की बदललेली भाषा आहे, हे सांगण्याकरिता आपल्याकडे मार्ग नाही. परंतु कधीकधी ही चूक दुरुस्त करताना कात्यायन आणि पतंजली पाणिनीचा नियम खोडूनच काढतात -- अशा परिस्थितीत आपण आजकाल म्हणू, की मध्यंतरी भाषा बदललेली असावी. परंतु कात्यायन-पतंजलींच्या स्पष्टीकरणात असे काही येत नाही. उलट पाणिनीचेच शास्त्र आधीपासून आतापर्यंत एकच आहे अशाच प्रकारे जुळवाजुळव असते.

भाषेत बदल अमान्य करताना पतंजली जी उदाहरणे देतो, ती एकतर निंदावयंजक असतात -- म्हणजे "गो" ऐवजी काही लोक "गावी, गोणी, गोपोतलीका" वगैरे शब्द वापरत, ते सार्थ असले तरी धर्मविरुद्ध आहेत. किंवा निंदा करणे योग्य नसेल, तर काहीतरी पळवाट काढतो. उदाहरणार्थ "यर्वाण, तर्वाण" नावाचे ऋषि सन्माननीय असले तरी खरी नावे यद्वान् तद्वान् अशीच आहेत, वगैरे.
म्हणजे बदललेली भाषा एक तर चुकीची आहे, किंवा बदल झालेलाच नाही, पाणिनीने नजरचुकीने नोंद केलेली नाही, हे इतकेच पर्याय वापरतात.

अच्छा, धन्यवाद. महाभाष्य

Permalink Submitted by बॅटमॅन on मंगळवार, 08/08/2017 - 12:45.

अच्छा, धन्यवाद. महाभाष्य वाचावेच लागणार असे दिसतेय एकूण. अतिरोचक.

माहिष्मती साम्राज्यं अस्माकं अजेयं

माधव देशपांडे यांचा निबंध

Permalink Submitted by धनंजय on मंगळवार, 08/08/2017 - 20:37.

जमल्यास माधव देशपांडे यांचे निबंधही बघा :
https://books.google.com/books?id=NDrqaELkKTEC&printsec=frontcover&sourc...
दुवा थेट योग्य "पतंजलि" निबंधावर उघडला नाही, तर चापील पृष्ठ क्रमांक १७ बघा (सॉफ्टवेअर-अंतर्गत पान क्रमांक वेगळा असू शकेल.)

आपली जाहिरात

Permalink Submitted by धनंजय on मंगळवार, 08/08/2017 - 21:07.

व्याकरण महाभाष्याची प्रस्तावना - एक मराठीकरण

धन्यवाद. हे वाचून पाहतो.

Permalink Submitted by बॅटमॅन on मंगळवार, 08/08/2017 - 21:12.

धन्यवाद. हे वाचून पाहतो. बहुधा अगोदरही कधीतरी पाहिले आहे पण विसरलो, सबब पुन्हा वाचले तर उत्तमच.

माहिष्मती साम्राज्यं अस्माकं अजेयं

माहितीत थोडी भर पडली.

Permalink Submitted by अरविंद कोल्हटकर on शनिवार, 05/08/2017 - 20:27.

धन्यवाद धनंजय. प्राध्यापकांचे 'स्फोटा'वरचे निरूपण आनन्दवर्धनाच्या 'ध्वन्यालोका'तील 'ध्वनि' समजावून सांगतांना त्या ओघात आले होते. त्याचा संबंध अलंकाराबरोबरच न्याय, मीमांसा आणि व्याकरणाशीहि जोडता येतो हे दिसले. तो कसा हे मी जाणू शकत नाही कारण ह्या तिन्ही शास्त्रांशी माझा जुजबी तोंडओळखीपलीकडे परिचय नाही.

या आगगाडीच्याच लांबीच्या

Permalink Submitted by जयदीप चिपलकट्टी on शुक्रवार, 04/08/2017 - 00:45.

या आगगाडीच्याच लांबीच्या शब्दामधून थोडेफार संस्कृत जाणणाऱ्यांना त्याचा 'सिग्नल' हा अर्थ कळेल पण त्यासाठी शब्दामधील किती वर्ण कानावर पडायला लागतील असा काहीसा माझा प्रश्न आहे.

ह्या बाबतीत माझा अंदाज असा की अत्यंत अनवट शब्द अोळखायला उलट फार सोपा असतो (अर्थात तो मुळात ऐकणाऱ्याला माहित असेल तर). आयआयटीत असताना आम्ही ‘शब्दवेध’ (what is the good word) खेळत असू. तेव्हा ‘एकसमयावच्छेदेकरून’ ह्या शब्दाला बंदी घातलेली होती, कारण तो पहिल्या फटक्यात अोळखता येत असे.

- जयदीप चिपलकट्टी

(होमपेज)

तुम्ही मराठी OCR अॅप बनवू

Permalink Submitted by अचरट ऐसीकर on रविवार, 06/08/2017 - 20:19.

तुम्ही मराठी OCR अॅप बनवू शकलात तर उपयोगी होईल.
हे विधान आगावू वाटल्यास सोडून द्या.

मराठी OCR

Permalink Submitted by जयदीप चिपलकट्टी on सोमवार, 07/08/2017 - 07:44.

आगाऊपणाचा काही प्रश्न नाही. मराठी OCR बनवता आलं तर (माझ्यासह) अनेकांना त्याचा खूप उपयोग होईल. पण हे काम फार अवघड दिसतं. अनेकांनी ही खटपट करून पाहिलेली आहे, पण म्हणावं तसं यश आलेलं नाही.

- जयदीप चिपलकट्टी

(होमपेज)

काही वेगळाच अल्गोरिदम वापरला

Permalink Submitted by अचरट ऐसीकर on सोमवार, 07/08/2017 - 10:46.

काही वेगळाच अल्गोरिदम वापरला तर प्रश्न सुटेल.
समजा "म्ह" ओळखलं तर पुढच्या अक्षराची वारंवारिता ण/णू/ट अशी कमी होईल त्यातले ओळखले तिसरे आणखी सोपे असं काहितरी.
मराठी -इंग्रजी शब्दकोशात शब्द शोधताना टंकू लागले की अथवा मराठी कीबोर्डातही शब्द सुचवले जातात यावरून पुढे जाता येईल असे वाटले.
अशा वापराधारित कृतींच्या मागे तुम्ही जे मूलभूत संशोधन करता आहात ते लपलेले असणार.

Google is adding voice

Permalink Submitted by अचरट ऐसीकर on सोमवार, 14/08/2017 - 21:11.

Google is adding voice recognition support for twenty-one additional languages
मराठी आहे त्यात. कन्नड,गुजराती मलयालमसह.
मराठी बोललेलं शोधलं जाईल,लिहिलं जाईल?

दखल

#ऐसीअक्षरे #दिवाळी२०२३

दिवाळी अंक पाहिलात का?

दिनवैशिष्ट्य

१९ एप्रिल
जन्मदिवस : पूर्व प्राथमिक शिक्षणाच्या प्रवर्तक ताराबाई मोडक (१८९२), उद्योगपती पीटर दी नरोन्हा (१८९७), युरेनियमपेक्षा जड १० मूलद्रव्यांचा शोध लावणारा नोबेलविजेता ग्लेन सीबोर्ग (१९१२), गायिका मालती पांडे-बर्वे (१९३०), क्रिकेटपंच डिकी बर्ड (१९३३), अभिनेता अर्शद वारसी (१९६८), टेनिसखेळाडू मारिया शारापोव्हा (१९८७)
मृत्युदिवस : रोमँटिक कवी लॉर्ड बायरन (१८२४), उत्क्रांतिसिद्धांताचा जनक, जीवशास्त्रज्ञ चार्ल्स डार्विन (१८९२), क्यूरी परिणाम आणि रेडीयमवर संशोधन करणारा नोबेलविजेता पिएर क्यूरी (१९०६), क्रांतिकारक अनंत कान्हेरे कृष्णाजी गोपाळ कर्वे आणि विनायक नारायण देशपांडे (१९१०), पर्यावरणवादी, लेखक जिम कॉर्बेट (१९५५), लोकसाहित्याच्या अभ्यासक सरोजिनी बाबर (२००८), वृत्तपत्रउद्योजक सिवंती आदीतन (२०१३), अॅनिमेशनपट आणि चित्रपटदिग्दर्शक भीमसेन (२०१८), सिनेदिग्दर्शिका सुमित्रा भावे (२०२१)
---
सायकल दिन
UN मँडरीन भाषा दिवस.
१५३६ : बाबरने दिल्लीच्या इब्राहिमखान लोदीचा पराभव करुन मोगल साम्राज्य स्थापन केले.
१८३९ : १८३९चा लंडनचा तह - बेल्जियम स्वतंत्र राष्ट्र म्हणून अस्तित्वात.
१९१० : क्रांतिकारक अनंत कान्हेरे, कृष्णाजी गोपाळ कर्वे आणि विनायक नारायण देशपांडे यांना ठाणे कारागृहात फाशी.
१९१९ : अमेरिकेच्या लेस्ली अर्विनने सर्वप्रथम पॅराशूटच्या सहाय्याने विमानातून उडी मारली.
१९२७ : मे वेस्ट या अमेरिकन अभिनेत्रीला 'सेक्स' नाटकातल्या बीभत्सपणासाठी दहा दिवसांचा कारावास.
१९७१ : पहिले स्पेस स्टेशन 'सॅल्यूट-१' अवकाशात.
१९७५ : 'आर्यभट्ट' हा भारताचा पहिला भूस्थिर उपग्रह रश्याच्या साहाय्याने अवकाशात सोडला गेला.
१९८७ : 'द सिंप्सन्स' मालिकेची मर्यादित सुरूवात.
२०११ : ४५ वर्षांनंतर क्यूबाच्या कम्युनिस्ट पक्षाच्या केंद्रीय समितीमधून फिडेल कॅस्ट्रोचा राजीनामा.

दिवाळी अंक २०२३

दिवाळी अंक २०२३
धाकट्या मामाच्या बारा गोष्टी - माधुरी पुरंदरे
दाकाराई सुमन ओकोये
साखर उद्योग आणि आफ्रिका
बाँब देम
उड उड रे काऊ। पुन्हा नको मज शिवू॥
चहा-बिस्किटाची प्रेमकहाणी
इसासून : नायजेरियन खाद्यसंस्कृती
शोध एकोणिसाव्या शतकातील एका महाराष्ट्रकन्येचा…
रवांडामधील वंशसंहार
टिंबक्टू – इतिहास आणि वर्तमान
M-Pesa - आफ्रिकन खंडातील Fintech
सिंधुआज्जी आणि टारझनचे पशू
बिबट्याच्या कातड्याची पिलबॉक्स टोपी

सध्या कोण कोण आलेले आहे?

There is currently 1 user online.

Rajesh188

सदस्य आगमन

ऐशा रसां ऐसे रसिक...

शोध

मराठी भाषेची विस्कळ - जयदीप आणि मिहिरचं संशोधन

प्रतिक्रिया

दखल

दिनवैशिष्ट्य

दिवाळी अंक २०२३

आवागमन (navigation)

सध्या कोण कोण आलेले आहे?

सदस्य आगमन

ऐशा रसां ऐसे रसिक...

उद्दिष्टे - मार्गदर्शक तत्त्वे - धोरणे