मराठी भाषेची विस्कळ - जयदीप आणि मिहिरचं संशोधन

ऐसी सदस्य आणि संशोधक जयदीप चिपलकट्टी आणि मिहिर यांनी मराठी भाषेची विस्कळ (entropy) या विषयावर लिहिलेला हा पेपर. त्यात लिहिलेल्या गोष्टी सोप्या करून लिहिण्याची जाहीर विनंती करण्यासाठी आणि त्यावर चर्चा करण्यासाठी हा धागा.

हा पेपर - On the letter frequencies and entropy of written Marathi

(सध्या धागा माझ्या नावावर असला तरीही जयदीप/मिहिरला त्याचं पितृत्व देण्यासाठी मी उत्सुक आहे.)

धाग्याचा प्रकार निवडा: : 
माहितीमधल्या टर्म्स: 
field_vote: 
0
No votes yet

प्रतिक्रिया

अतिशय मूलभूत (अडाणी) प्रश्न -

Quantity of information - या गणितात log2 का वापरलं आहे हे मला समजलं नाही. (मूळ संदर्भ वाचायचा आळस आहे, म्हणून विचारून घेत्ये.)

समजा डोळे बंद करून तिरंग्यावर कुठेतरी बोट ठेवलं तर, हिरवा आणि भगव्याची शक्यता एकसमान असेल, पांढऱ्याची त्यापेक्षा कमी असेल आणि निळ्याची अगदी कमी असेल. साधारण ०.३३, ०.३३, ०.३२, ०.०२ असं अनुक्रमे मानलं. तर त्यातली माहिती किती, हे शोधताना log2 वापरणार का log4?

ज्या गोष्टीची शक्यता जितकी कमी त्या प्रमाणात त्यातली माहिती जास्त ही गोष्ट मला फारच सुंदर वाटली. अनपेक्षित घटना घडली की त्यातून अधिक माहिती मिळते; ही गोष्ट पत्रकारितेत फारच वापरून घेतात.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

> या गणितात log2 का वापरलं आहे हे मला समजलं नाही. 

त्या २ ह्या आकड्याला सोनं चिकटलेलं नाही. समजा २ ऐवजी सरसकट ५ वापरला तर सगळे आकडे log_5(2) = 0.43 इतक्या गुणोत्तराने कमी होतील. पण मूलभूत फरक असा काही होणार नाही. एकतर मैल वापरा किंवा किलोमीटर वापरा तसंच ते आहे.

> समजा डोळे बंद करून तिरंग्यावर कुठेतरी बोट ठेवलं…

तिरंगा म्हणजे काय ते स्पष्ट करत जा हो! नेदरलंडचा किंवा रशियाचा झेंडा तिरंगाच आहे. ज्याला पाहताक्षणीच कोमल हृदयाच्या व्यक्ती दु:खसंतापाने हतबल होतात तो कॉनफेडरेट फ्लॅगही तिरंगाच आहे. पण ते असो. रंग कितीही असले तरी एकदा log_2 वापरायचा ठरवल्यावर सगळीकडे तोच वापरायचा.

> ज्या गोष्टीची शक्यता जितकी कमी त्या प्रमाणात त्यातली माहिती जास्त ही गोष्ट मला फारच सुंदर वाटली. 

हो ना! आता समजा दिवाळी अंकासाठीचे सगळे लेख १५ सप्टेंबरपर्यंत खरोखरीच जर आले तर किती सुंदर होईल नाही?! पण तसं होण्याची शक्यता कमी नसून शून्य आहे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

- जयदीप चिपलकट्टी (होमपेज)

तिरंगा हा शब्द विशेषनाम म्हणून वापरल्यामुळे कोणाचंही कोमल हृदय दुःखसंतापानं हतबल झालं नसेल अशी अपेक्षा!

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

तिरंगा म्हणजे काय ते स्पष्ट करत जा हो!

मराठी माणसाने असं वाक्य म्हणणे हे मी कधी इमॅजीनच केलं नसत!

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

का?
जगात निम्मे ध्वज तर तिरंगेच असतील. हां आता त्यावर संशोधन करावं लागेल.
निम्मे ऐसीकर भारतात रहातच नसतील तर तिरंगाशंकेवर आश्चर्य वाटू नये!
.
बाकी सांप्रत लेखकाची भूमिका इथे वाचून मग लेख वाचला तर अधिक चांगला कळेल असा अंदाज आहे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

बघा! म्हणजे त्या वाक्यातून बरीच माहिती मिळाली.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

१) तिरंगा हे भारतीय लोक बोलत तेव्हा यनिअन जॅक वि तिरंगा. इतर लोक Indian Tricolour.
२)लेखकास दोनाच्या घातांकाची पट्टी आवडली आहे.
३)मराठी भाषेची विस्कळ -
मराठी भाषेच्या देवनागरी लिपितील अक्षरांची वाढत जाणारी विस्कळ (= कमी होणारी वारंवारिता.)

अक्षरांचे युनिकोड क्रमांक ठरवण्यासाठी हे entropy संशोधन करावे लागते का?

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

देवनागरी अक्षरे मूळ अक्षर व काने-मात्रा असे वेगवेगळे पाहण्याऐवजी एकत्र पाहण्याचे काय कारण?
एकंदरित या उपक्रमाचा हेतू काय होता व तो साध्य झाला का हे शोधनिबंध वाचून लक्षात आले नाही.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

> देवनागरी अक्षरे मूळ अक्षर व काने-मात्रा असे वेगवेगळे पाहण्याऐवजी एकत्र पाहण्याचे काय कारण?

हे वाक्य पाहा: टिळक पुण्यतिथी निमित्त शाळेत झालेल्या वादविवाद स्पर्धेत वंदनाला ब◼︎स मिळालं.

इथे ◼︎ च्या जागी काय असेल हे वाचणाऱ्याला सहज अोळखता येतं. पण तो असं नाही म्हणत की ‘इथे बहुतेक आधी क्ष येईल, आणि त्यामागोमाग दीर्घ वेलांटी येईल.’ वाचताना ‘क्षी’ हा एकसंध घटक म्हणून दिसतो, त्यातले ‘क+ष+ी’ असे घटक वेगवेगळे दिसत नाहीत. ‘भाषेची एंट्रपी’ ह्या कल्पनेमध्ये वाचणारा वाचत असताना पुढचा घटक ‘अोळखायला’ किती सोपा किंवा अवघड आहे याचं सरासरी मोजमाप अपेक्षित आहे. तेव्हा त्या चौकटीत विचार करता कानामात्रा वेगळ्या काढणं योग्य वाटत नाही.

> एकंदरित या उपक्रमाचा हेतू काय होता व तो साध्य झाला का हे शोधनिबंध वाचून लक्षात आले नाही.

उपक्रमाचा हेतू मराठीची एंट्रपी काढून पाहणे हा होता, आणि आमच्या मते तो साध्य झाला. (अर्थात एंट्रपी हा एकच आकडा नसून परस्परांशी विशिष्ट संबंध असलेले ते अनेक आकडे आहेत, पण तो तपशीलाचा मुद्दा झाला.) मराठीचे ‘canonical letter sets’ काढता येणं हा सुरवातीला मुख्य उद्देश जरी नसला तरी ह्या निमित्ताने तोही साध्य झाला.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

- जयदीप चिपलकट्टी (होमपेज)

  • तसेही, ब-ने सुरू होऊन स-ने संपणारे असे कितीसे तीन(ब्लीप)क्ष(ब्लीप) शब्द मराठीत आहेत? बघूस, बनूस, बसूस असे काही मोजकेच लक्षात येतात.
  • उलटपक्षी, क्षी हे अक्षर मध्यभागी असलेले कितीसे शब्द मराठीत आहेत?
  • 'वादविवाद स्पर्धेत वंदनाला (ब्लीप)क्षी(ब्लीप) मिळाले' म्हटल्यास पुरेसे नि:संदिग्ध होणार नाही काय?

नाही म्हणजे, एण्ट्रॉपी नक्की कशाची, क्षी या अक्षराची की आणखी कशाची, याचा अंदाज बांधतोय.

बाकी, मूळ प्रबंध वाचलेला नसल्याने (१) त्याविषयी काही टिप्पणी करणे उचित समजत नाही, आणि (२) (समजुतीत) काही चुकलेमाकले असल्यास क्षमा करावी.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक1
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

> नाही म्हणजे, एण्ट्रॉपी नक्की कशाची, क्षी या अक्षराची की आणखी कशाची, याचा अंदाज बांधतोय.

'Entropy is a measure of the disorder of the system' हे सर्वश्रुतच आहे. एंट्रपी ही एकट्यादुकट्या अक्षराची नसून तसं पाहिलं तर अखिल विश्वाचीच असते. ती मोजताना अनेक शक्यता विचारात घ्याव्या लागतात:

(१) टिळक जर मुखदुर्बळ असते किंवा त्यांचा स्वभाव जर चि.वि. जोशांसारखा भिडस्त असता तर त्यांच्या स्मृतीप्रीत्यर्थ वादविवाद स्पर्धा कुणी घेतली नसती. तर असं होण्या न होण्याची शक्यता किती?
(२) वंदनाच्या पत्रिकेत ‘व’ हे अक्षर आलं नाही आणि म्हणून तिचं नाव वंदना नाही, अहोनहोशकि?
(३) वंदनाच्या पत्रिकेत ‘व’ हे अक्षर आलं नाही, आणि पण तिच्या आजोबांचा पत्रिकेवर विश्वास नसल्यामुळे त्यांच्या आग्रहाखातर नातीचं नाव वंदनाच ठेवलं अहोनहोशकि?
(४) जर मोंगल भारतात आले नसते तर ‘बक्षीस’ हा शब्दही मराठीत आला नसता. अहोनहोशकि?

ह्या वानगीदाखल लिहिल्या, पण अशा कोट्यवधी शक्यता असतात आणि त्यांना फाटे फुटत जातात. तर ह्या सगळ्या शाखाउपशाखांतल्या शक्यतांच्या गुणाकारांची बेरीज करून त्याचा लॉगॅरिथम काढून एंट्रपी येते. फार किचकट प्रकार असतो. म्हणून तर पेपर इंग्रजीत लिहिला आहे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

- जयदीप चिपलकट्टी (होमपेज)

>>वेगवेगळे पाहण्याऐवजी एकत्र पाहण्याचे काय कारण?>>

एखादा शब्दकोश आहे आणि त्यामध्ये शोध चौकटीत एकेक अक्षर हवे असलेल्या शब्दाचे टंकू लागलो की खालच्या ओळीत शब्द सुचवले जातात.
उदा शब्द आराधना.
१) आ टंकल्यावर असंख्य पर्याय पुढे येतील परंतू त्यातील एकदोनच दिसतात.
२) पुढचे अक्षर या टंकल्यावर काम सोपे होईल.
आराखडा,आराम,आराध्य वगैरे.
३)ध टंकल्यावर आराधना सुचवले जाईल आणि आपण त्या शब्दावरच टिचकी मारू शकू , ना टंकावे लागणार नाही.
४)यामध्ये काही गणित काम आणखी सोपे करेल.
५) पुढेमागे मराठी लेखन वाचून दाखवण्याचे अॅप काढण्याचे काम हे लेखक निश्चितच करतील.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

माझा प्रश्न होता की र व रा अशी दोन 'अक्षरे' गणण्याऐवजी र व काना अशी दोन चिन्हे वापरली असती तर काय फरक पडला असता? उपयुक्ततेच्या दृष्टीने व अभ्यासाच्या दृष्टीने.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

व्यंजन+आकार याची वारंवारिता व्यंजन+उकार आणि व्यंजन+आकार याच्यापेक्षा वेगळी असू शकते. त्यामुळे, समजा व्यंजन+आकार याची वारंवारिता कमी असेल तर त्यातून मिळणारी माहिती जास्त. त्यामुळे असा वापर केला असावा.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

********
वाक्या वाळे अंदु, कृष्णा, नवनीत चोरी...

असंच वाटतं. किंबहुना पेपरमध्ये तेलुगु-रोमन ट्रान्सलिटरेटचा तळटिपांत उल्लेख आहे; तो आक्षेप याच कारणांमुळे पटतो.

जयदीपच्या या जुन्या लेखात स्वर आणि व्यंजनांचा असाच काहीसा स्वतंत्र अभ्यास आहे; इथे दोन्ही एकत्र केलं आहे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

ते ठीक आहे, पण एंट्रॉपी जास्तीत जास्त यावी हे मनात धरून अक्षरं कशी मोजावीत हे ठरवलेले नाही. वर जयदीपने म्हटल्यानुसार आपण मराठी वाचताना अक्षर म्हणून कशाचा विचार करतो हे महत्त्वाचे आहे. लेखी मराठी वाचताना मी 'आदूबाळ' ह्या शब्दात आ, दू, बा आणि ळ ही चार अक्षरे आहेत असे मी म्हणेन. आ, द्, ऊ, ब्, आ, ळ्, अ अशी सात अक्षरे आहेत असे म्हणणार नाही. 'आ'नंतरचे पुढचे अक्षर 'दू' आहे हे एका टप्प्यात वाचेन. भाषेची एंट्रॉपी ही आपण अक्षरे वाचताना पुढील अक्षरांचा अंदाज करण्याची जी प्रक्रिया आपल्या मेंदूत आपोआप होत असते तिचे मोजमाप असल्याने अक्षरांची ही व्याख्या वापरली आहे.

  • ‌मार्मिक1
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

वर जयदीपने म्हटल्यानुसार आपण मराठी वाचताना अक्षर म्हणून कशाचा विचार करतो हे महत्त्वाचे आहे. लेखी मराठी वाचताना मी 'आदूबाळ' ह्या शब्दात आ, दू, बा आणि ळ ही चार अक्षरे आहेत असे मी म्हणेन. आ, द्, ऊ, ब्, आ, ळ्, अ अशी सात अक्षरे आहेत असे म्हणणार नाही. 'आ'नंतरचे पुढचे अक्षर 'दू' आहे हे एका टप्प्यात वाचेन.

हा मुद्दा महत्त्वाचा आहे, आणि दिलेले उत्तर काहीसे बरोबरही असावे. पण स्वयंस्पष्ट नाही.
अनेक-स्वर-असलेल्या मराठी पदांत एक जाणवणारे-अक्षर कुठे संपते आणि पुढचे कधी सुरू होते, ते काही बाबतीत कळणे सोपे आहे, तर काही जोडाक्षरांच्या बाबतीत कठिण आहे.
"साक्षात्कार" याची फोड माझ्या दृष्टीने "सा" "क्षात्" "कार्" (अगदी संस्कृत उच्चार केला तर "सा" "क्षात्" "का" "र") अशी होते. "सा" "क्षा" "त्का" "र" अशी नव्हे.

तुमच्या मूळ निबंधातील "र्ज्वा" उदाहरण अक्षर म्हणून मला काहीसे पटले नव्हते -- परंतु र्-ज्-व्-आ ही क्रमात अक्षरे त्या एका आणि एका "बूर्ज्वा" च शब्दामध्ये दिसतात, इतपत उदाहरण म्हणून मला पटले होते, त्यामुळे उदाहरण वापरण्याबाबत माझा काही विरोध नाही.

छापखान्यातील कंपोझिटरांना या बाबतीत थोडे अनुभवजन्य ज्ञान असावे. ओळीच्या शेवटी लांब शब्द कुठे "-" खुणेने तोडून पुढच्या ओळीत घालावा? याबाबत त्यांना पुष्कळदा निर्णय घ्यावा लागतो.

अक्षरांचे घटक याबाबत काही विचार या विकिपीडिया चित्रात दिसू शकेल :
https://en.wikipedia.org/wiki/Syllable#/media/File:Syllable_onset_rhyme.png

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

साक्षात्कारची सिलॅबलांनुसार फोड 'सा' 'क्षात्' 'कार्' अशी होईल हे ठीकच आहे (की 'साक्' 'षात्' 'कर्' अशी?). ह्या प्रयोगात कानाला ऐकू कसे येते हे दुर्लक्षून लेखी मराठी वाचतानाचा विचार केला आहे. 'वस्तू' आणि 'स्तूप' ह्या दोन शब्दांत 'स्तू' हे अक्षर अनुक्रमे दोन व एका सिलॅबलात विभागले गेले असले, तरी वाचताना ते एकच अक्षर आहे. मराठी शब्दकोडे सोडवताना वेगवेगळ्या चौकटींत अक्षरे कशी भरू ह्याचा विचार करावा.

_____
बाकी, फर्माइशी आवडल्या. जमेल तशा पूर्ण करण्याचा प्रयत्न करेन. आणखीही फर्माइशी असतील तर स्वागतच आहे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

दहा बारा प्रतिसाद आल्यावर लेखकांचे उत्तर येईल असे वाटते.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट1
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

वरील शीर्षकाचा चिपलकट्टींचा ऐसीवरील लेख मराठी भाषेमध्ये अक्षरांच्या वापराची वारंवारिता किती आहे ह्या विषयावर आहे. सध्याच्या लेखातील काही कल्पना तेथेहि दिसतात. त्या लेखाच्या प्रयत्नाचा हा लेख पुढचा भाग आहे का? ह्या संशोधनाचे अंतिम फलित काय असावे - हे संशोधन पुरेसे पुढे नेता आले तर काय मिळण्याची अपेक्षा आहे - असे स्पष्टीकरण (ज्याला सैनिकांच्या भाषेत 'आम रुख' म्हणतात) मिळाल्यास टेक्नोमंद वाचकांना लेख अधिक सौकर्याने वाचता येईल असे वाटते.

सध्या सर्वत्र (रोमन, देवनागरी इत्यादि सर्व लिपींसाठी) जे Predictive text उपलब्ध आहे त्याहून ह्यामध्ये वेगळे आणि अधिक उपयोगाचे असे काय आहे तेहि टेक्नोमंद लोकांना सांगितले तर हवे आहे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

एंट्रपीबद्दल चर्चा वर झालीच आहे. मराठीची एंट्रपी काढणे आणि इंग्रजीची काढणे (हा प्रयत्न साठेक वर्षांपूर्वी शॅननने केला होता) यांतला मुख्य फरक असा की मराठी लिखाण ‘तसंच्या तसं’ वापरता येत नाही. यामागे कारण असं की मराठीतल्या अक्षरांची संख्या इंग्रजीच्या मानाने खूपच जास्त असल्यामुळे संख्याशास्त्रीय अडचणी फार येतात. (उदा. कुठल्याही कादंबरीत हजारापेक्षा जास्त भिन्न अक्षरं असतात.)

तर यावर आम्ही काढलेला तोडगा म्हणजे Canonical Letter Sets. उदाहरणार्थ, ५४ अक्षरांचा असा एक संच असतो की सर्वसाधारण मराठी लिखाणाचा ६०% भाग त्यांतूनच आलेला असतो. त्याचप्रमाणे ८५% भाग त्याच त्या १७७ अक्षरांतून आलेला असतो. तर समजा हीच १७७ अक्षरं शिल्लक ठेवली आणि बाकीच्या अक्षरांच्या जागी नुसता ◼︎ असा ठसा उमटवला, तरी लिखाणाची जवळजवळ काहीच हानी होत नाही असं आमच्या ध्यानात आलं. तर एंट्रपी अशा प्रकारे ‘सुलभीकृत’ केलेल्या लिखाणावरून काढलेली आहे. यामागचा उघड फायदा असा की हजाराच्या मानाने १७७ हा आकडा खूपच आटोपशीर असल्यामुळे वर उल्लेखलेल्या अडचणी निकालात निघतात. हे सगळं आम्ही ‘मराठी विश्वकोश’ हे sample text घेऊन केलेलं आहे.

तर आम्हाला आशा अशी आहे की असेच Canonical Letter Sets इतर भारतीय भाषांसाठीही कुणीतरी शोधून काढावेत. उदा. मराठी, बंगाली, कोंकणी, हिंदी यांच्या Sets ची जर तुलना केली तर त्यांतून भाषा कशा बदलत जातात याबद्दल काही निश्चित संख्याशास्त्रीय निष्कर्ष काढता यावेत. पण ह्या फार पुढच्या गोष्टी झाल्या.

टीप: आमच्या पेपरमध्ये पान ११-१२ वर जे उतारे दिलेले आहेत, त्यांपैकी पहिला नितिन थत्त्यांच्या ‘मूल्य आणि किंमत (दिवाळी अंक २०१२)’ ह्या लेखामधून तर दुसरा अरविंद कोल्हटकरांच्या ‘मोल्सवर्थ कोश, मोल्सवर्थ आणि कँडी - भाग १ (९ जानेवारी,
२०१३)’ ह्या लेखातून घेतलेला आहे. दोन्ही लेख ‘ऐसी’वर प्रसिद्ध झालेले आहेत. ह्याबद्दलचा श्रेयनिर्देश पेपरमधून अनवधानाने राहून गेला याबद्दल क्षमस्व.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक1
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

- जयदीप चिपलकट्टी (होमपेज)

लॉगचा बेस म्हणून २ ऐवजी इतर संख्याही वापरू शकतो, पण log2 वापरल्यामुळे एंट्रॉपीचे एकक बिट्स हे आहे. माहिती सिद्धांताच्या क्षेत्रात साधारणपणे बेस २ वापरला जातो. एका अगदी सोप्या उदाहरणाचा विचार करू.
छापा व काटा ह्यांची संभाव्यता १/२ असणारी नाणेफेक घ्या. p(छापा) = 1/2 व p(काटा) = 1/2. ह्या नाणेफेकीची एंट्रॉपी (दिलेल्या सूत्रानुसार व लॉगचा बेस 2 वापरून) 1 बिट आहे. ह्या फेकीचे उत्तर दाखवण्यासाठी एक बिट पुरेसा आहे. 0 = छापा, 1 = काटा. तसेच एक नाणे दोनदा उडवले तर आपल्यासमोर छापा छापा, छापा काटा, काटा छापा व काटा काटा हे चार पर्याय आहेत. ह्या उदाहरणाची एंट्रॉपी 2 बिट आहे आणि उत्तर दाखवण्यासाठी दोन बिट पुरेसे आहेत. असमान संभाव्यतेच्या नाण्यांचा विचार केला तर ही तुलना तितकीशी थेट राहात नाही व किचकट होते, पण लॉगचा बेस दोन वापरणे व एंट्रॉपीचे एकक बिट्स असणे यांच्यातला संबंध समजण्यासाठी हे उदाहरण पुरेसे असावे.

अक्षरांचे युनिकोड क्रमांक ठरवण्यासाठी हे entropy संशोधन करावे लागते का?

नाही. देवनागी अक्षरांचे युनिकोड क्रमांक आधीच ठरले आहेत. इथे बघा. ह्या युनिकोड क्रमांकांचा वापर अक्षरे ओळखण्यासाठी व मोजण्यासाठी करण्यात आला.

वरील शीर्षकाचा चिपलकट्टींचा ऐसीवरील लेख मराठी भाषेमध्ये अक्षरांच्या वापराची वारंवारिता किती आहे ह्या विषयावर आहे. सध्याच्या लेखातील काही कल्पना तेथेहि दिसतात. त्या लेखाच्या प्रयत्नाचा हा लेख पुढचा भाग आहे का?

असे म्हणता यावे. तरयकल लेखात फक्त व्यंजनांची वारंवारिता मोजली होती. इथे वर उल्लेखलेल्या कारणांमुळे अक्षरांची संभाव्यता मोजली आहे. तसेच अमुक अक्षरानंतर तमुक अक्षर येण्याची संभाव्यता किती हेही मोजले आहे. ह्या एंट्रॉपीमापनाचा तसेच निबंधात शेवटी दिलेल्या अक्षरांच्या वारंवारितेचा एनकोडिंग, डेटा कंप्रेशन अशा कामांसाठी उपयोग होऊ शकतो. उदा. हफमन कोडिंग. म्हणजे वारंवार येणारी अक्षरांसाठी कमी बिट्स वापरून डेटा कंप्रेस करणे, 'च्या' अक्षर लिहिण्यासाठी 'च'+'्'+'य'+'ा' हे चार युनिकोड वापरण्याऐवजी कमी जागा वापरणे इ. इ.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक1
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

तपशीलात उत्तराबद्दल आभार जयदीप, मिहिर.
> आदूबाळ
यात चार अक्षरे आहेत हे उदाहरण एकदम पटले.
अशी चर्चा काही सहकाऱ्यांसह एकदा झाली होती, तेव्हा इंग्रजीत मार्टिन नावात मार् व टिन् असे दोनच घटक आहेत असे त्यांचे मत पडले. (सिलॅबल्स) ते आठवले.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

निबंध बराचसा डोक्यावरून गेला. इथले साद-प्रतिसाद वाचलेले नाहीत.

मराठीच्या phonologyवर काम करत होते, तेव्हापासून उच्चारित शब्दांत कोणते sound sequences जास्त वारंवारितेने वापरले जातात हे शोधून काढण्याची इच्छा होती. आपण वापरलेली पद्धत IPA transcriptionsना लावण्यात काही अडचण उद्भवेल का?

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

राधिका

तेव्हापासून उच्चारित शब्दांत कोणते sound sequences जास्त वारंवारितेने वापरले जातात हे शोधून काढण्याची इच्छा होती

सोप्पे आहे की! आधी एक phonetic dictionary घ्या. म्ग पहिजे त्या लेखनाला phone sequence मधे convert करा. मग ते इनपुट घेऊन frequency काढण्याचा कोड लिहा.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

तुम्ही एखाद्या विशिष्ट फोनच्या फ्रिक्वेंसीबद्दल बोलताय की मला फोनेटिक सिक्वेन्सच्या प्रिक्वेंसीबद्दल?

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

राधिका

फोनेटिक सिक्वेन्सच्या प्रिक्वेंसीबद्दल.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

चिपलकट्टी आणि मिहिर यांनी तुम्ही सुचवलेली पद्धतच वापरली आहे का?

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

राधिका

बघावे लागेल. पेपर नाही वाचला

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

अच्छा. बरं.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

राधिका

आपण वापरलेली पद्धत IPA transcriptionsना लावण्यात काही अडचण उद्भवेल का?

पद्धत नक्कीच वापरता येईल, पण तशीच्या तशी नाही. कारण बोलताना प्रत्येक अक्षरावर सारखा जोर नसतो. त्यामुळे मिहिरने सांगितलेला "हे अक्षर नसलं तर शब्द ओळखा पाहू" हा खेळ syllables हे युनिट मानून खेळायला लागेल.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

********
वाक्या वाळे अंदु, कृष्णा, नवनीत चोरी...

आपला मुद्दा भाषावैज्ञानिक आहे की तांत्रिक?

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

राधिका

तांत्रिक. चिपलकट्टी-कुलकर्णी पद्धत बोलीभाषेसाठी कशी वापरता येईल याबद्दल.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

********
वाक्या वाळे अंदु, कृष्णा, नवनीत चोरी...

सर्व अक्षरांवर जोर सारखा नसतो हा मुद्दा भाषावैज्ञानिक वाटतो. शिवाय त्याचा इथे संबंध कळला नाही.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

राधिका

मनोबाने खफवर दिलेल्या उदाहरणातून:

"बागकाम " ह्या शब्दाचा उच्चार "बाक्काम " का करतात?
चांदणी चौकाला बोलताना "चान्नी चौक" का म्हणतात ?

लिखित शब्द "बागकाम"मध्ये चि-कु पद्धतीप्रमाणे बा, ग, का, म अशी चार अक्षरं धरून विश्लेषण केलं जाईल. पण हेच विश्लेषण बोलीचं करायचं तर "क्का" (ग+का) हे विश्लेशणाचं युनिट धरायला लागेल. त्यालाच मी सैलपणे syllable म्हणत होतो. त्यामुळे हा तांत्रिक मुद्दा आहे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

********
वाक्या वाळे अंदु, कृष्णा, नवनीत चोरी...

IPA transcriptionमध्ये 'बागकाम' आणि 'बाक्काम' हे वेगवेगळे लिहिले जातात. त्यामुळे आपल्याला वाटतो आहे तो मुद्दा उद्भवत नाही.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

राधिका

मुळात 'बाक्काम' असे कुठे लिहिले जाते का?

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

मराठी लेखनात नाही. IPA transcription हे वेगळे प्रकरण आहे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

राधिका

दिव्य आणि दिवा या शब्दांची काही रूपं सारखीच लिहिली जातात, पण उच्चार निराळे असतात. दिव्यातून, दिव्याला, वगैरे. या दोन्हींचं उच्चार/मूळ शब्दानुसार IPA transcription निराळं होतं का?

  • ‌मार्मिक0
  • माहितीपूर्ण1
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

IPA हे मुळात उच्चाराधारित असतं. त्यामुळे उच्चारात जर बारकासासुद्धा फरक असेल, तर तो IPAमधून दाखवता येतो. अर्थात, IPAलाही काही मर्यादा आहेत. पण तरी IPAचा आवाका इतर कोणत्याही लिपीपेक्षा खूप म्हणजे खूपच मोठा आहे.

काही उदाहरणे-

१. तुम्ही आणि तुम्म्ही असे दोन्ही (किंवा दोन्न्ही) उच्चार IPAत दाखवता येतात; नव्हे, जर तुम्ही 'तुम्म्ही' असा उच्चार करत असाल तर तो दर्शवण्यासाठी IPAत 'तुम्म्ही' असेच लेखन करावे लागते. 'तुम्ही' असे लेखन केले तर ते चुकीचे ठरेल.

२. 'शिकवणीचा' या रुपाचे दोन वेगवेगळे उच्चार होतील- शिक्वणीचा (राधिकाने आम्हाला उच्चारांकडे बारकाईने पाहण्याची शिकवण दिली. त्या शिकवणीचा आम्हाला पुढे खूप उपयोग झाला.) आणि शिकवणीचा (आम्ही राधिकाकडे फोनेटिक्सची शिकवणी लावली होती. त्या शिकवणीचा आम्हाला पुढे खूप उपयोग झाला.). हे दोन्ही उच्चार IPAत वेगवेगळे लिहिले जातील.

३. 'दर्या' आणि 'दऱ्या' या शब्दांतले वर्ण पाहता त्या वर्णांत आणि त्यांच्या रचनेत काय फरक आहे? दर्या = द् + अ + र् + य् + आ आणि दऱ्या म्हणजेदेखिल द् + अ + र् + य् + आ. म्हणजे वर्ण आणि त्यांची रचना यांत काहीच फरक नाही. परंतु सिलॅबल्सच्या रचनेत फरक आहे. 'दर्या'मध्ये 'र्'च्या नंतर यति (मी पॉजला किंवा सिलॅबिक ब्रेकला इथे यति म्हणते आहे. पारंपरिक व्याकरणात यतिचा अर्थ हा होतो का याच्याशी मला देणेघेणे नाही) आहे, तर 'दऱ्या'मध्ये 'र्'च्या आधी यति येऊन जाते. हा फरकही IPAत दाखवता येतो.

४. तुम्ही जर 'व' हे अक्षर उच्चारताना ओठांचा चंबू करत असाल तर तो उच्चार IPAत एका विशिष्ट प्रकारे दाखवला जाईल. जर तुम्ही खालचा ओठ वरच्या दातांच्या जवळ नेत असाल, तर तो उच्चार मात्र वेगळ्या प्रकारे दाखवला जाईल.

५. मराठी लोक उच्चारतात तो 'ओ' आणि प्रमाण अमेरिकी उच्चारातला 'ओ' हे वेगळे असतात, त्यामुळे IPAतही ते वेगळे लिहिले जातात.

इ. इ.

  • ‌मार्मिक0
  • माहितीपूर्ण1
  • विनोदी0
  • रोचक1
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

राधिका

माहितीपूर्ण प्रतिसाद.

'शिकवणीचा' हा शब्द डोक्यात आलाच नव्हता.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

बऱ्याचशा मराठी पाठ्यांमध्ये एन्ट्रोपीचा आकडा जवळपास सारखा येतो, असे वाचल्यानंतर आणखी कुतुहल वाटू लागले आहे. हिंदी, गुजराती वगैरेंकरिता आकडा (सांख्यिक, विवक्षित अक्षरक्रम नव्हे) तोच येईल का? अन्य अबुगिद-लेखनपद्धतींच्या भाषा तमिळ, थाई, इथियोपियन... असे पुढील फर्माइशींचे वर्तुळ वाढवता येईल का?

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

टिप्पण्या बारीकसारीक आहेत, आणि मुख्य मुद्द्यास धक्का देत नाहीत. गैरसमज नसावा.

It is reasonable to suppose that the reader usually anticipates the next unread letter within an individual word, but only seldom beyond it.

यातील पहिले मानणे ठीक वाटते, की वाचक शब्दाकरिता अपेक्षा ठेवतात, आणि म्हणून सहा अक्षरांपुरते विश्लेषण करायचे आम्ही ठरवले, असे म्हणणे देखील योग्यच असते. परंतु "शब्दापलीकडे क्वचितच अपेक्षा ठेवतात", असे म्हणणे अनावश्यक आहे, आणि बहुधा चूकही आहे. अर्थपूर्ततेकरिता कमीतकमी एकक "वाक्य" हे आहे. इतकेच काय वाक्यांतर्गत घटक शब्द म्हणजे काय याची व्याख्या व्याकरणदृष्ट्या ठरवणे अतिशय जिकरीचे असते. व्याकरणातले कारक प्रकरण हे क्रियापदाने वाक्यांतर्गत अन्य विवक्षित पदांची अपेक्षा निर्माण केल्यामुळे घडते. सकर्मक-अकर्मक क्रियापदे ही या अपेक्षेमुळे ठरतात.

शिवाय भाषे-भाषेत पदप्रकारांचा काही एक विवक्षित क्रम अपेक्षित असतो. उदाहरणार्थ, मराठीत कर्ता-(अन्य कारके)-कर्म-क्रियापद असा काहीसा क्रम असतो. त्यामुळे कुठल्याही वाक्याच्या सुरुवातीला वाचक शेवटी क्रियापद येणार आहे, ही अपेक्षा ठेवून असतात. माझे भाकीत आहे की कोणी "." चिन्हाच्या आधी शोध घेतल्यास मराठीत "त/ता/ती/ते/तो/ल/ला/ली/ले/लो/ल्या/वा/वी/वे/आहे/नाही" हे पर्यायच फार मोठ्या वारंवारितेने सापडतील, अन्य अक्षरे पुष्कळ कमी वारंवारितेने सापडतील.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

> हिंदी, गुजराती वगैरेंकरिता आकडा (सांख्यिक, विवक्षित अक्षरक्रम नव्हे) तोच येईल का? अन्य अबुगिद-लेखनपद्धतींच्या भाषा तमिळ, थाई, इथियोपियन... असे पुढील फर्माइशींचे वर्तुळ वाढवता येईल का?

प्रश्न साहजिक आहे, आणि आमच्या पेपरच्या पंधराव्या पानावर तो आम्ही उपस्थित केला आहे. (तिथे letter sets चा उल्लेख आहे, पण एकदा तिथे पोहोचलं की entropy लगेच काढता येईल.) पण त्या त्या भाषेची/लिपीची खोलवर जाण असणाऱ्यानेच त्यात पडावं हे उत्तम, अन्यथा कामात ढोबळ चुका होण्याची शक्यता बळावेल. मिहिरने लिहिलेला पायथन कोड असा आहे की थोडंफार इकडेतिकडे करून तो इतर कितीतरी भाषांसाठी वापरता येईल, तेव्हा भाविकांनी ह्या सुविधेचा लाभ घ्यावा ही विनंती.

> सकर्मक-अकर्मक क्रियापदे ही या अपेक्षेमुळे ठरतात.
> शिवाय भाषे-भाषेत पदप्रकारांचा काही एक विवक्षित क्रम अपेक्षित असतो. 

हे मान्य आहेच. वाचणारा शब्दापलिकडे अपेक्षा ठेवतोच ठेवतो. पण ‘आता बहुतेक क्रियापद येईल’, किंवा आता ‘'तरीदेखील' अशासारखा शब्द येऊन वाक्याला वेगळंच वळण लागेल’ अशा धाटणीच्या त्या (काहीशा अंधुक) अपेक्षा असतात. पण ही अपेक्षा एकट्यादुकट्या अक्षराच्या पातळीवर बहुतेक वेळा नसते. तेव्हा anticipation बाबतीत आमचा मुद्दा ‘next unread letter’ एवढ्यापुरताच आहे.

बाकी research project सुचवल्याबद्दल आभारी आहे! थोडा फावला वेळ मिळाला की फर्माईश पुरी करण्याचा जरूर प्रयत्न करू. मिहिरने आपला कोड github वर टाकला आहे, तेव्हा इतरांनाही तो वापरता येईलच.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

- जयदीप चिपलकट्टी (होमपेज)

खानेसुमारीकरिता जयदीप चिपलकट्टी यांचा लेख "लोकशाही राज्यपद्धतीचे फायदे व तोटे" वापरलेला आहे. त्यात "./?/!" चिन्हाआधीची अक्षरे नोंदवतो आहे -
खानेसुमारी हातेने करत आहे, या वाक्याशी थांबवली : "त्यावेळी तिला १ क्रमांक मिळेल आणि बाकी सर्वांचे क्रमांक पुढे जातील."

ली १०
ला ७
आहे ७
ल ६
त ६
तो ६
नाही ५
लं ४
ले ३
ते ३
चा ३
ता २
लो
ती
तं
घे
जा
गू
नको


कू
सं

वा
व्हे

फर्माईश : तर मिहीर आणि जयदीप यांनी केलेल्या विश्लेषणाशी समांतर, तीच सैद्धांतिक मोजणी-मापणी मानून "./?/!" चिन्हांच्या आधीची अक्षरे अभासता यावी, आणि त्यातही मराठीची "खूण" असलेले काहीतरी विवक्षित सापडू शकेल. इंग्रजीसारख्या कर्ता-क्रियापद-कर्म भाषेत मात्र वाक्यांतीच्या चिन्हांत मराठीपेक्षा खूपच अधिक वैविध्य असेल.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

वरील सर्व चर्चा वाचतांना मला अनेकवार असे वाटले की कॉलेजात विश्वनाथाचे 'साहित्यदर्पण' शिकवितांना आमचे प्राध्यापक मामा पटवर्धन ह्यांनी असे विवेचन केल्याचे आठवते की अनेक वर्णांपासून झालेला शब्द ऐकतांना आपण वर्णांचे ध्वनि तर ऐकतोच पण शब्दाचा अर्थ केवळ ध्वनि ऐकून होत नाही तर शब्दामध्ये 'स्फोट' नावाची शक्ति असते जिच्यामुळे वर्ण ऐकताऐकता एका क्षणाला शब्दांच्या त्या वर्णमालिकेला अर्थ प्राप्त होतो. ह्या स्फोटशक्तीचे काही स्थान ह्या वरच्या चर्चेत असू शकेल काय? धनंजय अथवा राधिका ह्यावर प्रकाश टाकू शकतील असे वाटते.

पूर्वी 'अमृत' नावाचे मराठी डायजेस्ट वाचनात असे. त्यात एक मजेशीर लेख आला होता. मराठीतील रूढ शब्दांना संस्कृत रुपडे दिले तर काय होईल असे त्या लेखाचे स्वरूप होते आणि 'सिग्नल' (रेल्वेचा) ह्याला तेथे 'अग्निरथगमनागमनसूचकलोहपट्टिका' असे रूपान्तर सुचविले होते. ह्या आगगाडीच्याच लांबीच्या शब्दामधून थोडेफार संस्कृत जाणणाऱ्यांना त्याचा 'सिग्नल' हा अर्थ कळेल पण त्यासाठी शब्दामधील किती वर्ण कानावर पडायला लागतील असा काहीसा माझा प्रश्न आहे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

"स्फोट" मेटाफिझिकल, काहीशी श्रद्धेकडी झुकणारी संज्ञा आहे. या बाबतीत, नैयायिक मीमांसक आणि वैयाकरण आपापसात किचकट आणि आजकाल आपल्याला निरर्थक वाटावीत अशी भांडणे करतात.

मात्र संज्ञा घडवण्याच्या हेतूबाबत विचार करून, कुठलीशी कामचलाऊ संकल्पना आज घडवता यावी. मात्र असे केल्यास प्राचीन व्याख्या आणि त्याविषयीचे वाद कदाचित निःसंदर्भ होतील, आणि ही नवी संकल्पना त्या प्राचीन संकल्पनेशी जुळलेली नाहीच, असे कोणी म्हणू शकेल.

प्राचीन वैयाकरणांसारखी आपणही जर भाषा सदासर्वकाळसाठी न-बदलणारी मानली, तर अमुक ध्वनीची तमुक अर्थाशी घातलेली कायमची सांगड [किंवा ईश्वरेच्छा] याला "स्फोट" म्हणतात.
(वर्ण, पद किंवा वाक्य अशा तीन प्रकारचे स्फोट असतात, पैकी वाक्यस्फोट तितका खरा, बाकी विद्यार्थ्याच्या सोयीकरिता कल्पित आहेत, असे वैयाकरण म्हणतात. )

मात्र ध्वनी आणि अर्थ यांची सांगड सदासर्वकाळसाठी नसते, एका मनुष्याच्या जीवनकालातही बदल जाणवून येतात, शिवाय बालके शिकताना ज्ञानात बदल होतात, म्हणजे ही अशी कुठली सांगड आपण मूलभूत मानू शकत नाही. मात्र वक्ता-लेखक आणि श्रोता-वाचक यांच्या एखाद्या मर्यादित संभाषणापुरते पाहिल्यास कित्येकदा परिस्थिती अशी असते : की दोन्ही बाजूंना अशी काहीतरी सांगड परस्परमान्य असते, आणि सांगड त्या मर्यादित काळात लक्षात घेण्यालायक बदलतही नाही. त्या संभाषणापुरती म्हणावी, तर ध्वनी आणि अर्थाची सांगड "मूलभूत" मानून काम चालवून घेता येते, आणि त्या संभाषणातील प्रयोगांचे उपयुक्त विश्लेषण करता येते. अशी ही सांगड कुठल्या एका वर्णाशी, किंवा वर्णसमुदायाशी नसते, पण क्रमासहित-वर्णसमुदायाशी असते. (हे असे नव्हे, पुढचा वर्ण उच्चारता-उच्चारता मागचा वर्ण नाहिसा होतो, आणि नाहिशा होणाऱ्या गोष्टींचा "क्रम" असा काही असूच शकत नाही... असा काहीतरी किचकट युक्तिवाद काही वैयाकरण करून आपल्या पायावर धोंडा घालतात, त्याच्याकडे मी सध्या दुर्लक्ष करतो आहे.) ... तरी बघूया -- एखादे शब्दरूप ऐकून त्याचा अर्थ ध्यानात यायला एकूण एक घटक वर्ण अनावश्यकही नसतात, अपरिहार्यही नसतात, असे काहीतरी त्यांचे त्रिशंकू सभासदत्व असते. जयदीप/मिहिर यांनी वर सोदहारण दाखवून दिले आहे, की काही वर्ण गाळूनही अर्थ निःसंशयपणे कळून येतो. पण अगदी टोकाला नेऊन कोणी म्हणू लागले, की कोणताच वर्ण कधीच आवश्यक नाही, तर मग त्याचे खंडन असे : "सोटा/लोटा, सोटा/सुटा, सोटा/सोडा, सोटा/सोटे" येथे प्रत्येक जोडीत वेगवेगळे अर्थ कळून येतात, म्हणजे मग स्, ओ, ट्, आ चारपैकी प्रत्येक वर्ण नेमका अर्थ कळण्यासाठी "आवश्यक" असेच म्हणावे लागेल. ...

अर्थनिर्णयाच्या संभवनीयतेचे सांख्यिकी गणित, वगैरे संकल्पनाच प्राचीन व्याकरणात युक्तिवादाकरिता उपलब्ध नव्हत्या. म्हणून त्यांना स्फोटशक्ती मूलभूत करावी लागली, आणि प्रत्युदाहरणांच्या दलदलीत फसले. आज असे विश्लेषण उपलब्ध आहे. म्हणून त्या प्राचीन लोकांचा संज्ञा-बनवण्याचा हेतू + आज उपलब्ध गणिती अवजारे एकत्र करून "स्फोट"सारखी काही उपयुक्त संकल्पना घडवून राबवता येईल, असे मला वाटते.

जुन्या संकल्पनेत तुमच्या 'अग्निरथगमनागमनसूचकलोहपट्टिका' उदाहरणाचे काय उत्तर द्यावे ते कोण्या एका टोकाचे असते, की "अवघा ध्वनिक्रम ऐकल्याशिवाय काही स्फोटमय अर्थ कळूनच येत नाही", किंवा "एकत्रित स्फोट असा असा काही नाहीच मुळी -- बारीक-बारीक अर्थांची रेल्वेगाडी एका-एका वर्णासह येत आहे" असे काहीतरी. आणि दोन्ही टोके अनुभवाशी विसंगत ठरली असती.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक1
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

प्राचीन वैयाकरणांसारखी आपणही जर भाषा सदासर्वकाळसाठी न-बदलणारी मानली,

सदासर्वकाळ न बदलणारी म्हणजे फारतर कंटिन्युअस चेंज मानत नसतील, परंतु "जुन्या काळी तसे आणि सध्या असे" अशा थाटाची विधाने तर प्राचीन वैयाकरण करतातच, नाही का? आता असे उदाहरण मला माहिती नाही, परंतु एकाच वेळी विविध भागांमधील भाषा वेगवेगळी असते हे तर पाणिनी स्वत:च म्हणतो. सबब या ठिकाणी नक्की काय म्हणायचे आहे हे मला समजले नाही.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

ROMANES EUNT DOMUS

वैदिक प्रयोगांसाठीचे काही वेगळे नियम पाणिनीने दिलेले आहेत खरे (म्हणजे कित्येक "अ-नियम" दिलेले आहेत, खरे.) परंतु यावेगळे काल-सापेक्षत्व काही मान्य केलेले दिसत नाही. वैदिक प्रयोग जुने म्हणून वेगळे, असे नसून त्यांचे धार्मिक असणे वादातीत आहे, म्हणून ते ग्राह्य आहेत. लोकभाषेत साधुप्रयोग धर्मनियमाकरिता असतात, ते साधुप्रयोग कुठले, ते प्रतिष्ठित लोकांना व्याकरण न-शिकताही कळतात. पण व्याकरण शिकून सोय होते.

आता त्यांच्या-त्यांच्या काळात प्रतिष्ठित लोकांमध्ये ऐकू येणारे, पाणिनीकडून "चुकून गणना करायचे राहिलेले प्रयोग" कात्यायन आणि पतंजली अधूनमधून देतात. कित्येकदा ते खरेच पाणिनीच्या नजरचुकीने राहिलेले आहेत, की बदललेली भाषा आहे, हे सांगण्याकरिता आपल्याकडे मार्ग नाही. परंतु कधीकधी ही चूक दुरुस्त करताना कात्यायन आणि पतंजली पाणिनीचा नियम खोडूनच काढतात -- अशा परिस्थितीत आपण आजकाल म्हणू, की मध्यंतरी भाषा बदललेली असावी. परंतु कात्यायन-पतंजलींच्या स्पष्टीकरणात असे काही येत नाही. उलट पाणिनीचेच शास्त्र आधीपासून आतापर्यंत एकच आहे अशाच प्रकारे जुळवाजुळव असते.

भाषेत बदल अमान्य करताना पतंजली जी उदाहरणे देतो, ती एकतर निंदावयंजक असतात -- म्हणजे "गो" ऐवजी काही लोक "गावी, गोणी, गोपोतलीका" वगैरे शब्द वापरत, ते सार्थ असले तरी धर्मविरुद्ध आहेत. किंवा निंदा करणे योग्य नसेल, तर काहीतरी पळवाट काढतो. उदाहरणार्थ "यर्वाण, तर्वाण" नावाचे ऋषि सन्माननीय असले तरी खरी नावे यद्वान् तद्वान् अशीच आहेत, वगैरे.
म्हणजे बदललेली भाषा एक तर चुकीची आहे, किंवा बदल झालेलाच नाही, पाणिनीने नजरचुकीने नोंद केलेली नाही, हे इतकेच पर्याय वापरतात.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

अच्छा, धन्यवाद. महाभाष्य वाचावेच लागणार असे दिसतेय एकूण. अतिरोचक.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

ROMANES EUNT DOMUS

जमल्यास माधव देशपांडे यांचे निबंधही बघा :
https://books.google.com/books?id=NDrqaELkKTEC&printsec=frontcover&sourc...
दुवा थेट योग्य "पतंजलि" निबंधावर उघडला नाही, तर चापील पृष्ठ क्रमांक १७ बघा (सॉफ्टवेअर-अंतर्गत पान क्रमांक वेगळा असू शकेल.)

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

धन्यवाद. हे वाचून पाहतो. बहुधा अगोदरही कधीतरी पाहिले आहे पण विसरलो, सबब पुन्हा वाचले तर उत्तमच.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

ROMANES EUNT DOMUS

धन्यवाद धनंजय. प्राध्यापकांचे 'स्फोटा'वरचे निरूपण आनन्दवर्धनाच्या 'ध्वन्यालोका'तील 'ध्वनि' समजावून सांगतांना त्या ओघात आले होते. त्याचा संबंध अलंकाराबरोबरच न्याय, मीमांसा आणि व्याकरणाशीहि जोडता येतो हे दिसले. तो कसा हे मी जाणू शकत नाही कारण ह्या तिन्ही शास्त्रांशी माझा जुजबी तोंडओळखीपलीकडे परिचय नाही.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

या आगगाडीच्याच लांबीच्या शब्दामधून थोडेफार संस्कृत जाणणाऱ्यांना त्याचा 'सिग्नल' हा अर्थ कळेल पण त्यासाठी शब्दामधील किती वर्ण कानावर पडायला लागतील असा काहीसा माझा प्रश्न आहे.

ह्या बाबतीत माझा अंदाज असा की अत्यंत अनवट शब्द अोळखायला उलट फार सोपा असतो (अर्थात तो मुळात ऐकणाऱ्याला माहित असेल तर). आयआयटीत असताना आम्ही ‘शब्दवेध’ (what is the good word) खेळत असू. तेव्हा ‘एकसमयावच्छेदेकरून’ ह्या शब्दाला बंदी घातलेली होती, कारण तो पहिल्या फटक्यात अोळखता येत असे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

- जयदीप चिपलकट्टी (होमपेज)

तुम्ही मराठी OCR अॅप बनवू शकलात तर उपयोगी होईल.
हे विधान आगावू वाटल्यास सोडून द्या.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

आगाऊपणाचा काही प्रश्न नाही. मराठी OCR बनवता आलं तर (माझ्यासह) अनेकांना त्याचा खूप उपयोग होईल. पण हे काम फार अवघड दिसतं. अनेकांनी ही खटपट करून पाहिलेली आहे, पण म्हणावं तसं यश आलेलं नाही.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

- जयदीप चिपलकट्टी (होमपेज)

काही वेगळाच अल्गोरिदम वापरला तर प्रश्न सुटेल.
समजा "म्ह" ओळखलं तर पुढच्या अक्षराची वारंवारिता ण/णू/ट अशी कमी होईल त्यातले ओळखले तिसरे आणखी सोपे असं काहितरी.
मराठी -इंग्रजी शब्दकोशात शब्द शोधताना टंकू लागले की अथवा मराठी कीबोर्डातही शब्द सुचवले जातात यावरून पुढे जाता येईल असे वाटले.
अशा वापराधारित कृतींच्या मागे तुम्ही जे मूलभूत संशोधन करता आहात ते लपलेले असणार.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

Google is adding voice recognition support for twenty-one additional languages
मराठी आहे त्यात. कन्नड,गुजराती मलयालमसह.
मराठी बोललेलं शोधलं जाईल,लिहिलं जाईल?

  • ‌मार्मिक0
  • माहितीपूर्ण1
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0