Skip to main content

अक्षरांचे संख्याशास्त्र आणि मराठीची तदानुषंगिक थट्टा

अक्षरांचे संख्याशास्त्र आणि मराठीची तदानुषंगिक थट्टा

लेखक - जयदीप चिपलकट्टी

इंग्रजी लिखाणामध्ये e ह्या अक्षराचा वापर सर्वात जास्त होतो, हा शोध इतिहासात अनेकदा लागलेला आहे. अार्थर कॉनन डॉईलच्या 'The Adventure of the Dancing Men' या गोष्टीतून मला तो ठाऊक झाला. शिकागोमधल्या एक गुन्हेगारी टोळीच्या सदस्यांनी आपापसांत वापरण्यासाठी एक सांकेतिक लिपी तयार केलेली होती. वेगवेगळ्या अक्षरांसाठी वेगवेगळ्या आविर्भावांत नाचणाऱ्या माणसांची चित्रं, असा तक्ता तयार करून ती बनवलेली होती. उदाहरणार्थ, e ह्या अक्षरासाठी असा माणूस:

किंवा r साठी असा:

गोष्टीची नायिका एल्सी पॅट्रिक अमेरिकेतल्या तिच्या गतायुष्यात ह्या टोळीशी संबंधित होती, पण ते आता मागे सोडून देऊन इंग्लंडला येऊन ती लग्न करून राहिलेली होती. याच टोळीतल्या एब स्लेनी नावाच्या तिच्या वैफल्यग्रस्त प्रियकराला हे आवडलं नव्हतं. तिच्या मागोमाग तो इंग्लंडला आला, आणि ही लिपी वापरून तिला चिठ्ठ्या पाठवू लागला. हा प्रकार एल्सीच्या नवऱ्याला गूढाचा आणि धोक्याचा वाटल्यामुळे त्याने शेरलॉक्स होम्सची मदत घेतली. चिठ्ठ्यांचा अभ्यास करून होम्सने तर्क असा केला की त्यामध्ये जास्तीतजास्त वेळा येणारं चिन्ह e साठी असावं. एक अक्षर सापडल्यानंतर त्याच्या आधारे दुसरं, असं करत त्याने बाकीची चिन्हं शोधून काढली.

दरम्यान एके रात्री स्लेनी आणि एल्सीचा नवरा यांच्यात बाचाबाची होऊन गोळीबार झाला, नवरा ठार झाला आणि मध्ये सापडलेल्या एल्सीला मोठी जखम झाली. स्लेनी पळाला. होम्स घटनास्थळी गेला, त्याच लिपीमध्ये चिठ्ठी पाठवून त्याने स्लेनीला बोलावून घेतलं आणि रीतसर अटक केली. आपल्या टोळीबाहेरच्या कुणालाही ही लिपी माहित नसणार अशी खात्री असल्यामुळे त्याला संशय आला नव्हता. गोष्ट लक्षात राहण्यासारखी आहे. होम्सचा सुरवातीचा तर्क फसू नये म्हणून नायिकेचं नाव डॉईलने विचारपूर्वक Elsie असं ठेवलेलं आहे. ते Amanda किंवा Ursula ठेवणं हा खोडसाळपणा झाला असता.

मराठी लिखाणात मात्र सर्वांत जास्त वेळा येणारं अक्षर कोणतं हे मला ठाऊक नव्हतं, तेव्हा स्टॅटिस्टिकल अनॅलिसिस करून ते शोधून काढण्याचा जो प्रयत्न मी केला त्याचा हा वृत्तान्त आहे. (याच विषयावर मी 'ऐअ' मध्ये दोनेक वर्षांपूर्वी छोटासा लेख लिहिला होता, पण त्यानंतर हे काम आणखी थोडं पुढे नेलं आहे.)

इंटरनेटवरून मी मराठी लिखाणाची एकूण साठ सॅँपल्स गोळा केली. यामध्ये ऐअ, उपक्रम, मिसळपाव अशा साईट्सवरचे वेगवेगळ्या विषयांवरचे लेख आहेत, काही लेख ब्लॉग्सवरून उचललेले आहेत, तर काही वर्तमानपत्रांतली संपादकीयं आहेत (सकाळ, लोकसत्ता, दिव्य मराठी इत्यादि ठिकाणची). इथे उठबस असणाऱ्या अदिती, अरविंद कोल्हटकर, कविता महाजन, धनंजय, राजेश घासकडवी, रोचना अशा काही मंडळींचे लेख यांत आहेत. ही सॅँपल्स गोळा करताना काही पथ्यं मी पाळली: एका लेखकाचे दोनपेक्षा जास्त लेख घ्यायचे नाहीत, स्वत:चा एकही लेख घ्यायचा नाही, आणि पाचशे शब्दांपेक्षा लहान सॅँपल निवडायचं नाही. (तुलनेसाठी सांगायचं तर लोकसत्तेतलं संपादकीय अंदाजे नऊशे शब्दांचं असतं.) प्रत्येक लेखातले शब्द वेगळे करून, शब्दांतली अक्षरं वेगळी करून, क-ख-ग-घ पासून श-ष-स-ह-ळ पर्यंत कोणतं व्यंजन किती वेळा येतं, आणि कोणता स्वर किती वेळा येतो इत्यादीची मोजदाद करण्यासाठी मी एक कंप्यूटर प्रोग्रॅम लिहिला. (युनिकोड म्हणजे काय हे माहित असणाऱ्यांना हा प्रोग्रॅम कसा काम करतो याची सहज कल्पना करता येईल, पण इथे तो तपशील महत्त्वाचा नाही.)

डेटा मिळाल्यानंतर त्यातून स्पष्ट निष्कर्ष निघाला तो असा की मराठी लिखाणात 'त' हे व्यंजन सर्वांत जास्त प्रचलित आहे. दर शंभर अक्षरांमागे ते सरासरी अकरा वेळा येतं, इतकंच नव्हे तर कुठल्याही प्रकारचं लिखाण असलं तरी हे प्रमाण फारसं इकडेतिकडे होत नाही. म्हणजे समजा एका लेखामध्ये एकूण अ इतकी अक्षरं आहेत, आणि त्यामध्ये त इतक्या वेळा 'त' येतो. जर त/अ हे गुणोत्तर काढलं तर ते बहुतेक वेळा अकरा शतांशाच्या अासपास घोटाळतं. उदाहरणार्थ, सॅँपलमधले हे दोन लेख पाहा:

१. तीन म्हाताऱ्या, लेखिका: शहराजाद. (ऐअ दिवाळी अंक, २०१३)

२. बाळूगुप्ते, लेखक: राजेश घासकडवी. (ऐअ दिवाळी अंक, २०१२)

पहिल्या लेखामध्ये एकूण ५६६९ अक्षरं आहेत, आणि ६१९ वेळा 'त' येतो, म्हणजे हे गुणोत्तर ६१९/५६६९ = १०.९१% इतकं आहे. दुसऱ्या लेखासाठी ते ११३९/१००६१=११.३२% इतकं आहे. याचा अर्थ असा की दोन्ही लेखांची प्रकृती वेगवेगळी असूनही आणि दर्जात तफावत असूनही ही गुणोत्तरं एकमेकांच्या जवळ आहेत.

अर्थात लिखाणाचा फार छोटा तुकडा घेतला (उदा. हायकू किंवा एडस् निर्मूलनाची जाहिरात वगैरे) तर हा अकरा टक्क्यांचा अंदाज चुकेल, पण बऱ्यापैकी मोठा तुकडा असेल तर तो बव्हंशी बरोबर येतो. एक मार्गदर्शनात्मक निष्कर्ष या शोधातून निघतो तो असा की 'The Adventure of the Dancing Men' चं मराठीकरण करायचं झाल्यास नायिकेचं नाव 'तिलोत्तमा' ठेवता येईल.

'त' ह्या व्यंजनामागोमाग 'र-य-क-ल-स' या व्यंजनांचा क्रम लागतो. त्यांची अंदाजी प्रमाणं अनुक्रमे ९%, ८%, ७%, ६%, ५% अशी आहेत, म्हणजेच उदाहरणार्थ दर शंभर अक्षरांमागे आठ वेळा 'य' येतो. इथे थोडा फरक आहे तो असा: सर्वसाधारणपणे कुठलाही मराठी लेख घेतला तर बहुतेक वेळा 'त' जिंकतो. तुमच्या डोळ्यांसमोरचा लेख याला अपवाद नाही. (माझ्या साठ सॅँपल्सपैकी ज्यांत 'त' पहिला आला नाही अशी फक्त सोळा सॅँपल्स निघाली, आणि तिथेदेखील तो दुसरातिसरा आलाच.) पण त्याच्या मागून येणाऱ्या व्यंजनांचा क्रम इतका काटेकोर नाही. म्हणजे 'र' सर्वसाधारणपणे 'य' च्या पुढे असतो खरा, पण हा क्रम कित्येकदा उलटा होतो. परीक्षेचा निकाल बघून आलेल्या आपल्या मित्रांना सी. डी. देशमुखांनी (की रँग्लर परांजप्यांनी?) विचारलेला 'दुसरं कोण आलं' हा सुप्रसिद्ध प्रश्न 'त' ही विचारू शकेल.

सरसकट सगळ्या व्यंजनांचा हिशेब काढला तर

......................................................

ही दहा व्यंजनं मिळून लिखाणातला जवळजवळ सत्तर टक्के भाग खातात. विषमता खूप आहे.

व्यंजनांचा त्यांच्या वर्गांनुसार हिशेब केला (उदाहरणार्थ, 'क'-वर्ग म्हणजे 'क-ख-ग-घ-ङ') तरीसुद्धा ही विभागणी उंचसखल आहे असं दिसतं:

'क'-वर्ग: १२% 'च'-वर्ग: ९%, 'ट'-वर्ग: ८%, 'त'-वर्ग: २२%, 'प'-वर्ग: १३%

उरलेले ३६% 'य-र-ल-व-श-ष-स-ह-ळ' मधून येतात.

याच धर्तीवर स्वरांचाही हिशेब करता येतो. सर्वांत जास्त वेळा येणारा स्वर 'अ' असावा याचं विशेष आश्चर्य वाटू नये. एकूण ४२% टक्के अक्षरांत तो येतो. त्याच्या खालोखाल 'आ' हा स्वर २७% अक्षरांत येतो. त्यानंतर इ-ई मिळून ११% वेळा येतात. इथपर्यंतचा हिशेब ८०% झाला; उरलेली २०% अक्षरं उ-ऊ-ए-ऐ इत्यादि बाकीच्या स्वरांत वाटली जातात.

अक्षरांच्या एकूण संख्येमधलं 'त' चं प्रमाण ११% पासून फारसं चळत नाही असा जो दावा मी मघाशी केला, तोच वर दिलेल्या इतर व्यंजनांसाठी आणि स्वरांसाठी पुष्कळसा खरा आहे. उदाहरणार्थ, शहराजाद यांच्या लेखामध्ये 'आ' हा स्वर २८.१०% अक्षरांत येतो, तर घासकडवींच्या लेखामध्ये तो २७.०६% अक्षरांत येतो, म्हणजे मोठा फरक नाही. सर्वसाधारण नियम असा की एखादा स्वर किंवा व्यंजन खूपदा येत असेल तर त्याचं प्रमाण बऱ्यापैकी स्थिर असतं, पण तुरळकपणे येणाऱ्यांचं प्रमाण चांगलंच वरखाली होऊ शकतं. उदाहरणार्थ, 'आ' किती वेळा येईल याबद्दलचा वर दिलेला अंदाज भरवशाचा असतो, पण 'औ' बद्दल तसा तो करता येत नाही.

जोडाक्षरांचा उल्लेख करून हा विषय संपवतो. एकूण अक्षरांपैकी अंदाजे बारा टक्के अक्षरं ही जोडाक्षरं असतात. अर्थात इथे व्याख्येवरून वाद होऊ शकतो; उदाहरणार्थ, 'पंचवीस' या शब्दातलं 'ञ + च' हे जोडाक्षर मानलं तर हे प्रमाण साडेपंधरा टक्क्यापर्यंत चढतं. एकच एक जोडाक्षर नेहमी इतरांपेक्षा जास्त वेळा येतं अशी परिस्थिती दिसत नाही, पण बहुतकरून

च्य, त्य, त्र, प्र, ल्य

ही पाच खूपदा येतात; आणि त्यातसुद्धा पहिली दोन जास्त वेळा येतात. 'प्र' आला तर शब्दाच्या सुरवातीला पुष्कळदा येतो.

सर्वसाधारण चित्र उमटतं ते असं की मोजकीच आठदहा व्यंजनं आणि दोनतीन स्वर नेमून दिलेल्या प्रमाणात येणं आणि उरलेल्यांना तुलनेने फार कमी वाव राहणं हा मराठीचा (किंवा निदान लिखित मराठीचा) स्थायीभाव आहे. एकटादुकटा लेखक याबाबतीत फारसं काही करू शकत नाही, किंबहुना आपल्या लिखाणाखाली असा काही रचनाबंध आहे हे त्याला जाणवतसुद्धा नाही. रक्तातल्या लाल पेशींचं आणि पांढऱ्या पेशींचं परस्परप्रमाण तुमच्या आणि माझ्या शरीरात बहुतेक सारखंच असावं. पण तुम्ही आणि मी संगनमत करून हे प्रमाण ठरवलेलं नसतं. आणि ते सारखं असणं हे तुमच्याविषयी माझ्या मनात आत्मीयता निर्माण व्हायला फारसं सबळ कारणही नसतं.

मराठीत 'अ' आणि 'आ' हे दोन स्वर पुन्हापुन्हा येतात आणि त्यातदेखील 'अ' पुढे असतो, याची मला हा सगळा खटाटोप करण्याआधी पूर्वकल्पना होती. पाचेक वर्षांपूर्वी असा प्रयोग मी करून पाहिला होता की 'अ' हा स्वर न वापरता गोष्ट लिहावी. 'एका निनावी प्राण्याचा मृत्यू' ही त्यावेळी लिहिलेली गोष्ट इथे वाचता येईल.

हे झाल्यानंतरची साहजिक पुढची पायरी म्हणजे 'आ' हा स्वर टाळून काही लिहून पाहणं. भालचंद्र नेमाड्यांना लघुकथा आवडत नाहीत हे सर्वज्ञात आहे. त्यांनी 'टीकास्वयंवर' मध्ये कुठेतरी म्हटल्याप्रमाणे, 'ऊन मी म्हणत होतं' अशी काहीतरी सुरुवात करून मासिकं चालवण्यासाठी लिहिला जाणारा तो प्रकार आहे. अशा प्रकारे पहिलं वाक्य आयतं मिळाल्यामुळे माझा हुरूप वाढला, आणि 'घरोघरची मंडळी भरपेट जेवून अंमळ कलंडली होती' असं पुढचं वाक्यही तयार झालं, पण तरीदेखील ही कथा काही केल्या मला पुढे रेटता येईना. विशेषकरून 'आहे, नाही, आणि' हे शब्द वर्ज्य असल्यामुळे हालचाल करणं फार अवघड होऊन बसलं. सरतेशेवटी ही कथा जरी मला जमली नाही, तरीदेखील 'समष्टी व अभिव्यक्ती' या नावाने एक लहानसा वैचारिक लेख लिहिता आला. तो इथे वाचता येईल. 'अ' पेक्षा 'आ' कमी वेळा येतो याचा अर्थ असा नव्हे की 'अ' पेक्षा 'आ' टाळणं जास्त सोपं आहे.

श्रीपाद कृष्ण कोल्हटकरांच्या 'सुदाम्याचे पोहे' मधला एक प्रसंग असा की एका मराठी माणसाला कर्नाटकात जाण्याचा प्रसंग आला. त्याला कानडी येत नसल्यामुळे एका मडक्यात तो खडे भरून घेऊन गेला आणि जिथे जिथे बोलण्याचा प्रसंग येईल तिथे तिथे त्याने ते हलवून वाजवून दाखवलं. सगळ्यांना सगळं समजलं आणि त्याचं कुठे काही अडलं नाही.

एक अनुभव नेहमी येतो: मुळीच न समजणारी भाषा जर कानावर पडली तर ती कोणती आहे हे अनेकदा ओळखता येतं. स्वीडिश, फारसी आणि तामिळ कानाला फार वेगवेगळ्या लागतात. प्रत्येक भाषेत पुन्हापुन्हा येणारे काही विशिष्ट आवाज असतात आणि एखादा माणूस अपुऱ्या प्रकाशात त्याच्या चालीवरून ओळखता यावा तशी त्या आवाजांच्या आधारे भाषा ओळखता येते. पण याबाबतीत एक खेदाची गोष्ट अशी की भाषा जर समजत असेल तर तिचा अर्थ ऐकू आल्यामुळे आवाज ऐकू येईनासा होतो. यामुळे उदाहरणार्थ इटालियन भाषा इटालियन माणसं सोडून इतरांच्या कानाला गोड लागते.

वर जे स्टॅटिस्टिक्स शोधून काढलेलं आहे त्याचा आधार घेऊन मराठीचे आवाज तयार करण्याचा एक प्रयत्न मी करून पाहिला. यासाठी मी लिहिलेला कंप्यूटर प्रोग्रॅम काही नियमांना धरून रॅँडम नंबर जनरेटर वापरून शब्द तयार करतो. हे शब्द निरर्थक असतात, पण मराठीचं स्टॅटिस्टिक्स पाळणारे असतात. यासाठी मी बसवलेले नियम त्रोटकपणे खाली देतो आहे; त्यांच्यामागचा उद्देश असा की उंच टोपी घालून, तोंडात चिरूट ठेवून, येसफेस आवाज काढून जशी सुधारकांची थट्टा करत असत तशी मराठीत पुन्हापुन्हा येणारे आवाज काढून तिची थट्टा करायची.

१. फक्त त-र-य-क-ल-स-व-ह-च-न हीच दहा व्यंजनं वापरता येतील. रॅँडम नंबर जनरेटर फाशासारखा काम करतो. दहा बाजू असलेला फासा आहे आणि त्याच्या प्रत्येक बाजूवर एकेक व्यंजन लिहिलेलं आहेत अशी कल्पना करा. फासा टाकला की प्रत्येक वेळी दहापैकी कोणतंतरी एक व्यंजन निवडलं जाईल. पण फासा अोबडधोबड आहे आणि त्याच्या बाजू कमीजास्त आहेत असं समजा. यामुळे सगळ्या व्यंजनांना समान संधी नसेल. 'त' येण्याची शक्यता 'र' पेक्षा थोडी जास्त असेल. अर्थात या शक्यतांचं परस्परप्रमाण स्टॅटिस्टिक्सने शोधून काढल्याप्रमाणे बसवलेलं आहे.

२. या दहा व्यंजनांव्यतिरिक्त च्य-त्य-त्र-प्र-ल्य ही जोडाक्षरं चालतील; इतर कुठलीही नाहीत.

३. फक्त अ-आ-इ-ई-उ-ऊ-ए हेच स्वर वापरता येतील, त्यातदेखील शब्दाच्या सुरवातीला 'ई' किंवा शेवटी 'इ' येऊ शकणार नाही. व्यंजन + स्वर मिळून अक्षर होत असल्यामुळे स्वरदेखील वरच्यासारखा फासा टाकून निवडला जाईल.

४. स्वत:चं मराठीचं ज्ञान कुठेही वापरायचं नाही. उदाहरणार्थ, 'ला, चे' वगैरे प्रत्यय उठसूठ कुठल्याही शब्दाला लावणं हा मराठीची चेष्टा करण्याचा एक स्वस्त मार्ग आहे. तसं करायचं नाही.

हे नियम वापरून माझ्या लॅपटॉपवर मी एक छोटासा 'लेख' तयार करून पाहिला. त्याच्या वाचनाची माझ्या आवाजातली अॉडिओ फाईल लेखाच्या खाली दिलेली आहे. (प्रोग्रॅममध्ये रॅँडम जनरेशन अंतर्भूत असल्यामुळे तो पुन्हा चालवला तर पूर्णपणे वेगळा लेख बाहेर पडेल.) प्रयोग यशस्वी झाला आहे का याचा निवाडा ऐकणाऱ्यांवर सोपवतो असं मी प्रघातानुसार म्हणेनसुद्धा, पण खरी गोष्ट अशी की आपल्या सर्वांनाच मराठी येत असल्यामुळे या कामासाठी आपण तितकेसे लायक नाही. सुधारकाची नक्कल चांगली वठली आहे असा अभिप्राय आगरकरांनी कधी दिला नसणार.

हा विषय इथून पुढे कुठे नेता येईल? काही जुजबी कल्पना मांडतो.

१. इंग्रजीतलं सर्वांत प्रचलित अक्षर e हे जरी असलं तरी व्यंजन t हे आहे. इंग्रजीत t आणि मराठीत 'त' हा योगायोग आहे की दोन्ही भाषांचं मूळ एकच असल्याचा तो अवशिष्ट परिणाम आहे? इतर इंडो-युरोपियन भाषांमध्ये याबाबतीत साधर्म्य आहे का? हे सगळं शोधून काढता येईल.

२. अर्वाचीन लिखित मराठीचा एक ठराविक 'स्टॅटिस्टिकल प्रोफाईल' आहे असं आपण पाहिलं. पण चक्रधरकालीन किंवा तुकारामकालीन मराठीचा प्रोफाईल तोच असेल अशी मुळीच खात्री नाही. उदाहरणार्थ, तुकारामाच्या वेळी 'ळ' खूप वापरला जात असे ('तीळ जाळिले तांदूळ, काम क्रोध तैसेचि खळ…') पण मोरोपंत येईपर्यंत तो हळूहळू मागे पडत गेला, हे संभाव्य जरी नसलं तरी अशक्यही नाही. तेव्हा हा प्रोफाईल काळानुसार बदलत गेला का (की मराठीच्या इतिहासात तो कधीच फारसा बदललेला नाही) याची शहानिशा करता येईल. अर्थात हाच अभ्यास याच्या काटकोनी दिशेनेही करता येईल. उदाहरणार्थ, बंगाली आणि गुजराती आपल्या कानांना फार वेगवेगळ्या लागतात, याचाच अर्थ त्यांचा प्रोफाईल वेगळा असला पाहिजे. हा फरक कशात आहे याचा नुसता ऐकून अंदाज न करता डेटा मिळवून आणखी खोलात शिरता येईल.

३. नेहमी येणारा एक मुद्दा इथेही येतो. माझी सगळी सॅँपल्स ही इंटरनेटवरची असल्यामुळे बहुतकरून प्रमाण लिखित भाषेची आहेत. मराठीच्या इतर बोलीभाषांचे प्रोफाईल्स यापेक्षा वेगळे असणं शक्य आहे, किंवा खरंतर असावेतच. कोणीतरी ते शोधून काढायला हवेत.

४. वेगवेगळ्या व्यंजनांचा वापर खूप कमीजास्त असणं (म्हणजे 'त','र' झिजून गुळगुळीत झालेले आणि 'ग','ख' अजून लखलखीत, अशी परिस्थिती असणं) हा बुचकळ्यात टाकणारा प्रकार आहे. यामागच्या एका संभाव्य कारणाचा अंदाज थोडाफार करता येतो. उदाहरणार्थ, 'च' पेक्षा 'छ' म्हणायला जास्त कष्ट पडतात हे उघड आहे. तेव्हा चौदाव्या शतकातल्या कुठल्यातरी आळशी न्हाव्याने आपल्याकडे आलेल्या बामणाची छंपी करण्याऐवजी चंपी केली असेल, आणि बामणही भाषिक शुद्धतेचा फारसा भोक्ता नसल्यामुळे त्याने निमूटपणे मान तुकवली असेल हे शक्य आहे. असेच सरसकट बदल हजारो लोकांनी केल्यामुळे घाऊक प्रमाणात अनेक 'छ' चे 'च' आणि 'ख' चे 'क' इत्यादि झाले असावेत. पण इतकं कारण पुरेसं वाटत नाही. उदाहरणार्थ, 'त' वर्गाचा वापर 'च' वर्गाच्या अडीचपट असावा याची संगती यातून लागत नाही. ती शोधून काढायला हवी, पण 'माणसाच्या स्वरयंत्राची रचनाच तशी आहे' यापेक्षा नेमकं कारण देणं कदाचित इथे शक्यही नसेल.

करण्यासारखं पुष्कळ आहे.

विशेषांक प्रकार

३_१४ विक्षिप्त अदिती Thu, 16/10/2014 - 08:50

मजेशीर आहे. त्या दोन गोष्टी फक्त हट्टामुळे जास्त आवडल्या.

हे रँडम मराठी वाचन मात्र संस्कृताळलेलं वाटतं. ते लोकांच्या लेखनामुळे का वाचनाच्या पद्धतीमुळे, हे माहीत नाही.

धनंजय Thu, 16/10/2014 - 16:48

In reply to by ३_१४ विक्षिप्त अदिती

कारण संस्कृतातही याच व्यंजनांचे बाहुल्य असावे.

मराठीत स्वरांची आणि व्यंजनांची शब्दाच्या सुरुवातीला वा अंती वा मध्ये वारंवारिता वेगळी असते. हा (अयादृच्छिक) तपशील रॅन्डम तुकड्यात गोवला नसावा, असे वाटते.

मिहिर Thu, 16/10/2014 - 19:45

In reply to by धनंजय

शिवाय वाचताना 'श्व डिलिशन' नेहमीपेक्षा कमी वाटते आहे आणि त्यामुळे देखील संस्कृतचा भास होत असावा.
बाकी लेख मस्तच. आधी वाचलेली मूळ कल्पना आणि वाढवलेला भागही छान. माझ्या एका मित्राने हौस म्हणून इंग्रजीसाठी असे वर्ड-जेन आणि सेंट-जेनचे प्रोग्रॅम लिहिले होते ते आठवले. योगायोगाने तोही गणिताचाच विद्यार्थी आहे. :)

धनंजय Fri, 17/10/2014 - 01:39

In reply to by मिहिर

"ध्वनिफितीत अवर्ण-निभृतीचा अभाव" मुद्दा महत्त्वाचा आहे. शब्दांतर्गत अवर्ण-निभृती फारच गुंतागुंतीची आहे, परंतु अन्त्य अकाराच्या निभृतीचे नियम तसे सोपे आहेत.

ध्वनिफितीत हे केले असते तर बरे झाले असते.

ध्वनिफितीकरिता जे स्वयंचलित लेखन केले, त्यात "शब्दाचा अंत" अथवा "सफेद जागा" हे चिन्हसुद्धा होते का?

राजेश घासकडवी Thu, 16/10/2014 - 23:54

In reply to by धनंजय

मराठीत स्वरांची आणि व्यंजनांची शब्दाच्या सुरुवातीला वा अंती वा मध्ये वारंवारिता वेगळी असते. हा (अयादृच्छिक) तपशील रॅन्डम तुकड्यात गोवला नसावा

हेच लिहायला आलो होतो. त हे अक्षर अधिक प्रमाणात येण्याचं मुख्य कारण म्हणजे करतो, करतात, ही क्रियापदांची रूपं तसंंच तो, ती, ते ही सर्वनामं यांचा वारंवार होणारा वापर. तेव्हा त हे व्यंजन यादृच्छिकरीत्या वापरण्याऐवजी तात, तो, ते यांनी अंत होणारे शब्द वापरले आणि सर्वनामं वापरली तर कानाला ती अधिक मराठीसारखी वाटू शकेल. उदाहरणार्थ 'तरादत' या शब्दापेक्षा तेच स्वर-व्यंजनं वापरून केलेला 'दरतात' हा शब्द खूपच जास्त मराठी वाटतो. किंबहुना कुठचेच शब्द न घेता असे क्रमाक्रमाने अल्गोरिथम वापरून तयार होणारी वाक्यं बोली मराठीच्या किती जवळ जाऊ शकेल यातून भाषेविषयी बरंच काही शिकता येईल.

'न'वी बाजू Fri, 17/10/2014 - 08:02

In reply to by राजेश घासकडवी

या खेळाचा उद्देश नेमका काय आहे? एक तोंडाने वदलेला निरर्थक परिच्छेद (मराठी न समजणार्‍या) कानांना मराठीसदृश भासविणे, की एक देवनागरीत लिहिलेला निरर्थक परिच्छेद (मराठी न समजणार्‍या, परंतु देवनागरी वाचता येणार्‍या) डोळ्यांना मराठीसदृश भासविणे?

याव्यतिरिक्त, काही रेघोट्या ओढून (देवनागरी वाचता न येणार्‍या) डोळ्यांना त्या देवनागरीसमान भासविता येतील काय? त्याकरिता काय(काय) करावे लागेल? (फक्त शिरोरेषा उपयोगाची नाही. म्हणजे, ती पाहिजेच; परंतु ती इतरही काही लिप्यांत असावी बहुधा.)

'न'वी बाजू Fri, 17/10/2014 - 08:12

In reply to by ३_१४ विक्षिप्त अदिती

हे रँडम मराठी वाचन मात्र संस्कृताळलेलं वाटतं.

त्यापेक्षासुद्धा, आम्हांस तो मडक्यात दगडवाला इफेक्ट जाणवला.

(किंवा, हे मराठी असलेच कदाचित, तर 'श्री चामुण्डराजे करवीयले' छापाचे असू शकेल. चूभूद्याघ्या.)

(बाकी, केवळ अमूक स्वर इतके टक्के नि अमूक व्यंजने इतके टक्के, एवढे पुरेसे नसावे कदाचित. स्वरांव्यंजनांचा, झालेच तर र्‍हस्वदीर्घांचा प्याटर्नसुद्धा महत्त्व राखत असावा बहुधा.)

(कदाचित, एखादे रेग्युलर मराठी वाक्य घेऊन त्यातले स्वर तसेच ठेवून त्यातली व्यंजने तेवढी र्‍याण्डमली बदलली, तर?)

अरविंद कोल्हटकर Thu, 16/10/2014 - 09:32

मनोरंजक कार्य आहे.

माझ्याजवळील मोल्सवर्थच्या १८५७ च्या पीडीएफ आवृत्तीमध्ये प्रस्तावना, पुरवणीसह एकूण ९६१ पाने आहेत. त्यातून मला इच्छित शब्दापर्यंत लगेच पोहोचता यावे म्ह्णून कोठले अ़क्षर कोठे सुरू होते असा एक तक्ता मी माझ्यापुरता तयार केला आहे. त्यावरून शब्दांचे पहिले अक्षर असण्याचा क्रम लावता येतो. सँपल पुरेसे मोठे आहे तसेच शब्दांच्या व्याख्या करण्यात कोठलाहि बायस नाही असे मानून पाहिले तर पहिले अक्षर असण्याच्या पृष्ठांच्या संख्या अशा आहेत:

स - ७५, क - ६७, प - ६६, अ - ५८, व - ५३, ब - ३९, श - ३६, ग - ३३, च - ३२, द - ३२, त - ३१. (उरलेली अक्षरे ३० च्या खाली आहेत.) स्वरवर्ग - १२२, कवर्ग - १४३, चवर्ग - ७८, टवर्ग - २७, तवर्ग - ११७, पवर्ग - १९४, य पासून पुढे २४१.

चिपलकट्टींना सापडले त्याच्या विरुद्ध येथे दिसत आहे. पहिले अक्षर असा निष्कर्ष लावला तर 'त' चा क्रमांक महत्त्वाच्या अक्षरांमध्ये शेवटचा आहे. असे का व्हावे? 'त' हे अक्षर जर सर्वात अधिक वापराचे आहे तर 'त'ने सुरू होणारे शब्द इतके कमी का?

चिपलकट्टींनी केल्याप्रमाणेच विशिष्ट अक्षरांचा वापर किती आहे हे मोजून रामायणामध्ये किती रचनाकारांनी कोणत्या पुरवण्या घातल्या आहेत असे संशोधन एम.आर.यार्दी ह्यांनी केले आहे. त्याची येथे आठवण येते.

जयदीप चिपलकट्टी Thu, 16/10/2014 - 10:08

In reply to by अरविंद कोल्हटकर

रोचक मुद्दा आहे. पटकन उत्तर सुचतं ते इतकंच की शब्दाच्या सुरवातीला वापरली जाणारी व्यंजनं काही कारणाने वेगळी (atypical) असावीत. उदाहरणार्थ, इंग्रजीत सर्वाधिक वापरली जाणारी पहिली तीन व्यंजनं उतरत्या भांजणीने t-n-s अशी आहेत. पण माझ्या इंग्रजी-जर्मन डिक्शनरीतली ती पानं मोजली तर ४७-१४-९८ इतकी आहेत.

धनंजय Thu, 16/10/2014 - 16:29

In reply to by अरविंद कोल्हटकर

क्रियापदाचे त-आख्यात (मी कर'तो'), आणि तकारप्रत्ययांमुळे मराठीतले तवर्ण शब्दात आदिवेगळ्या स्थानात मोठ्या प्रमाणात सापडतील.

ज.चि., युनिकोड धारिण्यांमध्ये ज्ञानेश्वरी आणि दासबोध उपलब्ध आहेत.

बॅटमॅन Thu, 16/10/2014 - 16:37

In reply to by धनंजय

शिवाय हा त-प्रत्यय संस्कृतातही आहेच. संस्कृतोद्भवांपैकी मराठी अन हिंदीतही आहे. बंगालीत नाही.

मन Thu, 16/10/2014 - 09:58

भाषेचं हे असं विश्लेषण वगैरे प्रकार भन्नाट आहेच.
पण ह्या विश्लेषणाचं उपयोजन नेमकं कुठं कुठं करता येइल असा मी विचार करतोय.
उदा :- ग्रंथांमधील प्रक्षिप्त भाग ओळखणे वगैरे परिचित गोष्टी आहेतच. किंवा
संरक्षण्/हेर खात्यासाठी मुद्दाम काही सांकेतिक भाषा/लिपी बनवणे (वर दिलेल्या शेरलॉक होम्स स्टाइल)
किंवा आहे त्याच भाषेचं छपाई/टंकन ह्या दृष्टीनं सुलभीकरण करता येइल.
अजून काय काय उपयोग होत असेल ?
(उपयोग असलाच पाहिजे असा आग्रह नाही; नुसते विश्लेषण करण्यातही मजा/आनंद असू शकतो; हे मान्य.
पण ही गरज कुठून निर्माण झाली असावी ह्याचा विचार करतोय.)

चिंतातुर जंतू Thu, 16/10/2014 - 10:36

लेख निवडताना ते बर्‍यापैकी प्रमाण आणि ब्राह्मणाळलेल्या मराठीत असलेलेच निवडले होते का? बोली भाषेतलं खूप संवाद असलेलं ललित लिखाण घेतलं, किंवा अग्रलेख वगैरे वगळून फक्त म.टा.च्या तिखट तरुणाई भाषेतल्या पुरवण्यांमधल्या चटपटीत लेखांसारखं निवडलं, तर काय फरक पडेल असा प्रश्न पडला. म्हणजे संस्कृताळलेली भाषा न वापरणारं लिखाण असलं तर काय होईल?

जयदीप चिपलकट्टी Thu, 16/10/2014 - 11:10

लेख प्रमाण मराठीतले आहेत (हे वर मुद्दा क्र. ३ मध्ये नमूद केलेलं आहे), पण संस्कृताळलेलेच आहेत असं नाही. उदाहरणार्थ, शहराजाद यांच्या लेखामधली (सॅँपल क्र. ३८) काही वाक्यं:

सगळे आपला फायदा घ्यायला टपले आहेत असाच कायम आविर्भाव. वास्तविक ह्या मुली तश्या बाहेरचं जग पाहिलेल्या. त्या काळातही अगदी नऊवारी लुगड्यात कॉलेजात जाऊन त्यांनी पदव्याही घेतलेल्या होत्या. पण कॉलेजातून घरी आल्यावर घरात बंद. काही माणसे आपली कोणाच्या अध्यात ना मध्यात, आपण बरे की आपले काम बरे, अशी असतात. पण ह्यांची तर्‍हा त्यापलीकडची होती.

यात संस्कृत शब्द तुरळकच आले आहेत. उलट 'कॉलेज' हा लॅटिनाळलेला शब्द दोनदा आला आहे, आणि 'फायदा', 'कायम', असे म्लेंच्छ शब्दही आहेत. (शहराजाद यांचा ID सुद्धा अगदीच असंस्कृत आहे.) पण ते काही असलं तरी अप्रमाण भाषांचा असा अभ्यास व्हायला हवा हा मुद्दा मला मान्यच आहे, आणि तोही वर क्र. ३ मध्ये आलेला आहे.

ॲमी Thu, 16/10/2014 - 16:45

रोचक प्रयोग आहे.
मलादेखील मनोबासारखाच प्रश्न पडला.
'एका निनावी प्राण्याचा मृत्यू' आवडली.
आणि आवाज चांगला आहे चिपलकट्टींचा. पण रेकॉर्डींग क्लिअर नाही.

मी Thu, 16/10/2014 - 15:12

प्रभावी लोकं जे शब्द अधिक वापरतात ते त्या वर्तुळात अधिक वापरलं जाणं शक्य आहे. उदा. इथे चिंतातुर जंतूंमुळे 'रोचक' हा शब्द अधिक वापरला जातो. अधिक लिहिणार्‍याची शब्दसंपदा(वाचन) कमी असल्यास तुमच्या सँपलसेट मधल्या लेखनात तेच शब्द/व्यंजंन/अक्षरं/जोडाक्षरं अधिक आढळणे शक्य आहे काय?

चिंतातुर जंतू Thu, 16/10/2014 - 15:24

In reply to by मी

>> इथे चिंतातुर जंतूंमुळे 'रोचक' हा शब्द अधिक वापरला जातो.

हे खरं आहे का ते सांगता येणार नाही; पण मी आता 'गंमतीशीर'चा पर्याय दिला आहे. त्यात 'त'सुद्धा आहे आणि 'र'सुद्धा. ;-)

बॅटमॅन Thu, 16/10/2014 - 15:48

त-र च्या निमित्ताने हा फेमस संस्कृत श्लोक आठवला.

तारतारतरैरेतैरुत्तरोत्तरतो रुतैः ।
रतार्त्ता तित्तिरी रौति तीरे तीरे तरौ तरौ ॥

याच्या भाषांतराबद्दल खालील दुवा रोचक ठरावा.

http://www.rasalabooks.com/sound-play/

ऋषिकेश Thu, 16/10/2014 - 18:32

__/\__
दंडवत. चिकाटीला, कल्पनेला आणि त्याबद्दलच्या सोप्या लेखनालाही!

माझा (वा माझ्याइतकं अशुद्धलेखन असलेला) लेख घेतला असतात तर उत्तरे वेगळी संभवत असती काय? ;)

जयदीप चिपलकट्टी Fri, 17/10/2014 - 03:55

प्रतिक्रिया देणाऱ्या सर्वांचे मनापासून आभार. त्यातल्या काही प्रतिक्रियांना मोघम उत्तरं देतो आहे:

राघा: करतात, येते इत्यादिच्या शेवटी 'त' खूपदा येतो, किंवा तो-ती-ते या सर्वनामांत येतो याबद्दल शंकाच नाही. पण प्रोग्रॅममध्ये याचा अंतर्भाव केलेला नाही, कारण मी स्वत:वरच घालून घेतलेल्या बंधनानुसार ते 'चीटिंग' झालं असतं. स्वत:ला मुळीच मराठी येत नाही आणि व्याकरणाची काहीही माहिती नाही, फक्त लेटर फ्रिक्वेन्सीस माहिती आहेत असं समजून प्रोग्रॅम लिहायचं ठरवलं होतं.

मिहिर + धनंजय: schwa deletion चा मुद्दा कळीचा आहे, आणि वाचन करत असताना मला तो अंधुकसा जाणवला होताच. पण मजकूर जर पूर्ण निरर्थक असेल तर डिलीशन कुठे करायचं याचा निर्णय अवघड होतो, निदान मला तरी तो तसा वाटला. (आणि म्हणूनच ते फारसं केलेलं नाही.) सध्या 'शब्दाचा अंत' ही खूण प्रोग्रॅममध्ये अंतर्भूत आहे, पण ती घालायला हवी होती का याबद्दल मलाच शंका आहेत. कारण जर फार अपरिचित असलेली भाषा ऐकली (स्वीडिश, टर्किश वगैरे) तर ती कळत नाही इतकंच नव्हे तर शब्द कुठे तुटतात हेही नक्की सांगता येत नाही.

पण असो. मी प्रोग्रॅम लिहिलेला आहे तो संगणकामध्ये, काळ्या दगडावर नव्हे. त्यात इथेतिथे फेरफार करून वेगळं काही निघतं का हे मी पाहीनच, आणि मग तसतशी या धाग्यात भरही टाकत राहता येईल. आणि दुसऱ्या कुणी वेगळ्या दिशेने अशासारखा प्रयोग करून पाहिला तर आणखी उत्तम. एकाच गोष्टीची थट्टा अनेक प्रकारे करता येते.

धनंजय Fri, 17/10/2014 - 04:48

In reply to by जयदीप चिपलकट्टी

शब्दाचा अंत म्हणजे ध्वनिरोध नसतो, हे तुमचे म्हणणे अगदी बरोबरच आहे. परंतु अनेक भाषांत (मराठीतही) प्रत्येक शब्दात एक प्रमुख आघात असतो. मराठीत साधारणपणे पहिले अक्षर, नाहीतर जोडाक्षराआदले अक्षर... वगैरे.

असे आघात पाठ्य वाचताना सारखेसारखे आले नाहीत, तर वाचन मराठीसारखे भासणार नाही. यादृच्छिक पाठ्यात शब्दांतचिन्ह हे "यापुढे आघात देणे" असे चिन्ह आहे. (ध्वनी खंडित होऊ देणे, असे नाही.)

धनंजय Fri, 17/10/2014 - 04:42

वरील लेखातच बघा ना, कुठली व्यंजने कितपत शब्दादिस्थानावर येतात, त्यात मोठाच फरक दिसू शकतो :
(शब्दादि = "[सफेद जागा]व्यंजन" असे मोजले. यात परिच्छेदातला पहिला शब्द हुकला. परंतु त्याने पुढील टक्केवारी थोडीच बदलावी.)

२०% शब्दादि सापडणारी व्यंजने लाल ठशात, >३०% शब्दादि सापडणारी व्यंजने जांभळ्या-निळ्या ठशात
व्यंजन : शब्दादि/सर्वसंख्या (टक्के%)
त : १४१/४५९ (२६%)
र : १६/५४३ (३%)
य : ९८/४२७ (२३%)
क : १६२/४२३ (३८%)
ल : ६८/३९९ (१७%)
स : १०६/३४७ (३१%)
ह : ९८/३२६ (३०%)
न : ९२/३१२ (२९%)
व : १०५/२८७ (३७%)
च : २९/२३८ (१२%)
प : १२३/२३७ (५२%)
म : १०८/२३४ (४६%)
ण : ०/१९८ (०%)
ज : ४८/१२८ (३८%)
द : ३६/१२८ (२८%)
ग : २२/१२८ (१९%)
ळ : ०/११३ (०%)
श : ४४/१०० (४४%)
(सगळी मिळून ५३९४ व्यंजनचिन्हे आहेत. वर दिल्यावेगळी अन्य व्यंजने १००पेक्षा कमी आहेत, त्यामुळे ती टंकत नाही.)

म्हणजे कुठली व्यंजने शब्दादि येतात त्यांच्यात खूपच कमीअधिक दिसते. "र" किती कमी प्रमाणात शब्दादि दिसते, ते पाहून मला फारच आश्चर्य वाटते आहे. प, म वगैरे अर्ध्या वेळा शब्दादि दिसतात. ण, ळ शब्दादि दिसत नाहीत ते तर सर्वांना ठाऊकच आहे, पण येथे ते तक्त्यातही दिसते.
"ल" हे ("त"पेक्षा) कमी प्रमाणात शब्दादि दिसते. इतकेच काय शब्दान्तीचे ला-ली-ले-लो असे १११ प्रयोग आहेत - त्यामुळे या प्रत्ययांचे बाहुल्य (२८%) शब्दादिपेक्षा (१७%) मराठीत पुष्कळ जाणवणार.
शब्दान्तीचे ता-ती-तो-ते (यात तो, ती आणि ते ही सर्वनामे वगळली) हे १८७ वेळा आलेत, म्हणजे ३४%, शब्दादिप्रयोगापेक्षा जास्तच - पुन्हा प्रत्ययांमुळे हे बाहुल्य.
(शब्दांतीच्या अक्षरातले व्यंजन मोजायला मला जरा जास्तच वेळ लागला, म्हणून "च" घेतला नाही.)

ज.चि. म्हणतात -
> स्वत:चं मराठीचं ज्ञान कुठेही वापरायचं नाही. उदाहरणार्थ, 'ला, चे' वगैरे प्रत्यय उठसूठ कुठल्याही
> शब्दाला लावणं हा मराठीची चेष्टा करण्याचा एक स्वस्त मार्ग आहे. तसं करायचं नाही.
परंतु असा नियम घालून दिल्यामुळे त्यांचे यादृच्छिक पाठ्य मुद्दामून मराठीपेक्षा दूर जाते. असे न करता, त्यांनी पहिल्या (वाटल्यास मधल्या) शेवटल्या व्यंजनांची आणि स्वरांची वारंवारिता वेगळी मोजावी, आणि अशा प्रकारे यादृच्छिक शब्द तयार करावेत. शब्दांती र्‍हस्व इ/उ व्यंजनाची वारंवारिता ० ठेवावी. शब्दांतीचा "अ" उच्चारताना लुप्त करावा. मग हे यादृच्छिक पाठ्य काहीसे मराठीसारखे ऐकू येईल.

झंपुराव तंबुवाले Fri, 24/10/2014 - 04:26

लेखाबरोबरच कथा आणि प्रोग्रामींगचे प्रयोग आवडले

व्हिटनीच्या गणनेनुसार संस्कृतमध्ये अ आ त र व इ न म य स ही अक्षरं सर्वात जास्त वापरली गेली आहेत.
मराठीत म नाही हे पाहून आश्चर्य वाटलं.