Skip to main content

तरयकल

रोमन लिपीतल्या सव्वीस अक्षरांपैकी 'e' हे अक्षर इंग्रजी लिखाणात सर्वांत जास्त वापरलं जातं. (त्याचं प्रमाण अंदाजे १०-१२ % अाहे; याचा अर्थ सरासरी नऊ अक्षरांमागे एकदा 'e' येतो.) त्यानंतर 't' चा नंबर लागतो; अाणि फ्रीक्वेन्सीच्या उतरत्या क्रमानुसार पहिली काही अक्षरं e-t-a-o-i-n-s अशी अाहेत. त्यामानाने अर्थात 'x', 'z' वगैरे तुरळकपणे येतात.

मराठीचं असं फ्रीक्वेन्सी अॅनॅलिसिस कुणी केल्याची मला माहिती नव्हती, त्यामुळे माझ्या युनिव्हर्सिटीतल्या जो सिमोस ह्या विद्यार्थ्याच्या मदतीने एक जावा प्रोग्रॅम लिहून ते मी करून पाहायचं ठरवलं. डेटा म्हणून मी इंटरनेटवरून उचललेले मराठीचे वेगवेगळे नमुने वापरले; उदा. लोकसत्तेतली संपादकीयं, धार्मिक विषयांवरचे लेख, संजय सोनवणींचे लेख, चावट कथा, 'ऐअ' चा दिवाळी अंक, इत्यादि इत्यादि.

व्यंजनांविषयी असा निष्कर्ष काढता अाला की (लिखित) मराठीत सगळ्यात जास्त प्रमाण 'त' या व्यंजनाचं अाहे. (इतकी वर्षं मराठी वाचत असूनही हे मला कधी जाणवलं नव्हतं, त्यामुळे किंचित लाज वाटली.) त्यानंतर र-य-क-ल ह्या व्यंजनांचा क्रम लागतो.

संख्याशास्त्रीय अनुमान निघालं ते असं की एखाद्या लिखाणात जर १०० वेळा 'त' अाला असं समजलं, तर ७८ वेळा 'र', ७१ वेळा 'य', ६५ वेळा 'क' अाणि ६४ वेळा 'ल' येतो. ही पाच व्यंजनं सोडली तर बाकीच्यांचं प्रमाण बरंच खाली अाहे. या अाकड्यांत लिखाणाच्या नमुन्यानुसार अधिकउणे १०% इतपत फरक अाढळतो; मात्र यापेक्षा जास्त फरक क्वचितच दिसून अाला. ज्यांत 'र-य-क-ल' हा क्रम उलटासुलटा झाला अाहे असे काही नमुने सापडले, पण 'त' अग्रक्रमावर नाही असा एकही सापडला नाही.

इंग्रजीमध्ये 't' या व्यंजनाचं प्रमाण सर्वात जास्त असणं अाणि मराठीत 'त' चं असणं, हा योगायोग अाहे की दोन्ही भाषा इंडो-युरोपियन असल्याची ती खूण अाहे, हे मला माहित नाही.

स्वरांवर काम चालू अाहे, पण अात्तापर्यंत असं दिसतं, की 'अ' अाणि 'अा' यांचं प्रमाण खूपच जास्त अाहे (यात आश्चर्य नाही), त्यांनंतर इकारांचा (ऱ्हस्व अाणि दीर्घ), अाणि त्यांनंतर उकारांचा क्रम लागतो. त्यातसुद्धा दीर्घ इकार अाणि उकार हे अनुक्रमे ऱ्हस्वांपेक्षा थोड्याशा (पण थोड्‌याशाच) जास्त संख्येने येतात.

अजून बरंच काही करण्याचा बेत अाहे; उदाहरणार्थ, काही प्रश्न सहज सुचतात ते असे: जोडाक्षरं किती प्रमाणात येतात अाणि त्यांतही नेहमी येणारी कोणती? सरासरी प्रत्येक वाक्यात किती शब्द येतात, किंवा प्रत्येक शब्दात किती अक्षरं येतात? त्यात पुन्हा साने गुरुजींचं लिखाण अाणि कृष्णशास्त्री चिपळूणकरांचं लिखाण यांची तुलना केली तर या अाकड्यांत किती फरक पडतो?

वाचकांनी असे अाणखी काही प्रश्न सुचवल्यास त्यांचं स्वागतच अाहे.

(टीप: 'ऐअ' चा दिवाळी अंक टेक्स्ट फाईलच्या स्वरूपात मला पाठवल्याबद्दल ३_१४ विक्षिप्त अदिती यांचे अाभार मानतो. त्यांच्या नावातच दोनदा 'त' असल्यामुळे संख्याशास्त्रीय विश्लेषणावर अवाजवी परिणाम झाला नसेल अशी अाशा अाहे.)

राजेश घासकडवी Sat, 12/01/2013 - 05:41

मोजमाप करण्याचा प्रयोग आवडला. हा अभ्यास वेगवेगळ्या काळातल्या साहित्याचा केला तर भाषेचा पोत कसा बदलत गेला आहे याबाबत काही विधानं करता येतील.

मलाही त अधिक वेळा येतो याची कल्पना नव्हती. पश्चातबुद्धीने अर्थातच कारणं सांगता येतात.

तो, ती, ते ही संबोधनं आणि त्यांना विभक्ती प्रत्यय लावून होणारे शब्द. 'त्यातल्या त्यात' मध्येच चार त येतात! (या वाक्यात सात त)
येतो, जातो, सांगतो, म्हणतो, करतो या वर्तमानकाळी शब्दांत त येतात.
तेव्हा, तिथे, तिकडे या शब्दांतही त आहेत.
होते, होतात, आहेत, असतात, या असण्याच्या रूपांतही त येतात.
एकंदरीतच क्रियापदांमध्ये त बरेच असतात.

पण स्वर व व्यंजनं यांचा एकत्रित अभ्यास केला तर अ जिंकेल असं वाटतं. आ आणि त यांच्यात दुसऱ्या नंबरासाठी कॉंपिटिशन असेल. बहुधा आ जिंकेल. म्हणजे चित्र काहीसं इंग्लिशसारखंच असेल.

विसुनाना Sat, 12/01/2013 - 11:02

अजून बरंच काही करण्याचा बेत अाहे; उदाहरणार्थ, काही प्रश्न सहज सुचतात ते असे: जोडाक्षरं किती प्रमाणात येतात अाणि त्यांतही नेहमी येणारी कोणती? सरासरी प्रत्येक वाक्यात किती शब्द येतात, किंवा प्रत्येक शब्दात किती अक्षरं येतात? त्यात पुन्हा साने गुरुजींचं लिखाण अाणि कृष्णशास्त्री चिपळूणकरांचं लिखाण यांची तुलना केली तर या अाकड्यांत किती फरक पडतो?

-या एका परिच्छेदातच 'त' इतक्या वेळेला आला आहे की लेखकाने अनुप्रास वापरला आहे अशी शंका आली. ;)

एका आगळ्या-वेगळ्या शोधाबद्दल लेखकाचे अभिनंदन.( - या वाक्यामध्ये एकही 'त' वापरलेला नाही. - ->या वाक्यामध्ये एकच 'त' वापरलेला आहे.--) :)

मिहिर Sat, 12/01/2013 - 11:35

प्रयोग फारच आवडला.
खरेच 'त' बाजी मारेल असे वाटले नव्हते. ऱ्हस्व-दीर्घाच्या बाबतीत जालावरील लेखनातील (अ)शुद्धलेखनाचाही प्रभाव असावा असे वाटते. अनेक तत्सम शब्दांमध्ये सुरुवातीचे दीर्घ उ-ईकार ऱ्हस्व पाहिले आहेत. उदा. सूचना, पीडित इ. त्यामुळे थोडा फरक पडला असावा. जुन्या मराठीतील कवि, मति, मृत्यु अशा प्रकारे तत्सम शब्दांचे लिखाण असलेल्या लिखाणांत कदाचित ऱ्हस्व बाजी मारू शकतील असे वाटते.
बोलीप्रमाणे लिहिलेल्या मराठीत 'य' जरा जास्त येत असावा असे वाटते. उदा. करतोय, बसतोय, केलंय, आलंय, पाहिलाय इ. असे शब्द नसलेले लिखाणासाठी जालावर शोधाशोध करावी लागेल. किंवा नेहमी अशा प्रकारे 'य'वाले शब्द वापरणारा लेखक आणि 'य'वाले शब्द न वापरणारा लेखक यांच्या लिखाणातील 'य'च्या प्रमाणाची तुलना करणे रोचक ठरावे.

अवांतरः प्राथमिक निरीक्षणावरून मांडलेला अंदाजः जिथे जिथे 'असणे' क्रियापदाचे 'हे'युक्त रूप येते तिथे बोलीत 'य' येत असावा, तर जिथे 'हो'युक्त रूप येते तिथे 'व' येत असावा. तज्ज्ञांनी प्रकाश टाकावा.
उदा. करत(तो) आहे = करतोय
माणसं आहेत = माणसायत.
उद्या आहे = उद्याय
आला होता = आलावता
लावलं होतं = लावलवतं इ.

अतिअवांतरः 'आम्ही आलो आहोत' चे अनौपचारिक बोलताना मी अनेकदा 'आलोय' असे करतो. 'आलोय' हे 'आलो आहे'साठीचे रूप वाटते, मात्र 'आम्ही आलो आहे' हे वाक्य तोंडातून अजिबात निघत नाही!

श्रावण मोडक Sat, 12/01/2013 - 18:12

त म्हणजे ताकभात ओळखता यावा... ;-)

बॅटमॅन Sun, 13/01/2013 - 02:03

हा धागा म्हणजे डोक्यामध्ये कधीकाळापासून गच्च बसलेल्या प्रश्नसमूहाचे साकार रूप आहे. धन्यवाद!

यावर डिट्टेलवारी पृच्छा करेन पुन्हा वेळ मिळाला की.

(त कुठेही नाही-चेक.)

३_१४ विक्षिप्त अदिती Tue, 15/01/2013 - 00:54

In reply to by बॅटमॅन

सोयीस्करपणे परभाषेतून शब्द आणले की जमतात हो असे त-शिवाय लिहीलेले तपशीलवार प्रतिसाद. पूर्ण मराठीत लिहून बघा त-शिवाय, मग बघा कसं ततपप होईल ते! ;-)

(त-संख्या तेरा)

बॅटमॅन Wed, 16/01/2013 - 01:45

In reply to by ३_१४ विक्षिप्त अदिती

सोयीस्करपणे परभाषेमधून शब्द आणले की जमेलच हो असे मूर्धन्य अनुनासिकापासून एकदम जवळचे कठोर व्यंजन न वापरूनही मोठे मोठे शेरे लिहायला. पूर्ण मराठीमध्येच लिहून बघा मूर्धन्य अनुनासिकापासून एकदम जवळच्या कठोर व्यंजनाशिवाय, मग बघा कशी फेफे उडेल लिहिणाराची ;)

(मूळ वाक्य "त-शिवाय" शुद्ध मराठीमध्ये)

सोयीस्करपणे परभाषेमधून शब्द आणायची विशेष गरज नाही हो अशी बयाजवार शेरेबाजी करायला. पूर्ण मराठीमध्ये लिहूनदेखील फेफे उडालेली नाही हे पाहणे रोचक आहे ;)

(त-संख्या= लॉग(१)) ;)

बैदवे तमिऴसाठी हा प्रयोग रोचक ठरावा. त्यांच्यात तर त,द हे आणि असे अनेक ग्रूप्स सेमच अस्तात.

ही घ्या आमची स्वाक्षरीदेखील मूर्धन्य अनुनासिकापासून एकदम जवळच्या कठोर व्यंजनाशिवाय लिहिलेली.

दुष्टारी सकळां भारी | प्रगटला गॉथम शहरी |
वाल्गुदेय हा निर्धारी | विदूषका जाण पां ||

जयदीप चिपलकट्टी Mon, 14/01/2013 - 00:10

मी वर लिहिलं होतं की 'त' अग्रक्रमावर नाही असा एकही नमुना सापडला नाही. तसा एक नमुना अाज सापडला, पण मराठीत नाही. हाच प्रोग्रॅम मी ऋग्वेदावर चालवून पाहिल्यावर असं दिसलं की अाता 'व' अग्रक्रमावर अालेला अाहे (४९८५५ वेळा), पण त्याच्या पाठीला नाक लावून 'त' अाहेच (४९६६५ वेळा), अाणि शिवाय 'र' ही फारसा मागे नाही (४९५४४ वेळा).

तेव्हा 'त' अाणि 'र' खूपदा येणं हा कदाचित सगळ्याच संस्कृतोद्भव भाषांचा गुणधर्म असू शकेल. अधिक संशोधनाची गरज अाहे. (तशी ती नेहमी असतेच.)

धनंजय Tue, 15/01/2013 - 01:20

अभिनंदन. माझ्यासाठी नवीन ज्ञान आहे. मजा आहे. तरयकल टाळणे जमेना.

३_१४ विक्षिप्त अदिती Tue, 15/01/2013 - 01:00

एकाच भाषेच्या वेगवेगळ्या बोलीभाषा एकमेकींपेक्षा किती निराळ्या आहेत हे अशा प्रयोगांवरून समजेल का? -- मिहिरचा प्रतिसाद

तेलुगु शिकण्याचा (क्षीण प्रयत्न) केला होता तेव्हा त्यांची लिपीही शिकण्याचा प्रयत्न केला होता. त्यात (क्षीण) आठवणींमधूनः मराठी-देवनागरीत व्यंजनांमधे बाय डीफॉल्ट अ मिसळून लिहीला जातो. तेलुगुमधे 'आ' असतो, त्याचं कारण तेलुगुमधे 'आ' हा स्वर सर्वाधिक वापरला जातो असं दिलं होतं. हे पुस्तक रेल्वे स्थानकांवर 'तेलुगु शिका' वगैरे मिळतात त्यातलं होतं, आणि खरंखोटं समजण्याइतपत तेलुगु मी कधी शिकलेही नाही.

त्यांच्या नावातच दोनदा 'त' असल्यामुळे संख्याशास्त्रीय विश्लेषणावर अवाजवी परिणाम झाला नसेल अशी अाशा अाहे.

वापरण्याच्या, कागदोपत्री असणार्‍या, स्वतः घेतलेल्या अशा सर्व नावांमधे 'त' आहे.

Nile Tue, 15/01/2013 - 01:08

In reply to by ३_१४ विक्षिप्त अदिती

वापरण्याच्या, कागदोपत्री असणार्‍या, स्वतः घेतलेल्या अशा सर्व नावांमधे 'त' आहे

तरीच तिरसटं त्+रांगड दिसतंय! ;-)

प्रयोग आवडला, निष्कर्ष रोचक आहे'त'. (बाकी ऋग्वेद (आणि इतर) वेदांच्या टेक्स्ट फाईल्स कुठे मिळाल्या याचा दुवा देऊन आमचा दुवा घ्यावा, धन्यवाद.)

जयदीप चिपलकट्टी Tue, 15/01/2013 - 11:12

In reply to by Nile

ऋग्वेदाच्या text अाणि pdf फाईल्स इंटरनेटवर अनेक ठिकाणी अाहेत. विकिपीडियावर 'Rigveda' च्या एंट्रीच्या शेवटी अशा बऱ्याच लिंक्स अाहेत.

ऋषिकेश Tue, 15/01/2013 - 10:24

उत्तम प्रयोग.. अनपेक्षित (खरंतर असा विचारच केला नव्हता त्यामुळे अपेक्षित असे काहिच नव्हते ;) ) आणि रोचक!

समांतरः सदर प्रोग्रामकर्त्यांची परवानगी घेऊन हा प्रोग्राम ओपन-सोर्स करता येईल का? विविध अभ्यासकांना उपयुक्त होईल असे वाटते.

जयदीप चिपलकट्टी Tue, 15/01/2013 - 11:09

या प्रोग्रॅममध्ये इतर काही सुविधांची भर घालून त्याचं एक जावा पॅकेज करण्याचा विचार अाहे. हे पॅकेज मग अोपन सोर्स केलं जाईल.

नगरीनिरंजन Tue, 15/01/2013 - 13:52

अत्यंत रोचक!

इंग्रजीमध्ये 't' या व्यंजनाचं प्रमाण सर्वात जास्त असणं अाणि मराठीत 'त' चं असणं, हा योगायोग अाहे की दोन्ही भाषा इंडो-युरोपियन असल्याची ती खूण अाहे, हे मला माहित नाही

आणखी इतरही भाषांचं विश्लेषण केल्यास तो योगायोग आहे की भाषांचे वैशिष्ट्य आहे की माणसाचा नैसर्गिक कल आहे याबाबतीत थोडी अधिक माहिती मिळू शकेल कदाचित.

बॅटमॅन Tue, 15/01/2013 - 15:21

काही अवांतरः

बहुत रोचक. यावरून आठवले, इंग्रजीत e हे अक्षर सर्वांत जास्त कॉमन आहे. एका पठ्ठ्याने मुद्दाम e हे अक्षर न वापरता तब्बल १०५ पानांची इंग्रजी कादंबरी लिहिलीये, नाव आहे gadsby. तिची पीडीएफ इथे मिळेल. नमुन्यादाखल हा एक उतारा बघा त्यातला:

If youth, throughout all history, had had a champion to stand up for it; to show a doubting
world that a child can think; and, possibly, do it practically; you wouldn’t constantly run
across folks today who claim that “a child don’t know anything.” A child’s brain starts
functioning at birth; and has, amongst its many infant convolutions, thousands of dormant
atoms, into which God has put a mystic possibility for noticing an adult’s act, and figuring
out its purport.

कुठेही कृत्रिमपणा वाटत नाही,तरीही e हे अक्षर न वापरता लिहिणे हे शक्य असेल असे आजिबात वाटत नाही. मराठीत मोरोपंतांनी निरोष्ठ रामायण लिहिलेय-प्,फ्,ब्,भ्,म ही अक्षरे न वापरता. हे नक्कीच अवघड आहे, पण तरयकल मध्ये ही अक्षरे कुठेच नसल्याने जमून गेले असे वाटते.

या लेखाचा एक फायदा की त्यामुळे मराठीची ऑर्डर तरयकल ही कळाली. लेखकास एक प्रश्न आहे: ज्ञानेश्वरी किंवा तत्सम कुठल्याही जुन्या मराठी ग्रंथावरती हा प्रोग्रॅम रन करता येईल का? ज्ञानेश्वरीची पीडीएफ इथे मिळेल. जुन्या मराठीपेक्षा सध्याच्या मराठीत काही फरक पडला आहे किंवा कसे, हेही त्यातून स्पष्ट होईल.

त्यामुळे आता मराठीत "त" हे अक्षर न वापरता कादंबरी लिहिणे हे अप्रोप्रिएट च्यालेंज होईल. आहे का कोणी :)

जयदीप चिपलकट्टी Wed, 16/01/2013 - 00:19

In reply to by बॅटमॅन

> ज्ञानेश्वरी किंवा तत्सम कुठल्याही जुन्या मराठी ग्रंथावरती हा प्रोग्रॅम रन करता येईल का? ज्ञानेश्वरीची पीडीएफ इथे मिळेल. जुन्या मराठीपेक्षा सध्याच्या मराठीत काही फरक पडला आहे किंवा कसे, हेही त्यातून स्पष्ट होईल.


यातली अडचण अशी की पीडीएफ भादरून त्याची प्लेन टेक्स्ट फाईल कशी करायची ते मला माहित नाही. (असं करून देणारे काही अोपन सोर्स प्रोग्रॅम्स इंटरनेटवर अाहेत, पण ते देवनागरीवर नीट चालत नाहीत असा माझा अनुभव अाहे.) तेवढं कुणी करून दिल्यास बाकीचं अवघड नाही.

––

> एका पठ्ठ्याने मुद्दाम 'e' हे अक्षर न वापरता तब्बल १०५ पानांची इंग्रजी कादंबरी लिहिलीये, नाव आहे gadsby.

I know that writing in Anglo-Saxon without using that taboo sign is initially difficult. But, during writing, if you try to winnow your words and linguistic constructs with insight and a sharp ocular faculty, you can do it. I must warn you that constant caution is mandatory. If you nod off, you slip up.

Such writing is tiring, so I am going to stop, drink a dram of scotch and watch Novak Djokovic play in Australian 2013 (Hard Court). I think Novak will win, but not Andy Murray. (RF is a bit old now, but still plays fantastically.) What do you think?! Who do you root for?!

बॅटमॅन Wed, 16/01/2013 - 03:14

In reply to by जयदीप चिपलकट्टी

त्याच लिंकमध्ये उजवीकडे "UNIC" असे लिहिलेय, त्यावर क्लिक केल्यास एचटीएमएल फॉर्मॅटमध्ये ज्ञानेश्वरिचे सर्व अध्याय दिसतील. मग ते सरळ नोटपॅडात पेष्टवून काम होऊ शकेल असे वाटते. मी पहिला अध्याय करून पाहिला-झाला.

स्वरांबद्दलचे काम पूर्ण रूपात पहायला आवडेल.

बाकी आपल्या लायपोग्रॅमॅटिक कौशल्याला सादर प्रणाम केल्या गेला आहे. _/\_

(लोटांगणाच्या वाक्यामध्ये त नाही-चेक)

I root for none, since the "Euler of Tennis" ain't there in this match ;)

जयदीप चिपलकट्टी Wed, 16/01/2013 - 05:16

In reply to by बॅटमॅन

ज्ञानेश्वरी ह्या प्रोग्रॅममधून घालून पाहिली. पुन्हा 'त' अाणि 'र' अग्रेसर अाहेत. जास्तीतजास्त वेळा येणाऱ्या पहिल्या सहा व्यंजनांचं परस्परप्रमाण असं:

त: र : व : स: य: क = १००: ८७: ७२: ६४: ६० : ५३

एकूण पाहता अाधुनिक मराठीपेक्षा चित्र फार वेगळं नाही. (मुख्य फरक असा की 'व' अाणि 'स' चं प्रमाण जास्त अाहे, अाणि 'ल' चं कमी अाहे.) अर्थात इथे एक बाळबोध इशारा द्यायलाच हवा, तो म्हणजे ज्ञानेश्वरी हे तेराव्या शतकातल्या मराठीचं representative sample असेलच असं नाही.

बॅटमॅन Wed, 16/01/2013 - 18:55

In reply to by जयदीप चिपलकट्टी

वा!!! तत्परतेने वेळ खर्चून उत्तर दिल्याबद्दल बहुत बहुत धन्यवाद :) एकूणच आधुनिक मराठीपेक्षा चित्र वेगळं दिसत नाही. हा क्रम म्हणजेच कुठल्याही भाषेचे व्यवच्छेदक लक्षण असे म्हणावे काय? कुणी लिंग्विस्ट तसे म्हटला आहे का आधी कधी?

बाकी तेराव्या शतकातील मराठी आणि ज्ञानेश्वरीचा आक्षेप मान्य आहे. पण महानुभाव ग्रंथ मात्र तसे नाहीत-ते बहुतांशी गद्य आहेत आणि पंथाबाहेर सर्क्युलेट न झाल्याने त्यांचे मूळ स्वरूप तसेच टिकून राहिले आहे. ते ग्रंथ कुठे मिळतात का नेटवर ते पहातो.

'न'वी बाजू Sat, 29/07/2017 - 18:07

In reply to by बॅटमॅन

This is an unusual paragraph. I’m curious as to just how quickly you can find out what is so unusual about it. It looks so ordinary and plain that you would think nothing was wrong with it. In fact, nothing is wrong with it! It is highly unusual though. Study it and think about it, but you still may not find anything odd. But if you work at it a bit, you might find out. Try to do so without any coaching.

'न'वी बाजू Sun, 30/07/2017 - 08:39

In reply to by सुनील

Bang on! Spot on! (Bingo, may I add?)

'न'वी बाजू Sun, 30/07/2017 - 17:07

In reply to by बॅटमॅन

That was not an original opus of yours truly. Thus, it warrants not, nor is it worthy of, your kind acclaim, I'm afraid. (Still, thanks anyways, although for zilch, nought, nada, if I may audaciously so add.)

मन Thu, 17/01/2013 - 10:49

त मुळे इतर अक्षरांत तरतमभाव होतो ह्याची तत्काळ तल्पना ताहे (सॉरी कल्पना आहे.) ;)

नंदन Tue, 12/02/2013 - 12:40

प्रयोगाची कल्पना, कृती आणि निष्कर्ष - सारेच आवडले! 'द अँडव्हेचर ऑफ द डान्सिंग मेन' ह्या होम्सकथेतील रहस्याची उकल आठवली.

बॅटमॅन Mon, 24/04/2017 - 14:07

आज एका प्र‌श्नाच्या निमित्ताने हा लेख पुन्हा व‌र काढ‌त आहे- म‌राठीतील ळ हे अक्ष‌र‌ न‌क्की किती % वेळेस वाप‌र‌ले जाते याचा विदा मिळेल‌ काय‌? राद‌र‌ प्र‌त्येक‌च व्यंज‌न?

आदूबाळ Mon, 24/04/2017 - 14:40

In reply to by बॅटमॅन

हा उद्योग‌ पायताण एन‌एल‌पी टूल‌किट‌ (www.nltk.org) वाप‌रून‌ क‌र‌ता येईल‌. पाय‌ताण आणि एन‌एल‌पी माझ्या शिक‌ण्याच्या यादीत‌ आहे (भ‌ल‌त्याच‌ कार‌णासाठी.)

आर‌ भाषेच‌ं भाषाविश्लेष‌ण टूल‌किट‌ही आहे.

जयदीप चिपलकट्टी Mon, 24/04/2017 - 21:20

In reply to by बॅटमॅन

> आज एका प्रश्नाच्या निमित्ताने हा लेख पुन्हा व‌र काढ‌त आहे- म‌राठीतील ळ हे अक्ष‌र‌ न‌क्की किती % वेळेस वाप‌र‌ले जाते याचा विदा मिळेल‌ काय‌? राद‌र‌ प्रत्येकच व्यंज‌न?

याचं थोडक्यात उत्तर असं की जर एखादं व्यंजन दुर्मीळ असेल तर ते किती वेळा येतं हा हिशेब दर सँपलमध्ये फार वरखाली होतो. त्यामुळे त्याची स्टॅटिस्टिकल फ्रिक्वेन्सी काढली तरी ती भरवशाची नसते.

उदाहरणार्थ, ह्या प्रश्नाच्या निमित्ताने 'लोकसत्ते'तल्या एका जुन्या संपादकीयाचं मी आत्ताच पुन्हा विश्लेषण करून पाहिलं. त्यातल्या ९३३ शब्दांमध्ये ‘ळ’ फक्त ३१ वेळा आलेला आहे. (त्यामानाने ‘त’ ३३३ वेळा, म्हणजे त्याच्या दसपट आहे.) ह्या संपादकीयातलं एक वाक्य असं आहे:
उन्हाळी मोसमात अवकाळी पाऊस येणे, पावसाच्या वेळापत्रकांमध्ये फेरबदल होणे या हवामानातील बदलांचा सर्वात पहिला व मोठा फटका हा बळीराजाला बसतो.

आता लिहिणाऱ्याने जर ‘अवकाळी’ ऐवजी ‘अकाली’ लिहिलं असतं आणि ‘बळीराजा’ हा शब्द जिथेतिथे वापरण्याची चूष आवरली असती तर लागलीच दोन ‘ळ’ कमी झाले असते. तेव्हा मुद्दा तोच: दुर्मीळ व्यंजनांचा वापर लिहिणाऱ्यावर आणि विषयावर फार अवलंबून असतो.

हे दोन प्रश्न पाहा:
(१) सरासरी दर आठवड्याला ‘वैशाली’त फर्ग्युसनमधले किती विद्यार्थी येतात?
(२) सरासरी दर आठवड्याला ‘वैशाली’त किती आय.एफ.एस. अॉफिसर्स येतात?

पहिल्या प्रश्नाचं स्टॅटिस्टिक्स काढणं सहज शक्य आहे, पण दुसऱ्याचं काढण्यात विशेष अर्थ नाही.

बॅटमॅन Mon, 24/04/2017 - 21:57

In reply to by जयदीप चिपलकट्टी

ध‌न्यवाद प‌ण म‌राठीत‌ ळ हे संस्कृतात‌ल्या लृ प्र‌माणे एखाद्याच श‌ब्दापुर‌ते म‌र्यादित‌ नाही म्ह‌णून‌ पृच्छा, असो.

१४टॅन Mon, 24/04/2017 - 14:55

शेरलॉक होम्सच्या त्या नाच‌णाऱ्या बाहुल्यांच्या गोष्टीत त्याने हे वारंवारितेचं प्र‌मेय मांड‌लेलं होतं, तेव्हा डोक्यात किडा आलेला की असं मराठीत काय असेल ब्वॉ? प‌ण तो विचार तितक्याच त‌त्प‌र‌तेने अस्तास गेला. तुम्ही इत‌का भ‌न्नाट उप‌क्र‌म हाती घेत‌लाय, की ह्यावर एक शोध‌निबंध‌च लिहू श‌क‌ता की!
फार‌च इंट‌रेस्टिंग माहिती. म‌राठी भाषा दिनाच्या वेळी 'कुसुमाग्र‌जांचं ख‌रं नाव काय' छाप प्रश्नांपेक्षा हे असे प्र‌श्न फार भारी होतील कोणाला विचाराय‌ला.

राही Mon, 24/04/2017 - 15:09

'त‌' अधिक अस‌ण्याचे कार‌ण म्ह‌णजे धातुसाधितांच्या प्र‌त्य‌यांम‌ध्ये आणि क्रियाप‌दांच्या प्र‌त्य‌यांम‌ध्ये 'त‌'चे प्राब‌ल्य‌ आहे. शिवाय भाव‌वाच‌क नामे ब‌न‌व‌तानाही 'त‌' अस‌तोच. प्र‌ग‌ल्भ‌ भाषेत प्र‌थ‌म अथ‌वा द्वितीय‌ पुरुषापेक्षा तृतीय‌ पुरुषाचा वाप‌र अधिक अस‌तो. (डिस्क्रिप्टिव म्ह‌णून.) स‌ंस्कृतात तृतीय‌पुरुषी क्रियाप‌दांच्या रूपांत 'त‌' अधिक अस‌तो. ग‌च्छ‌ति, ग‌च्छ‌न्ति, एति, द‌दाति, श्रुणोति, ग‌च्छ‌तु, व‌गैरे. म‌राठीत रीतिव‌र्त‌मानाचे स‌ग‌ळेच प्र‌त्य‌य 'त‌'युक्त‌ आहेत्
. क‌र्म‌णि विध्य‌र्थीधाविम‌ध्ये ग‌त्य‌, कृत्य‌, क‌र्त‌व्य‌, ग‌न्त‌व्य‌, व‌क्त‌व्य‌, भ‌वित‌व्य‌ व‌गैरे. भूत‌काल‌वाच‌क धासांम‌ध्ये न‌त‌, ह‌त‌, उक्त‌, द‌त्त‌, साधित‌, बाधित, जात‌, च‌रित‌, लिखित‌, गीत व‌गैरे. जाताना, येताना, बोल‌ताना, सांग‌ताना व‌गैरे. भाव‌वाच‌काम‌ध्ये क‌विता, घ‌न‌ता, शुचिता, स‌ंप‌न्न‌ता, शांत‌ता, उष्ण‌ता, उत्प‌त्ति, स्थिति, वृत्ति, नीति, क‌वित्व‌, गुरुत्व‌, म‌ह‌त्त्व‌, अस्तित्व‌, शिष्य‌त्व‌ व‌गैरे.
म्ह‌णून 'त‌'चे अधिक‌त्व‌ आहे.

अरविंद कोल्हटकर Mon, 24/04/2017 - 18:31

मोल्स‌व‌र्थ‌चा म‌राठी-इंग्लिश‌ १८५७ हा कोश‌ माझ्याक‌डे पीडीएफ‌म‌ध्ये आहे आणि तो ब‌घ‌ण्याची वेळ‌ म‌ला अनेक‌दा येते. द‌र‌ वेळेस‌ कोशाची पाने चाळ‌ण्यात‌ वेळ‌ घाल‌विणे टाळ‌ण्यासाठी मी माझ्यापुर‌ता त्याचा एक‌ इंडेक्स‌ क‌रून‌ तोहि त्याच‌ नावाने पीडीएफ‌म‌ध्ये त्याच‌ फोल्ड‌र‌म‌ध्ये ठेव‌ला आहे, जेणेक‌रून‌ आधी इंडेक्स‌ पाहून‌ ह‌व्या त्या पानाव‌र‌ एक‌द‌म‌ जाता यावे.

त्या इंडेक्स‌प्र‌माणे कोशातील‌ म‌राठी अक्ष‌रे श‌ब्दांच्या सुरुवातीस‌ अस‌ण्याची पृष्ठ‌स‌ंख्या अशी आहे.

स‌ ७५, क ६७, प ६६, अ ५८, व ५३, म ४९, ब ३९, ग ३३, न ३३, च ३२, द ३२, त‌ ३१, ह ३१, ख २७, भ‌ २६, र २६, श‌ २६, उ २५, ल‌ २२. बाकी स‌र्व‌ अक्ष‌रे २०च्या खाली.

येथे त खूप‌च‌ खाली आहे. त च‌ एकूण‌ वाप‌र‌ स‌र्वाधिक‌ अस‌ला त‌री त ने सुरू होणारे श‌ब्द‌ त्या मानाने ब‌रेच‌ क‌मी आहेत‌ असे दिस‌ते.

आम‌च्या घ‌री व‌डिलोपार्जित‌ छाप‌खान्याचा व्य‌व‌साय‌ माझ्या ल‌हान‌प‌णी होता. स‌ंग‌ण‌काव‌र‌ म‌ज‌कूर‌ तयार‌ क‌र‌ण्याचे दिव‌स‌ अजून‌ कोणी स्व‌प्नात‌हि पाहिले न‌व्ह‌ते. आम‌च्या छाप‌खान्यात‌ स‌मोर‌ दोन‌ केसेस‌म‌ध्ये अस‌लेले टाइप एकएक‌ क‌रून‌ उच‌लून‌ क‌ंपोझिट‌र्स‌ हातातील‌ 'स्टिक‌'म‌ध्ये ठेवून‌ म‌ज‌कूर‌ जुळ‌व‌त‌ अस‌त‌. त‌शी केस‌ आता कोठे अस‌लीच‌ त‌र‌ जुन्या छाप‌खान्यात‌ असू श‌केल‌. थोड्या शोधान‌ंत‌र‌ अशा केस‌चे चित्र‌ म‌ला येथे दिस‌ले. ह्या केस‌म‌ध्ये स‌र्वात‌ सोप्या जागा आणि स‌र्वात‌ मोठे क‌प्पे क‌ र‌ ग‌ त‌ न‌ आणि अ ह्या अक्षरांना दिलेले दिस‌तात‌. ही अक्षरे स‌र्वात‌ अधिक‌ वाप‌र‌ली जातात‌ ह्याचे हे एक‌ द‌र्श‌क‌ आहे.

(अशा जुन्या छाप‌खान्यात‌ पुस्त‌क‌ क‌से त‌यार‌ होत‌ असे ह्याच्या माझ्या ल‌हान‌प‌ण‌च्या आठ‌व‌णी आहेत‌. त्याव‌र‌ एक‌ म‌नोर‌ंज‌क‌ लेख‌ लिहिता येईल‌. थोडी स‌व‌ड‌ मिळाली की ते क‌र‌ण्याचा विचार‌ आहे.)

आदूबाळ Mon, 24/04/2017 - 19:14

In reply to by अरविंद कोल्हटकर

(अशा जुन्या छाप‌खान्यात‌ पुस्त‌क‌ क‌से त‌यार‌ होत‌ असे ह्याच्या माझ्या ल‌हान‌प‌ण‌च्या आठ‌व‌णी आहेत‌. त्याव‌र‌ एक‌ म‌नोर‌ंज‌क‌ लेख‌ लिहिता येईल‌. थोडी स‌व‌ड‌ मिळाली की ते क‌र‌ण्याचा विचार‌ आहे.)

या बात‌! वाट‌ पाह‌तो आहे!

बॅटमॅन Mon, 24/04/2017 - 19:21

In reply to by आदूबाळ

नेम‌का हेच‌ दाख‌व‌णारा व्हिडिओ फिर‌त‌ होता फेबुव‌र‌ काही म‌हिन्यांपूर्वी. हे सालं जालीय म‌ज‌कूर‌ रिट्रीव्ह‌ क‌र‌णं म्ह‌ण‌जे तुफान‌ त्रासाचं काम‌ आहे.

अभ्या.. Mon, 24/04/2017 - 19:31

In reply to by आदूबाळ

अरे वा. येऊ द्या, येऊ द्या.
मी सुद्दा केलेय कंपोझिंग उलुसे.
प‌हिल्या डिझाय‌न‌र‌च्या नोक‌रीत माझ्या सोब‌त‌चा स‌ग‌ळा स्टाफ भुत‌पुर्व कंपोझिट‌रांचा होता. फॉन्ट, साईज, अलाइन‌मेंट, स्पेसिंग आणि लेआऊट‌चा क‌मालीचा सेन्स होता त्यांना. डिटिपी क‌र‌तानाहि ते त्यांचे स्पेश‌ल व‌र्ड‌स वाप‌राय‌चे.
एक‌ज‌ण सोल्ज‌र क‌ट माराय‌चा निय‌मित्. त्याला विग्नेट क‌ट् म्ह‌णाय‌चे. विग्नेट म्ह‌न‌जे बॅक्ग्राउंड‌म‌ध्ये फेड होत गेलेले चित्र. =)) =))

अरविंद कोल्हटकर Mon, 24/04/2017 - 19:04

मोरोप‌ंतांनी त्यांच्या क‌मीअधिक‌ १०८ रामाय‌णांम‌ध्ये 'निरोष्ठ्य‌ रामाय‌ण‌' असे एक‌ छोटे रामाय‌ण‌ र‌च‌ले होते. त्याम‌ध्ये 'ओष्ठ्य‌व‌र्ण‌' म्ह‌ण‌जे प‌फ‌ब‌भ‌म‌ हे ओठांनी उच्चाराय‌चे व‌र्ण‌ बिल‌कुल‌ वाप‌र‌ले न‌व्ह‌ते. ह्या १०८ रामाय‌णांव‌र‌चा माझा लेख‌ http://aisiakshare.com/node/3948 येथे आहे.

३_१४ विक्षिप्त अदिती Tue, 25/04/2017 - 08:15

आजच nltk प्रकार शिकायला घेतला. काय हा दैवदुर्विलास!

---

विकेण्डपर्यंत मला टाईम इल्ला, पण हाच तरयकल-कार्यक्रम पायथनमध्ये थोडक्यात आटोपेल असं वाटतं. डॉक्युमेंट घ्या, त्याचा युनिकोड सोडवा, स्वरांचे युनिकोड आणि विरामचिन्हं काढून टाका; उरलेल्यांवर पायथनमधली Counter नावाची डिक्शनरी चालवा, ती तिच्या valuesप्रमाणे sort करा, 'तरयकल' मिळेल, आकड्यांसकट. हे सगळं १०-१२ ओळींत होऊन जाईल, बहुदा.
'ळ'चे हिंदोळेही सहज बघता येतील. मटा, सकाळ, लोकसत्तेतल्या ळ च्या हिंदोळ्यांचा आलेख, त्याची आंजाशी तुलना वगैरे किडेही कोणाला करायचे असतील तर पाहा.

हे पायथनमध्ये एवढं सहज करता येतं (असावं) तर ऋ, म्हणजे 'आर'मध्येही सहज जमेल; असा माझा काठावरून कोरडा अंदाज.

मिहिर Tue, 25/04/2017 - 10:33

In reply to by ३_१४ विक्षिप्त अदिती

आत्ताच युनिकोडशी थोडी झटापट करून पायताणात एक सोपासा प्रोग्रॅम लिहिला. तू म्हटल्याप्रमाणे दहा-बारा ओळींतच झाला. ऐसीवरच्या वर दिसणाऱ्या लेखांना लावून बघितला. 'तरयकल'बरोबर 'न'ही दिसला काही लेखांत जास्त. मोठ्या सँपलसाठी जचिंना जी दिवाळी अंकाची टेक्स्ट फाईल पाठवली होतीस ती पाठवतेस का? त्यावरही चालवून बघतो. इतरही लेखांशी खेळून बघतो उद्या. :)

बिटकॉइनजी बाळा Tue, 25/04/2017 - 11:49

In reply to by मिहिर

हा धागा वर काढल्याबद्दल सर्व संबंधितांचे आभार. मिहिर तू ही हा कोड गिटहबवर टाकशील का?
मला आदिती यांनाही एक सूचना करावीशी वाटते. ऐसीसाठी त्या ज्या खटपटी करत असतात त्याही गिटहबवर टाकता येईल का? ज्यांना हातभार लावायचा असेल ते सहज लावू शकतील. नवीन खटपटी पण सुचतील.

३_१४ विक्षिप्त अदिती Wed, 26/04/2017 - 00:38

In reply to by बिटकॉइनजी बाळा

मिहिर तू ही हा कोड गिटहबवर टाकशील का?

+१
माझ्या डोक्यात आणखी काही किडे आहेत, वेळ झाला की सविस्तर लिहिते/काम करते.
जयदीपला जी फाईल पाठवली होती, ती जरा शोधावी लागेल. शनिवारपर्यंत मी इमेल केलं नाही तर मिहिर, मला एकदा आठवण कर. (बहुदा ती फाईल शिल्लक असेल.)

नील, ऐसीसाठी मी निराळं काही करत नाही. ड्रुपालच्या साईटवरून कोड आणून इकडे जोडते झालं. मला जावास्क्रिप्ट, पीएचपी वगैरे गोष्टी अजिबातच येत नाहीत. तो कोड बघूनच दबून जायला होतं. देवनागरी टंकनाचं गमभनीकरण करणारा, इंडिक स्क्रिप्ट मॉड्यूलचा, कोड शेअर करते.

---

पायथनमध्ये धाग्यांतून टेक्स्ट काढण्याचं स्क्रिप्ट लिहिता येईल. सगळ्या धाग्यांच्या लिंका सारख्याच असतात, फक्त आकडे बदलतात. (लोकसत्ता, मटा, सकाळच्या लिंका तशा शोधता येणार नाहीत.) तर धागा क्र १ ते (उदाहरणार्थ) १०००० पर्यंत धागे शोधायचे. त्यातली अक्षरं शोधता येतील. काही धागे नसतील त्यामुळे कदाचित try - except सारखी 'महागडी' लुपं लावावी लागतील. त्यातून सगळे धागे आणि प्रतिसादही शोधता येतील.

अस्वल Mon, 01/05/2017 - 09:05

In reply to by ३_१४ विक्षिप्त अदिती

धाग्यांतून‌ टेक्स्ट‌ काढ‌ण्याचा कोड‌ आहे माझ्याक‌डे - लेख‌काच्या आय‌डीप्र‌माणे त्याचे स‌ग‌ळे लेख‌ .txt म‌धे उत‌र‌वून‌ घेता येईल‌ अस‌ं.
टॉप‌ १०० लेखकांच्या लेख‌नाची फाईल‌ शेअर‌ क‌र‌तो.

हे एक‌ डेटा सॅंप‌ल‌ आहे ऐसीव‌र‌च्या ०-३०० क्र‌मांकांच्या स‌द‌स्य‌लेख‌नाच‌ं.

प्र‌तिसाद‌ही अॅड क‌र‌ता येतील न‌ंत‌र‌.
त्याव‌र‌ हा पाय‌थ‌न‌चा कोड‌ र‌न‌ क‌रून‌ ब‌घ‌ता येईल‌.