तरयकल
रोमन लिपीतल्या सव्वीस अक्षरांपैकी 'e' हे अक्षर इंग्रजी लिखाणात सर्वांत जास्त वापरलं जातं. (त्याचं प्रमाण अंदाजे १०-१२ % अाहे; याचा अर्थ सरासरी नऊ अक्षरांमागे एकदा 'e' येतो.) त्यानंतर 't' चा नंबर लागतो; अाणि फ्रीक्वेन्सीच्या उतरत्या क्रमानुसार पहिली काही अक्षरं e-t-a-o-i-n-s अशी अाहेत. त्यामानाने अर्थात 'x', 'z' वगैरे तुरळकपणे येतात.
मराठीचं असं फ्रीक्वेन्सी अॅनॅलिसिस कुणी केल्याची मला माहिती नव्हती, त्यामुळे माझ्या युनिव्हर्सिटीतल्या जो सिमोस ह्या विद्यार्थ्याच्या मदतीने एक जावा प्रोग्रॅम लिहून ते मी करून पाहायचं ठरवलं. डेटा म्हणून मी इंटरनेटवरून उचललेले मराठीचे वेगवेगळे नमुने वापरले; उदा. लोकसत्तेतली संपादकीयं, धार्मिक विषयांवरचे लेख, संजय सोनवणींचे लेख, चावट कथा, 'ऐअ' चा दिवाळी अंक, इत्यादि इत्यादि.
व्यंजनांविषयी असा निष्कर्ष काढता अाला की (लिखित) मराठीत सगळ्यात जास्त प्रमाण 'त' या व्यंजनाचं अाहे. (इतकी वर्षं मराठी वाचत असूनही हे मला कधी जाणवलं नव्हतं, त्यामुळे किंचित लाज वाटली.) त्यानंतर र-य-क-ल ह्या व्यंजनांचा क्रम लागतो.
संख्याशास्त्रीय अनुमान निघालं ते असं की एखाद्या लिखाणात जर १०० वेळा 'त' अाला असं समजलं, तर ७८ वेळा 'र', ७१ वेळा 'य', ६५ वेळा 'क' अाणि ६४ वेळा 'ल' येतो. ही पाच व्यंजनं सोडली तर बाकीच्यांचं प्रमाण बरंच खाली अाहे. या अाकड्यांत लिखाणाच्या नमुन्यानुसार अधिकउणे १०% इतपत फरक अाढळतो; मात्र यापेक्षा जास्त फरक क्वचितच दिसून अाला. ज्यांत 'र-य-क-ल' हा क्रम उलटासुलटा झाला अाहे असे काही नमुने सापडले, पण 'त' अग्रक्रमावर नाही असा एकही सापडला नाही.
इंग्रजीमध्ये 't' या व्यंजनाचं प्रमाण सर्वात जास्त असणं अाणि मराठीत 'त' चं असणं, हा योगायोग अाहे की दोन्ही भाषा इंडो-युरोपियन असल्याची ती खूण अाहे, हे मला माहित नाही.
स्वरांवर काम चालू अाहे, पण अात्तापर्यंत असं दिसतं, की 'अ' अाणि 'अा' यांचं प्रमाण खूपच जास्त अाहे (यात आश्चर्य नाही), त्यांनंतर इकारांचा (ऱ्हस्व अाणि दीर्घ), अाणि त्यांनंतर उकारांचा क्रम लागतो. त्यातसुद्धा दीर्घ इकार अाणि उकार हे अनुक्रमे ऱ्हस्वांपेक्षा थोड्याशा (पण थोड्याशाच) जास्त संख्येने येतात.
अजून बरंच काही करण्याचा बेत अाहे; उदाहरणार्थ, काही प्रश्न सहज सुचतात ते असे: जोडाक्षरं किती प्रमाणात येतात अाणि त्यांतही नेहमी येणारी कोणती? सरासरी प्रत्येक वाक्यात किती शब्द येतात, किंवा प्रत्येक शब्दात किती अक्षरं येतात? त्यात पुन्हा साने गुरुजींचं लिखाण अाणि कृष्णशास्त्री चिपळूणकरांचं लिखाण यांची तुलना केली तर या अाकड्यांत किती फरक पडतो?
वाचकांनी असे अाणखी काही प्रश्न सुचवल्यास त्यांचं स्वागतच अाहे.
(टीप: 'ऐअ' चा दिवाळी अंक टेक्स्ट फाईलच्या स्वरूपात मला पाठवल्याबद्दल ३_१४ विक्षिप्त अदिती यांचे अाभार मानतो. त्यांच्या नावातच दोनदा 'त' असल्यामुळे संख्याशास्त्रीय विश्लेषणावर अवाजवी परिणाम झाला नसेल अशी अाशा अाहे.)
'त' वरून ताकभात!
अजून बरंच काही करण्याचा बेत अाहे; उदाहरणार्थ, काही प्रश्न सहज सुचतात ते असे: जोडाक्षरं किती प्रमाणात येतात अाणि त्यांतही नेहमी येणारी कोणती? सरासरी प्रत्येक वाक्यात किती शब्द येतात, किंवा प्रत्येक शब्दात किती अक्षरं येतात? त्यात पुन्हा साने गुरुजींचं लिखाण अाणि कृष्णशास्त्री चिपळूणकरांचं लिखाण यांची तुलना केली तर या अाकड्यांत किती फरक पडतो?
-या एका परिच्छेदातच 'त' इतक्या वेळेला आला आहे की लेखकाने अनुप्रास वापरला आहे अशी शंका आली. ;)
एका आगळ्या-वेगळ्या शोधाबद्दल लेखकाचे अभिनंदन.( - या वाक्यामध्ये एकही 'त' वापरलेला नाही. - ->या वाक्यामध्ये एकच 'त' वापरलेला आहे.--) :)
फारच मस्त!
प्रयोग फारच आवडला.
खरेच 'त' बाजी मारेल असे वाटले नव्हते. ऱ्हस्व-दीर्घाच्या बाबतीत जालावरील लेखनातील (अ)शुद्धलेखनाचाही प्रभाव असावा असे वाटते. अनेक तत्सम शब्दांमध्ये सुरुवातीचे दीर्घ उ-ईकार ऱ्हस्व पाहिले आहेत. उदा. सूचना, पीडित इ. त्यामुळे थोडा फरक पडला असावा. जुन्या मराठीतील कवि, मति, मृत्यु अशा प्रकारे तत्सम शब्दांचे लिखाण असलेल्या लिखाणांत कदाचित ऱ्हस्व बाजी मारू शकतील असे वाटते.
बोलीप्रमाणे लिहिलेल्या मराठीत 'य' जरा जास्त येत असावा असे वाटते. उदा. करतोय, बसतोय, केलंय, आलंय, पाहिलाय इ. असे शब्द नसलेले लिखाणासाठी जालावर शोधाशोध करावी लागेल. किंवा नेहमी अशा प्रकारे 'य'वाले शब्द वापरणारा लेखक आणि 'य'वाले शब्द न वापरणारा लेखक यांच्या लिखाणातील 'य'च्या प्रमाणाची तुलना करणे रोचक ठरावे.
अवांतरः प्राथमिक निरीक्षणावरून मांडलेला अंदाजः जिथे जिथे 'असणे' क्रियापदाचे 'हे'युक्त रूप येते तिथे बोलीत 'य' येत असावा, तर जिथे 'हो'युक्त रूप येते तिथे 'व' येत असावा. तज्ज्ञांनी प्रकाश टाकावा.
उदा. करत(तो) आहे = करतोय
माणसं आहेत = माणसायत.
उद्या आहे = उद्याय
आला होता = आलावता
लावलं होतं = लावलवतं इ.
अतिअवांतरः 'आम्ही आलो आहोत' चे अनौपचारिक बोलताना मी अनेकदा 'आलोय' असे करतो. 'आलोय' हे 'आलो आहे'साठीचे रूप वाटते, मात्र 'आम्ही आलो आहे' हे वाक्य तोंडातून अजिबात निघत नाही!
सोयीस्करपणे परभाषेमधून शब्द
सोयीस्करपणे परभाषेमधून शब्द आणले की जमेलच हो असे मूर्धन्य अनुनासिकापासून एकदम जवळचे कठोर व्यंजन न वापरूनही मोठे मोठे शेरे लिहायला. पूर्ण मराठीमध्येच लिहून बघा मूर्धन्य अनुनासिकापासून एकदम जवळच्या कठोर व्यंजनाशिवाय, मग बघा कशी फेफे उडेल लिहिणाराची ;)
(मूळ वाक्य "त-शिवाय" शुद्ध मराठीमध्ये)
सोयीस्करपणे परभाषेमधून शब्द आणायची विशेष गरज नाही हो अशी बयाजवार शेरेबाजी करायला. पूर्ण मराठीमध्ये लिहूनदेखील फेफे उडालेली नाही हे पाहणे रोचक आहे ;)
(त-संख्या= लॉग(१)) ;)
बैदवे तमिऴसाठी हा प्रयोग रोचक ठरावा. त्यांच्यात तर त,द हे आणि असे अनेक ग्रूप्स सेमच अस्तात.
ही घ्या आमची स्वाक्षरीदेखील मूर्धन्य अनुनासिकापासून एकदम जवळच्या कठोर व्यंजनाशिवाय लिहिलेली.
दुष्टारी सकळां भारी | प्रगटला गॉथम शहरी |
वाल्गुदेय हा निर्धारी | विदूषका जाण पां ||
पुरवणी
मी वर लिहिलं होतं की 'त' अग्रक्रमावर नाही असा एकही नमुना सापडला नाही. तसा एक नमुना अाज सापडला, पण मराठीत नाही. हाच प्रोग्रॅम मी ऋग्वेदावर चालवून पाहिल्यावर असं दिसलं की अाता 'व' अग्रक्रमावर अालेला अाहे (४९८५५ वेळा), पण त्याच्या पाठीला नाक लावून 'त' अाहेच (४९६६५ वेळा), अाणि शिवाय 'र' ही फारसा मागे नाही (४९५४४ वेळा).
तेव्हा 'त' अाणि 'र' खूपदा येणं हा कदाचित सगळ्याच संस्कृतोद्भव भाषांचा गुणधर्म असू शकेल. अधिक संशोधनाची गरज अाहे. (तशी ती नेहमी असतेच.)
प्रयोग आवडला.
एकाच भाषेच्या वेगवेगळ्या बोलीभाषा एकमेकींपेक्षा किती निराळ्या आहेत हे अशा प्रयोगांवरून समजेल का? -- मिहिरचा प्रतिसाद
तेलुगु शिकण्याचा (क्षीण प्रयत्न) केला होता तेव्हा त्यांची लिपीही शिकण्याचा प्रयत्न केला होता. त्यात (क्षीण) आठवणींमधूनः मराठी-देवनागरीत व्यंजनांमधे बाय डीफॉल्ट अ मिसळून लिहीला जातो. तेलुगुमधे 'आ' असतो, त्याचं कारण तेलुगुमधे 'आ' हा स्वर सर्वाधिक वापरला जातो असं दिलं होतं. हे पुस्तक रेल्वे स्थानकांवर 'तेलुगु शिका' वगैरे मिळतात त्यातलं होतं, आणि खरंखोटं समजण्याइतपत तेलुगु मी कधी शिकलेही नाही.
त्यांच्या नावातच दोनदा 'त' असल्यामुळे संख्याशास्त्रीय विश्लेषणावर अवाजवी परिणाम झाला नसेल अशी अाशा अाहे.
वापरण्याच्या, कागदोपत्री असणार्या, स्वतः घेतलेल्या अशा सर्व नावांमधे 'त' आहे.
तरीच!
वापरण्याच्या, कागदोपत्री असणार्या, स्वतः घेतलेल्या अशा सर्व नावांमधे 'त' आहे
तरीच तिरसटं त्+रांगड दिसतंय! ;-)
प्रयोग आवडला, निष्कर्ष रोचक आहे'त'. (बाकी ऋग्वेद (आणि इतर) वेदांच्या टेक्स्ट फाईल्स कुठे मिळाल्या याचा दुवा देऊन आमचा दुवा घ्यावा, धन्यवाद.)
अत्यंत रोचक! इंग्रजीमध्ये 't'
अत्यंत रोचक!
इंग्रजीमध्ये 't' या व्यंजनाचं प्रमाण सर्वात जास्त असणं अाणि मराठीत 'त' चं असणं, हा योगायोग अाहे की दोन्ही भाषा इंडो-युरोपियन असल्याची ती खूण अाहे, हे मला माहित नाही
आणखी इतरही भाषांचं विश्लेषण केल्यास तो योगायोग आहे की भाषांचे वैशिष्ट्य आहे की माणसाचा नैसर्गिक कल आहे याबाबतीत थोडी अधिक माहिती मिळू शकेल कदाचित.
काही अवांतरः बहुत रोचक.
काही अवांतरः
बहुत रोचक. यावरून आठवले, इंग्रजीत e हे अक्षर सर्वांत जास्त कॉमन आहे. एका पठ्ठ्याने मुद्दाम e हे अक्षर न वापरता तब्बल १०५ पानांची इंग्रजी कादंबरी लिहिलीये, नाव आहे gadsby. तिची पीडीएफ इथे मिळेल. नमुन्यादाखल हा एक उतारा बघा त्यातला:
If youth, throughout all history, had had a champion to stand up for it; to show a doubting
world that a child can think; and, possibly, do it practically; you wouldn’t constantly run
across folks today who claim that “a child don’t know anything.” A child’s brain starts
functioning at birth; and has, amongst its many infant convolutions, thousands of dormant
atoms, into which God has put a mystic possibility for noticing an adult’s act, and figuring
out its purport.
कुठेही कृत्रिमपणा वाटत नाही,तरीही e हे अक्षर न वापरता लिहिणे हे शक्य असेल असे आजिबात वाटत नाही. मराठीत मोरोपंतांनी निरोष्ठ रामायण लिहिलेय-प्,फ्,ब्,भ्,म ही अक्षरे न वापरता. हे नक्कीच अवघड आहे, पण तरयकल मध्ये ही अक्षरे कुठेच नसल्याने जमून गेले असे वाटते.
या लेखाचा एक फायदा की त्यामुळे मराठीची ऑर्डर तरयकल ही कळाली. लेखकास एक प्रश्न आहे: ज्ञानेश्वरी किंवा तत्सम कुठल्याही जुन्या मराठी ग्रंथावरती हा प्रोग्रॅम रन करता येईल का? ज्ञानेश्वरीची पीडीएफ इथे मिळेल. जुन्या मराठीपेक्षा सध्याच्या मराठीत काही फरक पडला आहे किंवा कसे, हेही त्यातून स्पष्ट होईल.
त्यामुळे आता मराठीत "त" हे अक्षर न वापरता कादंबरी लिहिणे हे अप्रोप्रिएट च्यालेंज होईल. आहे का कोणी :)
ज्ञानेश्वरी
> ज्ञानेश्वरी किंवा तत्सम कुठल्याही जुन्या मराठी ग्रंथावरती हा प्रोग्रॅम रन करता येईल का? ज्ञानेश्वरीची पीडीएफ इथे मिळेल. जुन्या मराठीपेक्षा सध्याच्या मराठीत काही फरक पडला आहे किंवा कसे, हेही त्यातून स्पष्ट होईल.
यातली अडचण अशी की पीडीएफ भादरून त्याची प्लेन टेक्स्ट फाईल कशी करायची ते मला माहित नाही. (असं करून देणारे काही अोपन सोर्स प्रोग्रॅम्स इंटरनेटवर अाहेत, पण ते देवनागरीवर नीट चालत नाहीत असा माझा अनुभव अाहे.) तेवढं कुणी करून दिल्यास बाकीचं अवघड नाही.
> एका पठ्ठ्याने मुद्दाम 'e' हे अक्षर न वापरता तब्बल १०५ पानांची इंग्रजी कादंबरी लिहिलीये, नाव आहे gadsby.
I know that writing in Anglo-Saxon without using that taboo sign is initially difficult. But, during writing, if you try to winnow your words and linguistic constructs with insight and a sharp ocular faculty, you can do it. I must warn you that constant caution is mandatory. If you nod off, you slip up.
Such writing is tiring, so I am going to stop, drink a dram of scotch and watch Novak Djokovic play in Australian 2013 (Hard Court). I think Novak will win, but not Andy Murray. (RF is a bit old now, but still plays fantastically.) What do you think?! Who do you root for?!
त्याच लिंकमध्ये उजवीकडे
त्याच लिंकमध्ये उजवीकडे "UNIC" असे लिहिलेय, त्यावर क्लिक केल्यास एचटीएमएल फॉर्मॅटमध्ये ज्ञानेश्वरिचे सर्व अध्याय दिसतील. मग ते सरळ नोटपॅडात पेष्टवून काम होऊ शकेल असे वाटते. मी पहिला अध्याय करून पाहिला-झाला.
स्वरांबद्दलचे काम पूर्ण रूपात पहायला आवडेल.
बाकी आपल्या लायपोग्रॅमॅटिक कौशल्याला सादर प्रणाम केल्या गेला आहे. _/\_
(लोटांगणाच्या वाक्यामध्ये त नाही-चेक)
I root for none, since the "Euler of Tennis" ain't there in this match ;)
ऐसे 'र' ला 'त' मेळवीन
ज्ञानेश्वरी ह्या प्रोग्रॅममधून घालून पाहिली. पुन्हा 'त' अाणि 'र' अग्रेसर अाहेत. जास्तीतजास्त वेळा येणाऱ्या पहिल्या सहा व्यंजनांचं परस्परप्रमाण असं:
एकूण पाहता अाधुनिक मराठीपेक्षा चित्र फार वेगळं नाही. (मुख्य फरक असा की 'व' अाणि 'स' चं प्रमाण जास्त अाहे, अाणि 'ल' चं कमी अाहे.) अर्थात इथे एक बाळबोध इशारा द्यायलाच हवा, तो म्हणजे ज्ञानेश्वरी हे तेराव्या शतकातल्या मराठीचं representative sample असेलच असं नाही.
वा!!! तत्परतेने वेळ खर्चून
वा!!! तत्परतेने वेळ खर्चून उत्तर दिल्याबद्दल बहुत बहुत धन्यवाद :) एकूणच आधुनिक मराठीपेक्षा चित्र वेगळं दिसत नाही. हा क्रम म्हणजेच कुठल्याही भाषेचे व्यवच्छेदक लक्षण असे म्हणावे काय? कुणी लिंग्विस्ट तसे म्हटला आहे का आधी कधी?
बाकी तेराव्या शतकातील मराठी आणि ज्ञानेश्वरीचा आक्षेप मान्य आहे. पण महानुभाव ग्रंथ मात्र तसे नाहीत-ते बहुतांशी गद्य आहेत आणि पंथाबाहेर सर्क्युलेट न झाल्याने त्यांचे मूळ स्वरूप तसेच टिकून राहिले आहे. ते ग्रंथ कुठे मिळतात का नेटवर ते पहातो.
A most unusual paragraph
This is an unusual paragraph. I’m curious as to just how quickly you can find out what is so unusual about it. It looks so ordinary and plain that you would think nothing was wrong with it. In fact, nothing is wrong with it! It is highly unusual though. Study it and think about it, but you still may not find anything odd. But if you work at it a bit, you might find out. Try to do so without any coaching.
हा उद्योग पायताण एनएलपी
हा उद्योग पायताण एनएलपी टूलकिट (www.nltk.org) वापरून करता येईल. पायताण आणि एनएलपी माझ्या शिकण्याच्या यादीत आहे (भलत्याच कारणासाठी.)
आर भाषेचं भाषाविश्लेषण टूलकिटही आहे.
थोडक्यात उत्तर
> आज एका प्रश्नाच्या निमित्ताने हा लेख पुन्हा वर काढत आहे- मराठीतील ळ हे अक्षर नक्की किती % वेळेस वापरले जाते याचा विदा मिळेल काय? रादर प्रत्येकच व्यंजन?
याचं थोडक्यात उत्तर असं की जर एखादं व्यंजन दुर्मीळ असेल तर ते किती वेळा येतं हा हिशेब दर सँपलमध्ये फार वरखाली होतो. त्यामुळे त्याची स्टॅटिस्टिकल फ्रिक्वेन्सी काढली तरी ती भरवशाची नसते.
उदाहरणार्थ, ह्या प्रश्नाच्या निमित्ताने 'लोकसत्ते'तल्या एका जुन्या संपादकीयाचं मी आत्ताच पुन्हा विश्लेषण करून पाहिलं. त्यातल्या ९३३ शब्दांमध्ये ‘ळ’ फक्त ३१ वेळा आलेला आहे. (त्यामानाने ‘त’ ३३३ वेळा, म्हणजे त्याच्या दसपट आहे.) ह्या संपादकीयातलं एक वाक्य असं आहे:
उन्हाळी मोसमात अवकाळी पाऊस येणे, पावसाच्या वेळापत्रकांमध्ये फेरबदल होणे या हवामानातील बदलांचा सर्वात पहिला व मोठा फटका हा बळीराजाला बसतो.
आता लिहिणाऱ्याने जर ‘अवकाळी’ ऐवजी ‘अकाली’ लिहिलं असतं आणि ‘बळीराजा’ हा शब्द जिथेतिथे वापरण्याची चूष आवरली असती तर लागलीच दोन ‘ळ’ कमी झाले असते. तेव्हा मुद्दा तोच: दुर्मीळ व्यंजनांचा वापर लिहिणाऱ्यावर आणि विषयावर फार अवलंबून असतो.
हे दोन प्रश्न पाहा:
(१) सरासरी दर आठवड्याला ‘वैशाली’त फर्ग्युसनमधले किती विद्यार्थी येतात?
(२) सरासरी दर आठवड्याला ‘वैशाली’त किती आय.एफ.एस. अॉफिसर्स येतात?
पहिल्या प्रश्नाचं स्टॅटिस्टिक्स काढणं सहज शक्य आहे, पण दुसऱ्याचं काढण्यात विशेष अर्थ नाही.
अतिशय झक्कास उपक्रम.
शेरलॉक होम्सच्या त्या नाचणाऱ्या बाहुल्यांच्या गोष्टीत त्याने हे वारंवारितेचं प्रमेय मांडलेलं होतं, तेव्हा डोक्यात किडा आलेला की असं मराठीत काय असेल ब्वॉ? पण तो विचार तितक्याच तत्परतेने अस्तास गेला. तुम्ही इतका भन्नाट उपक्रम हाती घेतलाय, की ह्यावर एक शोधनिबंधच लिहू शकता की!
फारच इंटरेस्टिंग माहिती. मराठी भाषा दिनाच्या वेळी 'कुसुमाग्रजांचं खरं नाव काय' छाप प्रश्नांपेक्षा हे असे प्रश्न फार भारी होतील कोणाला विचारायला.
'त' अधिक असण्याचे कारण म्ह
'त' अधिक असण्याचे कारण म्हणजे धातुसाधितांच्या प्रत्ययांमध्ये आणि क्रियापदांच्या प्रत्ययांमध्ये 'त'चे प्राबल्य आहे. शिवाय भाववाचक नामे बनवतानाही 'त' असतोच. प्रगल्भ भाषेत प्रथम अथवा द्वितीय पुरुषापेक्षा तृतीय पुरुषाचा वापर अधिक असतो. (डिस्क्रिप्टिव म्हणून.) संस्कृतात तृतीयपुरुषी क्रियापदांच्या रूपांत 'त' अधिक असतो. गच्छति, गच्छन्ति, एति, ददाति, श्रुणोति, गच्छतु, वगैरे. मराठीत रीतिवर्तमानाचे सगळेच प्रत्यय 'त'युक्त आहेत्
. कर्मणि विध्यर्थीधाविमध्ये गत्य, कृत्य, कर्तव्य, गन्तव्य, वक्तव्य, भवितव्य वगैरे. भूतकालवाचक धासांमध्ये नत, हत, उक्त, दत्त, साधित, बाधित, जात, चरित, लिखित, गीत वगैरे. जाताना, येताना, बोलताना, सांगताना वगैरे. भाववाचकामध्ये कविता, घनता, शुचिता, संपन्नता, शांतता, उष्णता, उत्पत्ति, स्थिति, वृत्ति, नीति, कवित्व, गुरुत्व, महत्त्व, अस्तित्व, शिष्यत्व वगैरे.
म्हणून 'त'चे अधिकत्व आहे.
माझे ढोबळ कोष्टक.
मोल्सवर्थचा मराठी-इंग्लिश १८५७ हा कोश माझ्याकडे पीडीएफमध्ये आहे आणि तो बघण्याची वेळ मला अनेकदा येते. दर वेळेस कोशाची पाने चाळण्यात वेळ घालविणे टाळण्यासाठी मी माझ्यापुरता त्याचा एक इंडेक्स करून तोहि त्याच नावाने पीडीएफमध्ये त्याच फोल्डरमध्ये ठेवला आहे, जेणेकरून आधी इंडेक्स पाहून हव्या त्या पानावर एकदम जाता यावे.
त्या इंडेक्सप्रमाणे कोशातील मराठी अक्षरे शब्दांच्या सुरुवातीस असण्याची पृष्ठसंख्या अशी आहे.
स ७५, क ६७, प ६६, अ ५८, व ५३, म ४९, ब ३९, ग ३३, न ३३, च ३२, द ३२, त ३१, ह ३१, ख २७, भ २६, र २६, श २६, उ २५, ल २२. बाकी सर्व अक्षरे २०च्या खाली.
येथे त खूपच खाली आहे. त च एकूण वापर सर्वाधिक असला तरी त ने सुरू होणारे शब्द त्या मानाने बरेच कमी आहेत असे दिसते.
आमच्या घरी वडिलोपार्जित छापखान्याचा व्यवसाय माझ्या लहानपणी होता. संगणकावर मजकूर तयार करण्याचे दिवस अजून कोणी स्वप्नातहि पाहिले नव्हते. आमच्या छापखान्यात समोर दोन केसेसमध्ये असलेले टाइप एकएक करून उचलून कंपोझिटर्स हातातील 'स्टिक'मध्ये ठेवून मजकूर जुळवत असत. तशी केस आता कोठे असलीच तर जुन्या छापखान्यात असू शकेल. थोड्या शोधानंतर अशा केसचे चित्र मला येथे दिसले. ह्या केसमध्ये सर्वात सोप्या जागा आणि सर्वात मोठे कप्पे क र ग त न आणि अ ह्या अक्षरांना दिलेले दिसतात. ही अक्षरे सर्वात अधिक वापरली जातात ह्याचे हे एक दर्शक आहे.
(अशा जुन्या छापखान्यात पुस्तक कसे तयार होत असे ह्याच्या माझ्या लहानपणच्या आठवणी आहेत. त्यावर एक मनोरंजक लेख लिहिता येईल. थोडी सवड मिळाली की ते करण्याचा विचार आहे.)
अरे वा. येऊ द्या, येऊ द्या.
अरे वा. येऊ द्या, येऊ द्या.
मी सुद्दा केलेय कंपोझिंग उलुसे.
पहिल्या डिझायनरच्या नोकरीत माझ्या सोबतचा सगळा स्टाफ भुतपुर्व कंपोझिटरांचा होता. फॉन्ट, साईज, अलाइनमेंट, स्पेसिंग आणि लेआऊटचा कमालीचा सेन्स होता त्यांना. डिटिपी करतानाहि ते त्यांचे स्पेशल वर्डस वापरायचे.
एकजण सोल्जर कट मारायचा नियमित्. त्याला विग्नेट कट् म्हणायचे. विग्नेट म्हनजे बॅक्ग्राउंडमध्ये फेड होत गेलेले चित्र. =)) =))
निरोष्ठ्य रामायण.
मोरोपंतांनी त्यांच्या कमीअधिक १०८ रामायणांमध्ये 'निरोष्ठ्य रामायण' असे एक छोटे रामायण रचले होते. त्यामध्ये 'ओष्ठ्यवर्ण' म्हणजे पफबभम हे ओठांनी उच्चारायचे वर्ण बिलकुल वापरले नव्हते. ह्या १०८ रामायणांवरचा माझा लेख http://aisiakshare.com/node/3948 येथे आहे.
काय हा दैवदुर्विलास!
आजच nltk प्रकार शिकायला घेतला. काय हा दैवदुर्विलास!
---
विकेण्डपर्यंत मला टाईम इल्ला, पण हाच तरयकल-कार्यक्रम पायथनमध्ये थोडक्यात आटोपेल असं वाटतं. डॉक्युमेंट घ्या, त्याचा युनिकोड सोडवा, स्वरांचे युनिकोड आणि विरामचिन्हं काढून टाका; उरलेल्यांवर पायथनमधली Counter नावाची डिक्शनरी चालवा, ती तिच्या valuesप्रमाणे sort करा, 'तरयकल' मिळेल, आकड्यांसकट. हे सगळं १०-१२ ओळींत होऊन जाईल, बहुदा.
'ळ'चे हिंदोळेही सहज बघता येतील. मटा, सकाळ, लोकसत्तेतल्या ळ च्या हिंदोळ्यांचा आलेख, त्याची आंजाशी तुलना वगैरे किडेही कोणाला करायचे असतील तर पाहा.
हे पायथनमध्ये एवढं सहज करता येतं (असावं) तर ऋ, म्हणजे 'आर'मध्येही सहज जमेल; असा माझा काठावरून कोरडा अंदाज.
खरंच की!
आत्ताच युनिकोडशी थोडी झटापट करून पायताणात एक सोपासा प्रोग्रॅम लिहिला. तू म्हटल्याप्रमाणे दहा-बारा ओळींतच झाला. ऐसीवरच्या वर दिसणाऱ्या लेखांना लावून बघितला. 'तरयकल'बरोबर 'न'ही दिसला काही लेखांत जास्त. मोठ्या सँपलसाठी जचिंना जी दिवाळी अंकाची टेक्स्ट फाईल पाठवली होतीस ती पाठवतेस का? त्यावरही चालवून बघतो. इतरही लेखांशी खेळून बघतो उद्या. :)
हा धागा वर काढल्याबद्दल सर्व
हा धागा वर काढल्याबद्दल सर्व संबंधितांचे आभार. मिहिर तू ही हा कोड गिटहबवर टाकशील का?
मला आदिती यांनाही एक सूचना करावीशी वाटते. ऐसीसाठी त्या ज्या खटपटी करत असतात त्याही गिटहबवर टाकता येईल का? ज्यांना हातभार लावायचा असेल ते सहज लावू शकतील. नवीन खटपटी पण सुचतील.
मिहिर तू ही हा कोड गिटहबवर
मिहिर तू ही हा कोड गिटहबवर टाकशील का?
+१
माझ्या डोक्यात आणखी काही किडे आहेत, वेळ झाला की सविस्तर लिहिते/काम करते.
जयदीपला जी फाईल पाठवली होती, ती जरा शोधावी लागेल. शनिवारपर्यंत मी इमेल केलं नाही तर मिहिर, मला एकदा आठवण कर. (बहुदा ती फाईल शिल्लक असेल.)
नील, ऐसीसाठी मी निराळं काही करत नाही. ड्रुपालच्या साईटवरून कोड आणून इकडे जोडते झालं. मला जावास्क्रिप्ट, पीएचपी वगैरे गोष्टी अजिबातच येत नाहीत. तो कोड बघूनच दबून जायला होतं. देवनागरी टंकनाचं गमभनीकरण करणारा, इंडिक स्क्रिप्ट मॉड्यूलचा, कोड शेअर करते.
---
पायथनमध्ये धाग्यांतून टेक्स्ट काढण्याचं स्क्रिप्ट लिहिता येईल. सगळ्या धाग्यांच्या लिंका सारख्याच असतात, फक्त आकडे बदलतात. (लोकसत्ता, मटा, सकाळच्या लिंका तशा शोधता येणार नाहीत.) तर धागा क्र १ ते (उदाहरणार्थ) १०००० पर्यंत धागे शोधायचे. त्यातली अक्षरं शोधता येतील. काही धागे नसतील त्यामुळे कदाचित try - except सारखी 'महागडी' लुपं लावावी लागतील. त्यातून सगळे धागे आणि प्रतिसादही शोधता येतील.
धाग्यांतून टेक्स्ट काढ
धाग्यांतून टेक्स्ट काढण्याचा कोड आहे माझ्याकडे - लेखकाच्या आयडीप्रमाणे त्याचे सगळे लेख .txt मधे उतरवून घेता येईल असं.
टॉप १०० लेखकांच्या लेखनाची फाईल शेअर करतो.
हे एक डेटा सॅंपल आहे ऐसीवरच्या ०-३०० क्रमांकांच्या सदस्यलेखनाचं.
प्रतिसादही अॅड करता येतील नंतर.
त्यावर हा पायथनचा कोड रन करून बघता येईल.
मस्त (त्यातही आलाच तो त!)
मोजमाप करण्याचा प्रयोग आवडला. हा अभ्यास वेगवेगळ्या काळातल्या साहित्याचा केला तर भाषेचा पोत कसा बदलत गेला आहे याबाबत काही विधानं करता येतील.
मलाही त अधिक वेळा येतो याची कल्पना नव्हती. पश्चातबुद्धीने अर्थातच कारणं सांगता येतात.
तो, ती, ते ही संबोधनं आणि त्यांना विभक्ती प्रत्यय लावून होणारे शब्द. 'त्यातल्या त्यात' मध्येच चार त येतात! (या वाक्यात सात त)
येतो, जातो, सांगतो, म्हणतो, करतो या वर्तमानकाळी शब्दांत त येतात.
तेव्हा, तिथे, तिकडे या शब्दांतही त आहेत.
होते, होतात, आहेत, असतात, या असण्याच्या रूपांतही त येतात.
एकंदरीतच क्रियापदांमध्ये त बरेच असतात.
पण स्वर व व्यंजनं यांचा एकत्रित अभ्यास केला तर अ जिंकेल असं वाटतं. आ आणि त यांच्यात दुसऱ्या नंबरासाठी कॉंपिटिशन असेल. बहुधा आ जिंकेल. म्हणजे चित्र काहीसं इंग्लिशसारखंच असेल.