तरयकल
रोमन लिपीतल्या सव्वीस अक्षरांपैकी 'e' हे अक्षर इंग्रजी लिखाणात सर्वांत जास्त वापरलं जातं. (त्याचं प्रमाण अंदाजे १०-१२ % अाहे; याचा अर्थ सरासरी नऊ अक्षरांमागे एकदा 'e' येतो.) त्यानंतर 't' चा नंबर लागतो; अाणि फ्रीक्वेन्सीच्या उतरत्या क्रमानुसार पहिली काही अक्षरं e-t-a-o-i-n-s अशी अाहेत. त्यामानाने अर्थात 'x', 'z' वगैरे तुरळकपणे येतात.
मराठीचं असं फ्रीक्वेन्सी अॅनॅलिसिस कुणी केल्याची मला माहिती नव्हती, त्यामुळे माझ्या युनिव्हर्सिटीतल्या जो सिमोस ह्या विद्यार्थ्याच्या मदतीने एक जावा प्रोग्रॅम लिहून ते मी करून पाहायचं ठरवलं. डेटा म्हणून मी इंटरनेटवरून उचललेले मराठीचे वेगवेगळे नमुने वापरले; उदा. लोकसत्तेतली संपादकीयं, धार्मिक विषयांवरचे लेख, संजय सोनवणींचे लेख, चावट कथा, 'ऐअ' चा दिवाळी अंक, इत्यादि इत्यादि.
व्यंजनांविषयी असा निष्कर्ष काढता अाला की (लिखित) मराठीत सगळ्यात जास्त प्रमाण 'त' या व्यंजनाचं अाहे. (इतकी वर्षं मराठी वाचत असूनही हे मला कधी जाणवलं नव्हतं, त्यामुळे किंचित लाज वाटली.) त्यानंतर र-य-क-ल ह्या व्यंजनांचा क्रम लागतो.
संख्याशास्त्रीय अनुमान निघालं ते असं की एखाद्या लिखाणात जर १०० वेळा 'त' अाला असं समजलं, तर ७८ वेळा 'र', ७१ वेळा 'य', ६५ वेळा 'क' अाणि ६४ वेळा 'ल' येतो. ही पाच व्यंजनं सोडली तर बाकीच्यांचं प्रमाण बरंच खाली अाहे. या अाकड्यांत लिखाणाच्या नमुन्यानुसार अधिकउणे १०% इतपत फरक अाढळतो; मात्र यापेक्षा जास्त फरक क्वचितच दिसून अाला. ज्यांत 'र-य-क-ल' हा क्रम उलटासुलटा झाला अाहे असे काही नमुने सापडले, पण 'त' अग्रक्रमावर नाही असा एकही सापडला नाही.
इंग्रजीमध्ये 't' या व्यंजनाचं प्रमाण सर्वात जास्त असणं अाणि मराठीत 'त' चं असणं, हा योगायोग अाहे की दोन्ही भाषा इंडो-युरोपियन असल्याची ती खूण अाहे, हे मला माहित नाही.
स्वरांवर काम चालू अाहे, पण अात्तापर्यंत असं दिसतं, की 'अ' अाणि 'अा' यांचं प्रमाण खूपच जास्त अाहे (यात आश्चर्य नाही), त्यांनंतर इकारांचा (ऱ्हस्व अाणि दीर्घ), अाणि त्यांनंतर उकारांचा क्रम लागतो. त्यातसुद्धा दीर्घ इकार अाणि उकार हे अनुक्रमे ऱ्हस्वांपेक्षा थोड्याशा (पण थोड्याशाच) जास्त संख्येने येतात.
अजून बरंच काही करण्याचा बेत अाहे; उदाहरणार्थ, काही प्रश्न सहज सुचतात ते असे: जोडाक्षरं किती प्रमाणात येतात अाणि त्यांतही नेहमी येणारी कोणती? सरासरी प्रत्येक वाक्यात किती शब्द येतात, किंवा प्रत्येक शब्दात किती अक्षरं येतात? त्यात पुन्हा साने गुरुजींचं लिखाण अाणि कृष्णशास्त्री चिपळूणकरांचं लिखाण यांची तुलना केली तर या अाकड्यांत किती फरक पडतो?
वाचकांनी असे अाणखी काही प्रश्न सुचवल्यास त्यांचं स्वागतच अाहे.
(टीप: 'ऐअ' चा दिवाळी अंक टेक्स्ट फाईलच्या स्वरूपात मला पाठवल्याबद्दल ३_१४ विक्षिप्त अदिती यांचे अाभार मानतो. त्यांच्या नावातच दोनदा 'त' असल्यामुळे संख्याशास्त्रीय विश्लेषणावर अवाजवी परिणाम झाला नसेल अशी अाशा अाहे.)
प्रतिक्रिया
मस्त (त्यातही आलाच तो त!)
मोजमाप करण्याचा प्रयोग आवडला. हा अभ्यास वेगवेगळ्या काळातल्या साहित्याचा केला तर भाषेचा पोत कसा बदलत गेला आहे याबाबत काही विधानं करता येतील.
मलाही त अधिक वेळा येतो याची कल्पना नव्हती. पश्चातबुद्धीने अर्थातच कारणं सांगता येतात.
तो, ती, ते ही संबोधनं आणि त्यांना विभक्ती प्रत्यय लावून होणारे शब्द. 'त्यातल्या त्यात' मध्येच चार त येतात! (या वाक्यात सात त)
येतो, जातो, सांगतो, म्हणतो, करतो या वर्तमानकाळी शब्दांत त येतात.
तेव्हा, तिथे, तिकडे या शब्दांतही त आहेत.
होते, होतात, आहेत, असतात, या असण्याच्या रूपांतही त येतात.
एकंदरीतच क्रियापदांमध्ये त बरेच असतात.
पण स्वर व व्यंजनं यांचा एकत्रित अभ्यास केला तर अ जिंकेल असं वाटतं. आ आणि त यांच्यात दुसऱ्या नंबरासाठी कॉंपिटिशन असेल. बहुधा आ जिंकेल. म्हणजे चित्र काहीसं इंग्लिशसारखंच असेल.
'त' वरून ताकभात!
-या एका परिच्छेदातच 'त' इतक्या वेळेला आला आहे की लेखकाने अनुप्रास वापरला आहे अशी शंका आली.
एका आगळ्या-वेगळ्या शोधाबद्दल लेखकाचे अभिनंदन.( <- या वाक्यामध्ये एकही 'त' वापरलेला नाही. <- ->या वाक्यामध्ये एकच 'त' वापरलेला आहे.<-<-)
फारच मस्त!
प्रयोग फारच आवडला.
खरेच 'त' बाजी मारेल असे वाटले नव्हते. ऱ्हस्व-दीर्घाच्या बाबतीत जालावरील लेखनातील (अ)शुद्धलेखनाचाही प्रभाव असावा असे वाटते. अनेक तत्सम शब्दांमध्ये सुरुवातीचे दीर्घ उ-ईकार ऱ्हस्व पाहिले आहेत. उदा. सूचना, पीडित इ. त्यामुळे थोडा फरक पडला असावा. जुन्या मराठीतील कवि, मति, मृत्यु अशा प्रकारे तत्सम शब्दांचे लिखाण असलेल्या लिखाणांत कदाचित ऱ्हस्व बाजी मारू शकतील असे वाटते.
बोलीप्रमाणे लिहिलेल्या मराठीत 'य' जरा जास्त येत असावा असे वाटते. उदा. करतोय, बसतोय, केलंय, आलंय, पाहिलाय इ. असे शब्द नसलेले लिखाणासाठी जालावर शोधाशोध करावी लागेल. किंवा नेहमी अशा प्रकारे 'य'वाले शब्द वापरणारा लेखक आणि 'य'वाले शब्द न वापरणारा लेखक यांच्या लिखाणातील 'य'च्या प्रमाणाची तुलना करणे रोचक ठरावे.
अवांतरः प्राथमिक निरीक्षणावरून मांडलेला अंदाजः जिथे जिथे 'असणे' क्रियापदाचे 'हे'युक्त रूप येते तिथे बोलीत 'य' येत असावा, तर जिथे 'हो'युक्त रूप येते तिथे 'व' येत असावा. तज्ज्ञांनी प्रकाश टाकावा.
उदा. करत(तो) आहे = करतोय
माणसं आहेत = माणसायत.
उद्या आहे = उद्याय
आला होता = आलावता
लावलं होतं = लावलवतं इ.
अतिअवांतरः 'आम्ही आलो आहोत' चे अनौपचारिक बोलताना मी अनेकदा 'आलोय' असे करतो. 'आलोय' हे 'आलो आहे'साठीचे रूप वाटते, मात्र 'आम्ही आलो आहे' हे वाक्य तोंडातून अजिबात निघत नाही!
त
त म्हणजे ताकभात ओळखता यावा...
हा धागा म्हणजे डोक्यामध्ये
हा धागा म्हणजे डोक्यामध्ये कधीकाळापासून गच्च बसलेल्या प्रश्नसमूहाचे साकार रूप आहे. धन्यवाद!
यावर डिट्टेलवारी पृच्छा करेन पुन्हा वेळ मिळाला की.
(त कुठेही नाही-चेक.)
माहिष्मती साम्राज्यं अस्माकं अजेयं
उगाच
सोयीस्करपणे परभाषेतून शब्द आणले की जमतात हो असे त-शिवाय लिहीलेले तपशीलवार प्रतिसाद. पूर्ण मराठीत लिहून बघा त-शिवाय, मग बघा कसं ततपप होईल ते!
(त-संख्या तेरा)
---
सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.
सोयीस्करपणे परभाषेमधून शब्द
(मूळ वाक्य "त-शिवाय" शुद्ध मराठीमध्ये)
सोयीस्करपणे परभाषेमधून शब्द आणायची विशेष गरज नाही हो अशी बयाजवार शेरेबाजी करायला. पूर्ण मराठीमध्ये लिहूनदेखील फेफे उडालेली नाही हे पाहणे रोचक आहे
(त-संख्या= लॉग(१))
बैदवे तमिऴसाठी हा प्रयोग रोचक ठरावा. त्यांच्यात तर त,द हे आणि असे अनेक ग्रूप्स सेमच अस्तात.
ही घ्या आमची स्वाक्षरीदेखील मूर्धन्य अनुनासिकापासून एकदम जवळच्या कठोर व्यंजनाशिवाय लिहिलेली.
दुष्टारी सकळां भारी | प्रगटला गॉथम शहरी |
वाल्गुदेय हा निर्धारी | विदूषका जाण पां ||
माहिष्मती साम्राज्यं अस्माकं अजेयं
अष्टांग प्रणाम स्विकारा
अष्टांग प्रणाम स्विकारा बेटमनजी. __/\__
पुरवणी
मी वर लिहिलं होतं की 'त' अग्रक्रमावर नाही असा एकही नमुना सापडला नाही. तसा एक नमुना अाज सापडला, पण मराठीत नाही. हाच प्रोग्रॅम मी ऋग्वेदावर चालवून पाहिल्यावर असं दिसलं की अाता 'व' अग्रक्रमावर अालेला अाहे (४९८५५ वेळा), पण त्याच्या पाठीला नाक लावून 'त' अाहेच (४९६६५ वेळा), अाणि शिवाय 'र' ही फारसा मागे नाही (४९५४४ वेळा).
तेव्हा 'त' अाणि 'र' खूपदा येणं हा कदाचित सगळ्याच संस्कृतोद्भव भाषांचा गुणधर्म असू शकेल. अधिक संशोधनाची गरज अाहे. (तशी ती नेहमी असतेच.)
- जयदीप चिपलकट्टी
(होमपेज)
अभिनंदन
अभिनंदन. माझ्यासाठी नवीन ज्ञान आहे. मजा आहे. तरयकल टाळणे जमेना.
प्रयोग आवडला.
एकाच भाषेच्या वेगवेगळ्या बोलीभाषा एकमेकींपेक्षा किती निराळ्या आहेत हे अशा प्रयोगांवरून समजेल का? -- मिहिरचा प्रतिसाद
तेलुगु शिकण्याचा (क्षीण प्रयत्न) केला होता तेव्हा त्यांची लिपीही शिकण्याचा प्रयत्न केला होता. त्यात (क्षीण) आठवणींमधूनः मराठी-देवनागरीत व्यंजनांमधे बाय डीफॉल्ट अ मिसळून लिहीला जातो. तेलुगुमधे 'आ' असतो, त्याचं कारण तेलुगुमधे 'आ' हा स्वर सर्वाधिक वापरला जातो असं दिलं होतं. हे पुस्तक रेल्वे स्थानकांवर 'तेलुगु शिका' वगैरे मिळतात त्यातलं होतं, आणि खरंखोटं समजण्याइतपत तेलुगु मी कधी शिकलेही नाही.
वापरण्याच्या, कागदोपत्री असणार्या, स्वतः घेतलेल्या अशा सर्व नावांमधे 'त' आहे.
---
सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.
तरीच!
तरीच तिरसटं त्+रांगड दिसतंय!
प्रयोग आवडला, निष्कर्ष रोचक आहे'त'. (बाकी ऋग्वेद (आणि इतर) वेदांच्या टेक्स्ट फाईल्स कुठे मिळाल्या याचा दुवा देऊन आमचा दुवा घ्यावा, धन्यवाद.)
-Nile
ऋग्वेद
ऋग्वेदाच्या text अाणि pdf फाईल्स इंटरनेटवर अनेक ठिकाणी अाहेत. विकिपीडियावर 'Rigveda' च्या एंट्रीच्या शेवटी अशा बऱ्याच लिंक्स अाहेत.
- जयदीप चिपलकट्टी
(होमपेज)
उत्तम प्रयोग
उत्तम प्रयोग.. अनपेक्षित (खरंतर असा विचारच केला नव्हता त्यामुळे अपेक्षित असे काहिच नव्हते ) आणि रोचक!
समांतरः सदर प्रोग्रामकर्त्यांची परवानगी घेऊन हा प्रोग्राम ओपन-सोर्स करता येईल का? विविध अभ्यासकांना उपयुक्त होईल असे वाटते.
- ऋ
-------
लव्ह अॅड लेट लव्ह!
हो
या प्रोग्रॅममध्ये इतर काही सुविधांची भर घालून त्याचं एक जावा पॅकेज करण्याचा विचार अाहे. हे पॅकेज मग अोपन सोर्स केलं जाईल.
- जयदीप चिपलकट्टी
(होमपेज)
मस्त माहिती
मस्त माहिती !!!
अत्यंत रोचक! इंग्रजीमध्ये 't'
अत्यंत रोचक!
आणखी इतरही भाषांचं विश्लेषण केल्यास तो योगायोग आहे की भाषांचे वैशिष्ट्य आहे की माणसाचा नैसर्गिक कल आहे याबाबतीत थोडी अधिक माहिती मिळू शकेल कदाचित.
काही अवांतरः बहुत रोचक.
काही अवांतरः
बहुत रोचक. यावरून आठवले, इंग्रजीत e हे अक्षर सर्वांत जास्त कॉमन आहे. एका पठ्ठ्याने मुद्दाम e हे अक्षर न वापरता तब्बल १०५ पानांची इंग्रजी कादंबरी लिहिलीये, नाव आहे gadsby. तिची पीडीएफ इथे मिळेल. नमुन्यादाखल हा एक उतारा बघा त्यातला:
If youth, throughout all history, had had a champion to stand up for it; to show a doubting
world that a child can think; and, possibly, do it practically; you wouldn’t constantly run
across folks today who claim that “a child don’t know anything.” A child’s brain starts
functioning at birth; and has, amongst its many infant convolutions, thousands of dormant
atoms, into which God has put a mystic possibility for noticing an adult’s act, and figuring
out its purport.
कुठेही कृत्रिमपणा वाटत नाही,तरीही e हे अक्षर न वापरता लिहिणे हे शक्य असेल असे आजिबात वाटत नाही. मराठीत मोरोपंतांनी निरोष्ठ रामायण लिहिलेय-प्,फ्,ब्,भ्,म ही अक्षरे न वापरता. हे नक्कीच अवघड आहे, पण तरयकल मध्ये ही अक्षरे कुठेच नसल्याने जमून गेले असे वाटते.
या लेखाचा एक फायदा की त्यामुळे मराठीची ऑर्डर तरयकल ही कळाली. लेखकास एक प्रश्न आहे: ज्ञानेश्वरी किंवा तत्सम कुठल्याही जुन्या मराठी ग्रंथावरती हा प्रोग्रॅम रन करता येईल का? ज्ञानेश्वरीची पीडीएफ इथे मिळेल. जुन्या मराठीपेक्षा सध्याच्या मराठीत काही फरक पडला आहे किंवा कसे, हेही त्यातून स्पष्ट होईल.
त्यामुळे आता मराठीत "त" हे अक्षर न वापरता कादंबरी लिहिणे हे अप्रोप्रिएट च्यालेंज होईल. आहे का कोणी
माहिष्मती साम्राज्यं अस्माकं अजेयं
ज्ञानेश्वरी
> ज्ञानेश्वरी किंवा तत्सम कुठल्याही जुन्या मराठी ग्रंथावरती हा प्रोग्रॅम रन करता येईल का? ज्ञानेश्वरीची पीडीएफ इथे मिळेल. जुन्या मराठीपेक्षा सध्याच्या मराठीत काही फरक पडला आहे किंवा कसे, हेही त्यातून स्पष्ट होईल.
यातली अडचण अशी की पीडीएफ भादरून त्याची प्लेन टेक्स्ट फाईल कशी करायची ते मला माहित नाही. (असं करून देणारे काही अोपन सोर्स प्रोग्रॅम्स इंटरनेटवर अाहेत, पण ते देवनागरीवर नीट चालत नाहीत असा माझा अनुभव अाहे.) तेवढं कुणी करून दिल्यास बाकीचं अवघड नाही.
> एका पठ्ठ्याने मुद्दाम 'e' हे अक्षर न वापरता तब्बल १०५ पानांची इंग्रजी कादंबरी लिहिलीये, नाव आहे gadsby.
I know that writing in Anglo-Saxon without using that taboo sign is initially difficult. But, during writing, if you try to winnow your words and linguistic constructs with insight and a sharp ocular faculty, you can do it. I must warn you that constant caution is mandatory. If you nod off, you slip up.
Such writing is tiring, so I am going to stop, drink a dram of scotch and watch Novak Djokovic play in Australian 2013 (Hard Court). I think Novak will win, but not Andy Murray. (RF is a bit old now, but still plays fantastically.) What do you think?! Who do you root for?!
- जयदीप चिपलकट्टी
(होमपेज)
त्याच लिंकमध्ये उजवीकडे
त्याच लिंकमध्ये उजवीकडे "UNIC" असे लिहिलेय, त्यावर क्लिक केल्यास एचटीएमएल फॉर्मॅटमध्ये ज्ञानेश्वरिचे सर्व अध्याय दिसतील. मग ते सरळ नोटपॅडात पेष्टवून काम होऊ शकेल असे वाटते. मी पहिला अध्याय करून पाहिला-झाला.
स्वरांबद्दलचे काम पूर्ण रूपात पहायला आवडेल.
बाकी आपल्या लायपोग्रॅमॅटिक कौशल्याला सादर प्रणाम केल्या गेला आहे. _/\_
(लोटांगणाच्या वाक्यामध्ये त नाही-चेक)
I root for none, since the "Euler of Tennis" ain't there in this match
माहिष्मती साम्राज्यं अस्माकं अजेयं
ऐसे 'र' ला 'त' मेळवीन
ज्ञानेश्वरी ह्या प्रोग्रॅममधून घालून पाहिली. पुन्हा 'त' अाणि 'र' अग्रेसर अाहेत. जास्तीतजास्त वेळा येणाऱ्या पहिल्या सहा व्यंजनांचं परस्परप्रमाण असं:
एकूण पाहता अाधुनिक मराठीपेक्षा चित्र फार वेगळं नाही. (मुख्य फरक असा की 'व' अाणि 'स' चं प्रमाण जास्त अाहे, अाणि 'ल' चं कमी अाहे.) अर्थात इथे एक बाळबोध इशारा द्यायलाच हवा, तो म्हणजे ज्ञानेश्वरी हे तेराव्या शतकातल्या मराठीचं representative sample असेलच असं नाही.
- जयदीप चिपलकट्टी
(होमपेज)
वा!!! तत्परतेने वेळ खर्चून
वा!!! तत्परतेने वेळ खर्चून उत्तर दिल्याबद्दल बहुत बहुत धन्यवाद एकूणच आधुनिक मराठीपेक्षा चित्र वेगळं दिसत नाही. हा क्रम म्हणजेच कुठल्याही भाषेचे व्यवच्छेदक लक्षण असे म्हणावे काय? कुणी लिंग्विस्ट तसे म्हटला आहे का आधी कधी?
बाकी तेराव्या शतकातील मराठी आणि ज्ञानेश्वरीचा आक्षेप मान्य आहे. पण महानुभाव ग्रंथ मात्र तसे नाहीत-ते बहुतांशी गद्य आहेत आणि पंथाबाहेर सर्क्युलेट न झाल्याने त्यांचे मूळ स्वरूप तसेच टिकून राहिले आहे. ते ग्रंथ कुठे मिळतात का नेटवर ते पहातो.
माहिष्मती साम्राज्यं अस्माकं अजेयं
A most unusual paragraph
This is an unusual paragraph. I’m curious as to just how quickly you can find out what is so unusual about it. It looks so ordinary and plain that you would think nothing was wrong with it. In fact, nothing is wrong with it! It is highly unusual though. Study it and think about it, but you still may not find anything odd. But if you work at it a bit, you might find out. Try to do so without any coaching.
No E
No letter E?
Right.
Bang on! Spot on! (Bingo, may I add?)
I must laud you for such a
I must laud you for such a crafty utilisation of words, for it shows a good grasp of words.
माहिष्मती साम्राज्यं अस्माकं अजेयं
Sorry!
That was not an original opus of yours truly. Thus, it warrants not, nor is it worthy of, your kind acclaim, I'm afraid. (Still, thanks anyways, although for zilch, nought, nada, if I may audaciously so add.)
झकास....
त मुळे इतर अक्षरांत तरतमभाव होतो ह्याची तत्काळ तल्पना ताहे (सॉरी कल्पना आहे.)
--मनोबा
.
संगति जयाच्या खेळलो मी सदाहि | हाकेस तो आता ओ देत नाही
.
memories....often the marks people leave are scars
वा!
प्रयोगाची कल्पना, कृती आणि निष्कर्ष - सारेच आवडले! 'द अँडव्हेचर ऑफ द डान्सिंग मेन' ह्या होम्सकथेतील रहस्याची उकल आठवली.
आज एका प्रश्नाच्या
आज एका प्रश्नाच्या निमित्ताने हा लेख पुन्हा वर काढत आहे- मराठीतील ळ हे अक्षर नक्की किती % वेळेस वापरले जाते याचा विदा मिळेल काय? रादर प्रत्येकच व्यंजन?
माहिष्मती साम्राज्यं अस्माकं अजेयं
हा उद्योग पायताण एनएलपी
हा उद्योग पायताण एनएलपी टूलकिट (www.nltk.org) वापरून करता येईल. पायताण आणि एनएलपी माझ्या शिकण्याच्या यादीत आहे (भलत्याच कारणासाठी.)
आर भाषेचं भाषाविश्लेषण टूलकिटही आहे.
********
It is better to have questions which don't have answers, than having answers which cannot be questioned.
ते करता येईलच, पाहू कधी
ते करता येईलच, पाहू कधी मूड लागेल तसा......
माहिष्मती साम्राज्यं अस्माकं अजेयं
थोडक्यात उत्तर
> आज एका प्रश्नाच्या निमित्ताने हा लेख पुन्हा वर काढत आहे- मराठीतील ळ हे अक्षर नक्की किती % वेळेस वापरले जाते याचा विदा मिळेल काय? रादर प्रत्येकच व्यंजन?
याचं थोडक्यात उत्तर असं की जर एखादं व्यंजन दुर्मीळ असेल तर ते किती वेळा येतं हा हिशेब दर सँपलमध्ये फार वरखाली होतो. त्यामुळे त्याची स्टॅटिस्टिकल फ्रिक्वेन्सी काढली तरी ती भरवशाची नसते.
उदाहरणार्थ, ह्या प्रश्नाच्या निमित्ताने 'लोकसत्ते'तल्या एका जुन्या संपादकीयाचं मी आत्ताच पुन्हा विश्लेषण करून पाहिलं. त्यातल्या ९३३ शब्दांमध्ये ‘ळ’ फक्त ३१ वेळा आलेला आहे. (त्यामानाने ‘त’ ३३३ वेळा, म्हणजे त्याच्या दसपट आहे.) ह्या संपादकीयातलं एक वाक्य असं आहे:
उन्हाळी मोसमात अवकाळी पाऊस येणे, पावसाच्या वेळापत्रकांमध्ये फेरबदल होणे या हवामानातील बदलांचा सर्वात पहिला व मोठा फटका हा बळीराजाला बसतो.
आता लिहिणाऱ्याने जर ‘अवकाळी’ ऐवजी ‘अकाली’ लिहिलं असतं आणि ‘बळीराजा’ हा शब्द जिथेतिथे वापरण्याची चूष आवरली असती तर लागलीच दोन ‘ळ’ कमी झाले असते. तेव्हा मुद्दा तोच: दुर्मीळ व्यंजनांचा वापर लिहिणाऱ्यावर आणि विषयावर फार अवलंबून असतो.
हे दोन प्रश्न पाहा:
(१) सरासरी दर आठवड्याला ‘वैशाली’त फर्ग्युसनमधले किती विद्यार्थी येतात?
(२) सरासरी दर आठवड्याला ‘वैशाली’त किती आय.एफ.एस. अॉफिसर्स येतात?
पहिल्या प्रश्नाचं स्टॅटिस्टिक्स काढणं सहज शक्य आहे, पण दुसऱ्याचं काढण्यात विशेष अर्थ नाही.
- जयदीप चिपलकट्टी
(होमपेज)
धन्यवाद पण मराठीत ळ हे
धन्यवाद पण मराठीत ळ हे संस्कृतातल्या लृ प्रमाणे एखाद्याच शब्दापुरते मर्यादित नाही म्हणून पृच्छा, असो.
माहिष्मती साम्राज्यं अस्माकं अजेयं
अतिशय झक्कास उपक्रम.
शेरलॉक होम्सच्या त्या नाचणाऱ्या बाहुल्यांच्या गोष्टीत त्याने हे वारंवारितेचं प्रमेय मांडलेलं होतं, तेव्हा डोक्यात किडा आलेला की असं मराठीत काय असेल ब्वॉ? पण तो विचार तितक्याच तत्परतेने अस्तास गेला. तुम्ही इतका भन्नाट उपक्रम हाती घेतलाय, की ह्यावर एक शोधनिबंधच लिहू शकता की!
फारच इंटरेस्टिंग माहिती. मराठी भाषा दिनाच्या वेळी 'कुसुमाग्रजांचं खरं नाव काय' छाप प्रश्नांपेक्षा हे असे प्रश्न फार भारी होतील कोणाला विचारायला.
तिज्यायला मजकूर आणि स्वाक्षरीच्या मध्ये डिफॉल्ट एक लाईन मारा की मालक
Hope is for sissies.
'त' अधिक असण्याचे कारण म्ह
'त' अधिक असण्याचे कारण म्हणजे धातुसाधितांच्या प्रत्ययांमध्ये आणि क्रियापदांच्या प्रत्ययांमध्ये 'त'चे प्राबल्य आहे. शिवाय भाववाचक नामे बनवतानाही 'त' असतोच. प्रगल्भ भाषेत प्रथम अथवा द्वितीय पुरुषापेक्षा तृतीय पुरुषाचा वापर अधिक असतो. (डिस्क्रिप्टिव म्हणून.) संस्कृतात तृतीयपुरुषी क्रियापदांच्या रूपांत 'त' अधिक असतो. गच्छति, गच्छन्ति, एति, ददाति, श्रुणोति, गच्छतु, वगैरे. मराठीत रीतिवर्तमानाचे सगळेच प्रत्यय 'त'युक्त आहेत्
. कर्मणि विध्यर्थीधाविमध्ये गत्य, कृत्य, कर्तव्य, गन्तव्य, वक्तव्य, भवितव्य वगैरे. भूतकालवाचक धासांमध्ये नत, हत, उक्त, दत्त, साधित, बाधित, जात, चरित, लिखित, गीत वगैरे. जाताना, येताना, बोलताना, सांगताना वगैरे. भाववाचकामध्ये कविता, घनता, शुचिता, संपन्नता, शांतता, उष्णता, उत्पत्ति, स्थिति, वृत्ति, नीति, कवित्व, गुरुत्व, महत्त्व, अस्तित्व, शिष्यत्व वगैरे.
म्हणून 'त'चे अधिकत्व आहे.
माझे ढोबळ कोष्टक.
मोल्सवर्थचा मराठी-इंग्लिश १८५७ हा कोश माझ्याकडे पीडीएफमध्ये आहे आणि तो बघण्याची वेळ मला अनेकदा येते. दर वेळेस कोशाची पाने चाळण्यात वेळ घालविणे टाळण्यासाठी मी माझ्यापुरता त्याचा एक इंडेक्स करून तोहि त्याच नावाने पीडीएफमध्ये त्याच फोल्डरमध्ये ठेवला आहे, जेणेकरून आधी इंडेक्स पाहून हव्या त्या पानावर एकदम जाता यावे.
त्या इंडेक्सप्रमाणे कोशातील मराठी अक्षरे शब्दांच्या सुरुवातीस असण्याची पृष्ठसंख्या अशी आहे.
स ७५, क ६७, प ६६, अ ५८, व ५३, म ४९, ब ३९, ग ३३, न ३३, च ३२, द ३२, त ३१, ह ३१, ख २७, भ २६, र २६, श २६, उ २५, ल २२. बाकी सर्व अक्षरे २०च्या खाली.
येथे त खूपच खाली आहे. त च एकूण वापर सर्वाधिक असला तरी त ने सुरू होणारे शब्द त्या मानाने बरेच कमी आहेत असे दिसते.
आमच्या घरी वडिलोपार्जित छापखान्याचा व्यवसाय माझ्या लहानपणी होता. संगणकावर मजकूर तयार करण्याचे दिवस अजून कोणी स्वप्नातहि पाहिले नव्हते. आमच्या छापखान्यात समोर दोन केसेसमध्ये असलेले टाइप एकएक करून उचलून कंपोझिटर्स हातातील 'स्टिक'मध्ये ठेवून मजकूर जुळवत असत. तशी केस आता कोठे असलीच तर जुन्या छापखान्यात असू शकेल. थोड्या शोधानंतर अशा केसचे चित्र मला येथे दिसले. ह्या केसमध्ये सर्वात सोप्या जागा आणि सर्वात मोठे कप्पे क र ग त न आणि अ ह्या अक्षरांना दिलेले दिसतात. ही अक्षरे सर्वात अधिक वापरली जातात ह्याचे हे एक दर्शक आहे.
(अशा जुन्या छापखान्यात पुस्तक कसे तयार होत असे ह्याच्या माझ्या लहानपणच्या आठवणी आहेत. त्यावर एक मनोरंजक लेख लिहिता येईल. थोडी सवड मिळाली की ते करण्याचा विचार आहे.)
(अशा जुन्या छापखान्यात
या बात! वाट पाहतो आहे!
********
It is better to have questions which don't have answers, than having answers which cannot be questioned.
नेमका हेच दाखवणारा
नेमका हेच दाखवणारा व्हिडिओ फिरत होता फेबुवर काही महिन्यांपूर्वी. हे सालं जालीय मजकूर रिट्रीव्ह करणं म्हणजे तुफान त्रासाचं काम आहे.
माहिष्मती साम्राज्यं अस्माकं अजेयं
अरे वा. येऊ द्या, येऊ द्या.
अरे वा. येऊ द्या, येऊ द्या.
मी सुद्दा केलेय कंपोझिंग उलुसे.
पहिल्या डिझायनरच्या नोकरीत माझ्या सोबतचा सगळा स्टाफ भुतपुर्व कंपोझिटरांचा होता. फॉन्ट, साईज, अलाइनमेंट, स्पेसिंग आणि लेआऊटचा कमालीचा सेन्स होता त्यांना. डिटिपी करतानाहि ते त्यांचे स्पेशल वर्डस वापरायचे.
एकजण सोल्जर कट मारायचा नियमित्. त्याला विग्नेट कट् म्हणायचे. विग्नेट म्हनजे बॅक्ग्राउंडमध्ये फेड होत गेलेले चित्र.
निरोष्ठ्य रामायण.
मोरोपंतांनी त्यांच्या कमीअधिक १०८ रामायणांमध्ये 'निरोष्ठ्य रामायण' असे एक छोटे रामायण रचले होते. त्यामध्ये 'ओष्ठ्यवर्ण' म्हणजे पफबभम हे ओठांनी उच्चारायचे वर्ण बिलकुल वापरले नव्हते. ह्या १०८ रामायणांवरचा माझा लेख http://aisiakshare.com/node/3948 येथे आहे.
या निरोष्ठ रामायणाची कॉपी
या निरोष्ठ रामायणाची कॉपी कुठे मिळेल का हो नेटवर?
माहिष्मती साम्राज्यं अस्माकं अजेयं
मजेदार!
मजेदार!
@जयदीप चिपलकट्टी - ह्याचा कोड
@जयदीप चिपलकट्टी - ह्याचा कोड गिटहबवर टाकता येईल का? /
==================
भूतकाळातील आस्वल्य.
काय हा दैवदुर्विलास!
आजच nltk प्रकार शिकायला घेतला. काय हा दैवदुर्विलास!
---
विकेण्डपर्यंत मला टाईम इल्ला, पण हाच तरयकल-कार्यक्रम पायथनमध्ये थोडक्यात आटोपेल असं वाटतं. डॉक्युमेंट घ्या, त्याचा युनिकोड सोडवा, स्वरांचे युनिकोड आणि विरामचिन्हं काढून टाका; उरलेल्यांवर पायथनमधली Counter नावाची डिक्शनरी चालवा, ती तिच्या valuesप्रमाणे sort करा, 'तरयकल' मिळेल, आकड्यांसकट. हे सगळं १०-१२ ओळींत होऊन जाईल, बहुदा.
'ळ'चे हिंदोळेही सहज बघता येतील. मटा, सकाळ, लोकसत्तेतल्या ळ च्या हिंदोळ्यांचा आलेख, त्याची आंजाशी तुलना वगैरे किडेही कोणाला करायचे असतील तर पाहा.
हे पायथनमध्ये एवढं सहज करता येतं (असावं) तर ऋ, म्हणजे 'आर'मध्येही सहज जमेल; असा माझा काठावरून कोरडा अंदाज.
---
सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.
खरंच की!
आत्ताच युनिकोडशी थोडी झटापट करून पायताणात एक सोपासा प्रोग्रॅम लिहिला. तू म्हटल्याप्रमाणे दहा-बारा ओळींतच झाला. ऐसीवरच्या वर दिसणाऱ्या लेखांना लावून बघितला. 'तरयकल'बरोबर 'न'ही दिसला काही लेखांत जास्त. मोठ्या सँपलसाठी जचिंना जी दिवाळी अंकाची टेक्स्ट फाईल पाठवली होतीस ती पाठवतेस का? त्यावरही चालवून बघतो. इतरही लेखांशी खेळून बघतो उद्या.
हा धागा वर काढल्याबद्दल सर्व
हा धागा वर काढल्याबद्दल सर्व संबंधितांचे आभार. मिहिर तू ही हा कोड गिटहबवर टाकशील का?
मला आदिती यांनाही एक सूचना करावीशी वाटते. ऐसीसाठी त्या ज्या खटपटी करत असतात त्याही गिटहबवर टाकता येईल का? ज्यांना हातभार लावायचा असेल ते सहज लावू शकतील. नवीन खटपटी पण सुचतील.
----------------------------------------------------
बिटकॉइनजी बाळा नित्य ध्यातसे हृदयिं दाम माला
मिहिर तू ही हा कोड गिटहबवर
+१
माझ्या डोक्यात आणखी काही किडे आहेत, वेळ झाला की सविस्तर लिहिते/काम करते.
जयदीपला जी फाईल पाठवली होती, ती जरा शोधावी लागेल. शनिवारपर्यंत मी इमेल केलं नाही तर मिहिर, मला एकदा आठवण कर. (बहुदा ती फाईल शिल्लक असेल.)
नील, ऐसीसाठी मी निराळं काही करत नाही. ड्रुपालच्या साईटवरून कोड आणून इकडे जोडते झालं. मला जावास्क्रिप्ट, पीएचपी वगैरे गोष्टी अजिबातच येत नाहीत. तो कोड बघूनच दबून जायला होतं. देवनागरी टंकनाचं गमभनीकरण करणारा, इंडिक स्क्रिप्ट मॉड्यूलचा, कोड शेअर करते.
---
पायथनमध्ये धाग्यांतून टेक्स्ट काढण्याचं स्क्रिप्ट लिहिता येईल. सगळ्या धाग्यांच्या लिंका सारख्याच असतात, फक्त आकडे बदलतात. (लोकसत्ता, मटा, सकाळच्या लिंका तशा शोधता येणार नाहीत.) तर धागा क्र १ ते (उदाहरणार्थ) १०००० पर्यंत धागे शोधायचे. त्यातली अक्षरं शोधता येतील. काही धागे नसतील त्यामुळे कदाचित try - except सारखी 'महागडी' लुपं लावावी लागतील. त्यातून सगळे धागे आणि प्रतिसादही शोधता येतील.
---
सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.
+१
नक्की टाकाच गिटहबवर. वेळ मिळाला की ह्याचा उपयोग करून बघीन म्हंटो.
==================
भूतकाळातील आस्वल्य.
धाग्यांतून टेक्स्ट काढ
धाग्यांतून टेक्स्ट काढण्याचा कोड आहे माझ्याकडे - लेखकाच्या आयडीप्रमाणे त्याचे सगळे लेख .txt मधे उतरवून घेता येईल असं.
टॉप १०० लेखकांच्या लेखनाची फाईल शेअर करतो.हे एक डेटा सॅंपल आहे ऐसीवरच्या ०-३०० क्रमांकांच्या सदस्यलेखनाचं.
प्रतिसादही अॅड करता येतील नंतर.
त्यावर हा पायथनचा कोड रन करून बघता येईल.
==================
भूतकाळातील आस्वल्य.
गिटहब दुवा
हा घ्या गिटहब दुवा. अगदी साधा कोड लिहिलाय.