तरयकल

रोमन लिपीतल्या सव्वीस अक्षरांपैकी 'e' हे अक्षर इंग्रजी लिखाणात सर्वांत जास्त वापरलं जातं. (त्याचं प्रमाण अंदाजे १०-१२ % अाहे; याचा अर्थ सरासरी नऊ अक्षरांमागे एकदा 'e' येतो.) त्यानंतर 't' चा नंबर लागतो; अाणि फ्रीक्वेन्सीच्या उतरत्या क्रमानुसार पहिली काही अक्षरं e-t-a-o-i-n-s अशी अाहेत. त्यामानाने अर्थात 'x', 'z' वगैरे तुरळकपणे येतात.

मराठीचं असं फ्रीक्वेन्सी अॅनॅलिसिस कुणी केल्याची मला माहिती नव्हती, त्यामुळे माझ्या युनिव्हर्सिटीतल्या जो सिमोस ह्या विद्यार्थ्याच्या मदतीने एक जावा प्रोग्रॅम लिहून ते मी करून पाहायचं ठरवलं. डेटा म्हणून मी इंटरनेटवरून उचललेले मराठीचे वेगवेगळे नमुने वापरले; उदा. लोकसत्तेतली संपादकीयं, धार्मिक विषयांवरचे लेख, संजय सोनवणींचे लेख, चावट कथा, 'ऐअ' चा दिवाळी अंक, इत्यादि इत्यादि.

व्यंजनांविषयी असा निष्कर्ष काढता अाला की (लिखित) मराठीत सगळ्यात जास्त प्रमाण 'त' या व्यंजनाचं अाहे. (इतकी वर्षं मराठी वाचत असूनही हे मला कधी जाणवलं नव्हतं, त्यामुळे किंचित लाज वाटली.) त्यानंतर र-य-क-ल ह्या व्यंजनांचा क्रम लागतो.

संख्याशास्त्रीय अनुमान निघालं ते असं की एखाद्या लिखाणात जर १०० वेळा 'त' अाला असं समजलं, तर ७८ वेळा 'र', ७१ वेळा 'य', ६५ वेळा 'क' अाणि ६४ वेळा 'ल' येतो. ही पाच व्यंजनं सोडली तर बाकीच्यांचं प्रमाण बरंच खाली अाहे. या अाकड्यांत लिखाणाच्या नमुन्यानुसार अधिकउणे १०% इतपत फरक अाढळतो; मात्र यापेक्षा जास्त फरक क्वचितच दिसून अाला. ज्यांत 'र-य-क-ल' हा क्रम उलटासुलटा झाला अाहे असे काही नमुने सापडले, पण 'त' अग्रक्रमावर नाही असा एकही सापडला नाही.

इंग्रजीमध्ये 't' या व्यंजनाचं प्रमाण सर्वात जास्त असणं अाणि मराठीत 'त' चं असणं, हा योगायोग अाहे की दोन्ही भाषा इंडो-युरोपियन असल्याची ती खूण अाहे, हे मला माहित नाही.

स्वरांवर काम चालू अाहे, पण अात्तापर्यंत असं दिसतं, की 'अ' अाणि 'अा' यांचं प्रमाण खूपच जास्त अाहे (यात आश्चर्य नाही), त्यांनंतर इकारांचा (ऱ्हस्व अाणि दीर्घ), अाणि त्यांनंतर उकारांचा क्रम लागतो. त्यातसुद्धा दीर्घ इकार अाणि उकार हे अनुक्रमे ऱ्हस्वांपेक्षा थोड्याशा (पण थोड्‌याशाच) जास्त संख्येने येतात.

अजून बरंच काही करण्याचा बेत अाहे; उदाहरणार्थ, काही प्रश्न सहज सुचतात ते असे: जोडाक्षरं किती प्रमाणात येतात अाणि त्यांतही नेहमी येणारी कोणती? सरासरी प्रत्येक वाक्यात किती शब्द येतात, किंवा प्रत्येक शब्दात किती अक्षरं येतात? त्यात पुन्हा साने गुरुजींचं लिखाण अाणि कृष्णशास्त्री चिपळूणकरांचं लिखाण यांची तुलना केली तर या अाकड्यांत किती फरक पडतो?

वाचकांनी असे अाणखी काही प्रश्न सुचवल्यास त्यांचं स्वागतच अाहे.

(टीप: 'ऐअ' चा दिवाळी अंक टेक्स्ट फाईलच्या स्वरूपात मला पाठवल्याबद्दल ३_१४ विक्षिप्त अदिती यांचे अाभार मानतो. त्यांच्या नावातच दोनदा 'त' असल्यामुळे संख्याशास्त्रीय विश्लेषणावर अवाजवी परिणाम झाला नसेल अशी अाशा अाहे.)

field_vote: 
5
Your rating: None Average: 5 (8 votes)

प्रतिक्रिया

मोजमाप करण्याचा प्रयोग आवडला. हा अभ्यास वेगवेगळ्या काळातल्या साहित्याचा केला तर भाषेचा पोत कसा बदलत गेला आहे याबाबत काही विधानं करता येतील.

मलाही त अधिक वेळा येतो याची कल्पना नव्हती. पश्चातबुद्धीने अर्थातच कारणं सांगता येतात.

तो, ती, ते ही संबोधनं आणि त्यांना विभक्ती प्रत्यय लावून होणारे शब्द. 'त्यातल्या त्यात' मध्येच चार त येतात! (या वाक्यात सात त)
येतो, जातो, सांगतो, म्हणतो, करतो या वर्तमानकाळी शब्दांत त येतात.
तेव्हा, तिथे, तिकडे या शब्दांतही त आहेत.
होते, होतात, आहेत, असतात, या असण्याच्या रूपांतही त येतात.
एकंदरीतच क्रियापदांमध्ये त बरेच असतात.

पण स्वर व व्यंजनं यांचा एकत्रित अभ्यास केला तर अ जिंकेल असं वाटतं. आ आणि त यांच्यात दुसऱ्या नंबरासाठी कॉंपिटिशन असेल. बहुधा आ जिंकेल. म्हणजे चित्र काहीसं इंग्लिशसारखंच असेल.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

अजून बरंच काही करण्याचा बेत अाहे; उदाहरणार्थ, काही प्रश्न सहज सुचतात ते असे: जोडाक्षरं किती प्रमाणात येतात अाणि त्यांतही नेहमी येणारी कोणती? सरासरी प्रत्येक वाक्यात किती शब्द येतात, किंवा प्रत्येक शब्दात किती अक्षरं येतात? त्यात पुन्हा साने गुरुजींचं लिखाण अाणि कृष्णशास्त्री चिपळूणकरांचं लिखाण यांची तुलना केली तर या अाकड्यांत किती फरक पडतो?

-या एका परिच्छेदातच 'त' इतक्या वेळेला आला आहे की लेखकाने अनुप्रास वापरला आहे अशी शंका आली. Wink

एका आगळ्या-वेगळ्या शोधाबद्दल लेखकाचे अभिनंदन.( या वाक्यामध्ये एकच 'त' वापरलेला आहे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

प्रयोग फारच आवडला.
खरेच 'त' बाजी मारेल असे वाटले नव्हते. ऱ्हस्व-दीर्घाच्या बाबतीत जालावरील लेखनातील (अ)शुद्धलेखनाचाही प्रभाव असावा असे वाटते. अनेक तत्सम शब्दांमध्ये सुरुवातीचे दीर्घ उ-ईकार ऱ्हस्व पाहिले आहेत. उदा. सूचना, पीडित इ. त्यामुळे थोडा फरक पडला असावा. जुन्या मराठीतील कवि, मति, मृत्यु अशा प्रकारे तत्सम शब्दांचे लिखाण असलेल्या लिखाणांत कदाचित ऱ्हस्व बाजी मारू शकतील असे वाटते.
बोलीप्रमाणे लिहिलेल्या मराठीत 'य' जरा जास्त येत असावा असे वाटते. उदा. करतोय, बसतोय, केलंय, आलंय, पाहिलाय इ. असे शब्द नसलेले लिखाणासाठी जालावर शोधाशोध करावी लागेल. किंवा नेहमी अशा प्रकारे 'य'वाले शब्द वापरणारा लेखक आणि 'य'वाले शब्द न वापरणारा लेखक यांच्या लिखाणातील 'य'च्या प्रमाणाची तुलना करणे रोचक ठरावे.

अवांतरः प्राथमिक निरीक्षणावरून मांडलेला अंदाजः जिथे जिथे 'असणे' क्रियापदाचे 'हे'युक्त रूप येते तिथे बोलीत 'य' येत असावा, तर जिथे 'हो'युक्त रूप येते तिथे 'व' येत असावा. तज्ज्ञांनी प्रकाश टाकावा.
उदा. करत(तो) आहे = करतोय
माणसं आहेत = माणसायत.
उद्या आहे = उद्याय
आला होता = आलावता
लावलं होतं = लावलवतं इ.

अतिअवांतरः 'आम्ही आलो आहोत' चे अनौपचारिक बोलताना मी अनेकदा 'आलोय' असे करतो. 'आलोय' हे 'आलो आहे'साठीचे रूप वाटते, मात्र 'आम्ही आलो आहे' हे वाक्य तोंडातून अजिबात निघत नाही!

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

त म्हणजे ताकभात ओळखता यावा... Wink

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

हा धागा म्हणजे डोक्यामध्ये कधीकाळापासून गच्च बसलेल्या प्रश्नसमूहाचे साकार रूप आहे. धन्यवाद!

यावर डिट्टेलवारी पृच्छा करेन पुन्हा वेळ मिळाला की.

(त कुठेही नाही-चेक.)

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

ROMANES EUNT DOMUS

सोयीस्करपणे परभाषेतून शब्द आणले की जमतात हो असे त-शिवाय लिहीलेले तपशीलवार प्रतिसाद. पूर्ण मराठीत लिहून बघा त-शिवाय, मग बघा कसं ततपप होईल ते! Wink

(त-संख्या तेरा)

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

सोयीस्करपणे परभाषेमधून शब्द आणले की जमेलच हो असे मूर्धन्य अनुनासिकापासून एकदम जवळचे कठोर व्यंजन न वापरूनही मोठे मोठे शेरे लिहायला. पूर्ण मराठीमध्येच लिहून बघा मूर्धन्य अनुनासिकापासून एकदम जवळच्या कठोर व्यंजनाशिवाय, मग बघा कशी फेफे उडेल लिहिणाराची Wink

(मूळ वाक्य "त-शिवाय" शुद्ध मराठीमध्ये)

सोयीस्करपणे परभाषेमधून शब्द आणायची विशेष गरज नाही हो अशी बयाजवार शेरेबाजी करायला. पूर्ण मराठीमध्ये लिहूनदेखील फेफे उडालेली नाही हे पाहणे रोचक आहे Wink

(त-संख्या= लॉग(१)) Wink

बैदवे तमिऴसाठी हा प्रयोग रोचक ठरावा. त्यांच्यात तर त,द हे आणि असे अनेक ग्रूप्स सेमच अस्तात.

ही घ्या आमची स्वाक्षरीदेखील मूर्धन्य अनुनासिकापासून एकदम जवळच्या कठोर व्यंजनाशिवाय लिहिलेली.

दुष्टारी सकळां भारी | प्रगटला गॉथम शहरी |
वाल्गुदेय हा निर्धारी | विदूषका जाण पां ||

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

ROMANES EUNT DOMUS

अष्टांग प्रणाम स्विकारा बेटमनजी. __/\__

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

मी वर लिहिलं होतं की 'त' अग्रक्रमावर नाही असा एकही नमुना सापडला नाही. तसा एक नमुना अाज सापडला, पण मराठीत नाही. हाच प्रोग्रॅम मी ऋग्वेदावर चालवून पाहिल्यावर असं दिसलं की अाता 'व' अग्रक्रमावर अालेला अाहे (४९८५५ वेळा), पण त्याच्या पाठीला नाक लावून 'त' अाहेच (४९६६५ वेळा), अाणि शिवाय 'र' ही फारसा मागे नाही (४९५४४ वेळा).

तेव्हा 'त' अाणि 'र' खूपदा येणं हा कदाचित सगळ्याच संस्कृतोद्भव भाषांचा गुणधर्म असू शकेल. अधिक संशोधनाची गरज अाहे. (तशी ती नेहमी असतेच.)

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

- जयदीप चिपलकट्टी (होमपेज)

अभिनंदन. माझ्यासाठी नवीन ज्ञान आहे. मजा आहे. तरयकल टाळणे जमेना.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

एकाच भाषेच्या वेगवेगळ्या बोलीभाषा एकमेकींपेक्षा किती निराळ्या आहेत हे अशा प्रयोगांवरून समजेल का? -- मिहिरचा प्रतिसाद

तेलुगु शिकण्याचा (क्षीण प्रयत्न) केला होता तेव्हा त्यांची लिपीही शिकण्याचा प्रयत्न केला होता. त्यात (क्षीण) आठवणींमधूनः मराठी-देवनागरीत व्यंजनांमधे बाय डीफॉल्ट अ मिसळून लिहीला जातो. तेलुगुमधे 'आ' असतो, त्याचं कारण तेलुगुमधे 'आ' हा स्वर सर्वाधिक वापरला जातो असं दिलं होतं. हे पुस्तक रेल्वे स्थानकांवर 'तेलुगु शिका' वगैरे मिळतात त्यातलं होतं, आणि खरंखोटं समजण्याइतपत तेलुगु मी कधी शिकलेही नाही.

त्यांच्या नावातच दोनदा 'त' असल्यामुळे संख्याशास्त्रीय विश्लेषणावर अवाजवी परिणाम झाला नसेल अशी अाशा अाहे.

वापरण्याच्या, कागदोपत्री असणार्‍या, स्वतः घेतलेल्या अशा सर्व नावांमधे 'त' आहे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

वापरण्याच्या, कागदोपत्री असणार्‍या, स्वतः घेतलेल्या अशा सर्व नावांमधे 'त' आहे

तरीच तिरसटं त्+रांगड दिसतंय! Wink

प्रयोग आवडला, निष्कर्ष रोचक आहे'त'. (बाकी ऋग्वेद (आणि इतर) वेदांच्या टेक्स्ट फाईल्स कुठे मिळाल्या याचा दुवा देऊन आमचा दुवा घ्यावा, धन्यवाद.)

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

ऋग्वेदाच्या text अाणि pdf फाईल्स इंटरनेटवर अनेक ठिकाणी अाहेत. विकिपीडियावर 'Rigveda' च्या एंट्रीच्या शेवटी अशा बऱ्याच लिंक्स अाहेत.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

- जयदीप चिपलकट्टी (होमपेज)

उत्तम प्रयोग.. अनपेक्षित (खरंतर असा विचारच केला नव्हता त्यामुळे अपेक्षित असे काहिच नव्हते Wink ) आणि रोचक!

समांतरः सदर प्रोग्रामकर्त्यांची परवानगी घेऊन हा प्रोग्राम ओपन-सोर्स करता येईल का? विविध अभ्यासकांना उपयुक्त होईल असे वाटते.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

- ऋ
-------
लव्ह अ‍ॅड लेट लव्ह!

या प्रोग्रॅममध्ये इतर काही सुविधांची भर घालून त्याचं एक जावा पॅकेज करण्याचा विचार अाहे. हे पॅकेज मग अोपन सोर्स केलं जाईल.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

- जयदीप चिपलकट्टी (होमपेज)

मस्त माहिती !!!

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

अत्यंत रोचक!

इंग्रजीमध्ये 't' या व्यंजनाचं प्रमाण सर्वात जास्त असणं अाणि मराठीत 'त' चं असणं, हा योगायोग अाहे की दोन्ही भाषा इंडो-युरोपियन असल्याची ती खूण अाहे, हे मला माहित नाही

आणखी इतरही भाषांचं विश्लेषण केल्यास तो योगायोग आहे की भाषांचे वैशिष्ट्य आहे की माणसाचा नैसर्गिक कल आहे याबाबतीत थोडी अधिक माहिती मिळू शकेल कदाचित.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

Hope is NOT a plan!

काही अवांतरः

बहुत रोचक. यावरून आठवले, इंग्रजीत e हे अक्षर सर्वांत जास्त कॉमन आहे. एका पठ्ठ्याने मुद्दाम e हे अक्षर न वापरता तब्बल १०५ पानांची इंग्रजी कादंबरी लिहिलीये, नाव आहे gadsby. तिची पीडीएफ इथे मिळेल. नमुन्यादाखल हा एक उतारा बघा त्यातला:

If youth, throughout all history, had had a champion to stand up for it; to show a doubting
world that a child can think; and, possibly, do it practically; you wouldn’t constantly run
across folks today who claim that “a child don’t know anything.” A child’s brain starts
functioning at birth; and has, amongst its many infant convolutions, thousands of dormant
atoms, into which God has put a mystic possibility for noticing an adult’s act, and figuring
out its purport.

कुठेही कृत्रिमपणा वाटत नाही,तरीही e हे अक्षर न वापरता लिहिणे हे शक्य असेल असे आजिबात वाटत नाही. मराठीत मोरोपंतांनी निरोष्ठ रामायण लिहिलेय-प्,फ्,ब्,भ्,म ही अक्षरे न वापरता. हे नक्कीच अवघड आहे, पण तरयकल मध्ये ही अक्षरे कुठेच नसल्याने जमून गेले असे वाटते.

या लेखाचा एक फायदा की त्यामुळे मराठीची ऑर्डर तरयकल ही कळाली. लेखकास एक प्रश्न आहे: ज्ञानेश्वरी किंवा तत्सम कुठल्याही जुन्या मराठी ग्रंथावरती हा प्रोग्रॅम रन करता येईल का? ज्ञानेश्वरीची पीडीएफ इथे मिळेल. जुन्या मराठीपेक्षा सध्याच्या मराठीत काही फरक पडला आहे किंवा कसे, हेही त्यातून स्पष्ट होईल.

त्यामुळे आता मराठीत "त" हे अक्षर न वापरता कादंबरी लिहिणे हे अप्रोप्रिएट च्यालेंज होईल. आहे का कोणी Smile

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

ROMANES EUNT DOMUS

> ज्ञानेश्वरी किंवा तत्सम कुठल्याही जुन्या मराठी ग्रंथावरती हा प्रोग्रॅम रन करता येईल का? ज्ञानेश्वरीची पीडीएफ इथे मिळेल. जुन्या मराठीपेक्षा सध्याच्या मराठीत काही फरक पडला आहे किंवा कसे, हेही त्यातून स्पष्ट होईल.


यातली अडचण अशी की पीडीएफ भादरून त्याची प्लेन टेक्स्ट फाईल कशी करायची ते मला माहित नाही. (असं करून देणारे काही अोपन सोर्स प्रोग्रॅम्स इंटरनेटवर अाहेत, पण ते देवनागरीवर नीट चालत नाहीत असा माझा अनुभव अाहे.) तेवढं कुणी करून दिल्यास बाकीचं अवघड नाही.

––

> एका पठ्ठ्याने मुद्दाम 'e' हे अक्षर न वापरता तब्बल १०५ पानांची इंग्रजी कादंबरी लिहिलीये, नाव आहे gadsby.

I know that writing in Anglo-Saxon without using that taboo sign is initially difficult. But, during writing, if you try to winnow your words and linguistic constructs with insight and a sharp ocular faculty, you can do it. I must warn you that constant caution is mandatory. If you nod off, you slip up.

Such writing is tiring, so I am going to stop, drink a dram of scotch and watch Novak Djokovic play in Australian 2013 (Hard Court). I think Novak will win, but not Andy Murray. (RF is a bit old now, but still plays fantastically.) What do you think?! Who do you root for?!

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

- जयदीप चिपलकट्टी (होमपेज)

त्याच लिंकमध्ये उजवीकडे "UNIC" असे लिहिलेय, त्यावर क्लिक केल्यास एचटीएमएल फॉर्मॅटमध्ये ज्ञानेश्वरिचे सर्व अध्याय दिसतील. मग ते सरळ नोटपॅडात पेष्टवून काम होऊ शकेल असे वाटते. मी पहिला अध्याय करून पाहिला-झाला.

स्वरांबद्दलचे काम पूर्ण रूपात पहायला आवडेल.

बाकी आपल्या लायपोग्रॅमॅटिक कौशल्याला सादर प्रणाम केल्या गेला आहे. _/\_

(लोटांगणाच्या वाक्यामध्ये त नाही-चेक)

I root for none, since the "Euler of Tennis" ain't there in this match Wink

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

ROMANES EUNT DOMUS

ज्ञानेश्वरी ह्या प्रोग्रॅममधून घालून पाहिली. पुन्हा 'त' अाणि 'र' अग्रेसर अाहेत. जास्तीतजास्त वेळा येणाऱ्या पहिल्या सहा व्यंजनांचं परस्परप्रमाण असं:

त: र : व : स: य: क = १००: ८७: ७२: ६४: ६० : ५३

एकूण पाहता अाधुनिक मराठीपेक्षा चित्र फार वेगळं नाही. (मुख्य फरक असा की 'व' अाणि 'स' चं प्रमाण जास्त अाहे, अाणि 'ल' चं कमी अाहे.) अर्थात इथे एक बाळबोध इशारा द्यायलाच हवा, तो म्हणजे ज्ञानेश्वरी हे तेराव्या शतकातल्या मराठीचं representative sample असेलच असं नाही.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

- जयदीप चिपलकट्टी (होमपेज)

वा!!! तत्परतेने वेळ खर्चून उत्तर दिल्याबद्दल बहुत बहुत धन्यवाद Smile एकूणच आधुनिक मराठीपेक्षा चित्र वेगळं दिसत नाही. हा क्रम म्हणजेच कुठल्याही भाषेचे व्यवच्छेदक लक्षण असे म्हणावे काय? कुणी लिंग्विस्ट तसे म्हटला आहे का आधी कधी?

बाकी तेराव्या शतकातील मराठी आणि ज्ञानेश्वरीचा आक्षेप मान्य आहे. पण महानुभाव ग्रंथ मात्र तसे नाहीत-ते बहुतांशी गद्य आहेत आणि पंथाबाहेर सर्क्युलेट न झाल्याने त्यांचे मूळ स्वरूप तसेच टिकून राहिले आहे. ते ग्रंथ कुठे मिळतात का नेटवर ते पहातो.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

ROMANES EUNT DOMUS

This is an unusual paragraph. I’m curious as to just how quickly you can find out what is so unusual about it. It looks so ordinary and plain that you would think nothing was wrong with it. In fact, nothing is wrong with it! It is highly unusual though. Study it and think about it, but you still may not find anything odd. But if you work at it a bit, you might find out. Try to do so without any coaching.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

No letter E?

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

Bang on! Spot on! (Bingo, may I add?)

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

I must laud you for such a crafty utilisation of words, for it shows a good grasp of words.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

ROMANES EUNT DOMUS

That was not an original opus of yours truly. Thus, it warrants not, nor is it worthy of, your kind acclaim, I'm afraid. (Still, thanks anyways, although for zilch, nought, nada, if I may audaciously so add.)

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

त मुळे इतर अक्षरांत तरतमभाव होतो ह्याची तत्काळ तल्पना ताहे (सॉरी कल्पना आहे.) Wink

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

--मनोबा
.
संगति जयाच्या खेळलो मी सदाहि | हाकेस तो आता ओ देत नाही
.
memories....often the marks people leave are scars

प्रयोगाची कल्पना, कृती आणि निष्कर्ष - सारेच आवडले! 'द अँडव्हेचर ऑफ द डान्सिंग मेन' ह्या होम्सकथेतील रहस्याची उकल आठवली.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

आज एका प्र‌श्नाच्या निमित्ताने हा लेख पुन्हा व‌र काढ‌त आहे- म‌राठीतील ळ हे अक्ष‌र‌ न‌क्की किती % वेळेस वाप‌र‌ले जाते याचा विदा मिळेल‌ काय‌? राद‌र‌ प्र‌त्येक‌च व्यंज‌न?

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

ROMANES EUNT DOMUS

हा उद्योग‌ पायताण एन‌एल‌पी टूल‌किट‌ (www.nltk.org) वाप‌रून‌ क‌र‌ता येईल‌. पाय‌ताण आणि एन‌एल‌पी माझ्या शिक‌ण्याच्या यादीत‌ आहे (भ‌ल‌त्याच‌ कार‌णासाठी.)

आर‌ भाषेच‌ं भाषाविश्लेष‌ण टूल‌किट‌ही आहे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

********
वाक्या वाळे अंदु, कृष्णा, नवनीत चोरी...

ते क‌र‌ता येईल‌च, पाहू क‌धी मूड‌ लागेल त‌सा......

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

ROMANES EUNT DOMUS

> आज एका प्रश्नाच्या निमित्ताने हा लेख पुन्हा व‌र काढ‌त आहे- म‌राठीतील ळ हे अक्ष‌र‌ न‌क्की किती % वेळेस वाप‌र‌ले जाते याचा विदा मिळेल‌ काय‌? राद‌र‌ प्रत्येकच व्यंज‌न?

याचं थोडक्यात उत्तर असं की जर एखादं व्यंजन दुर्मीळ असेल तर ते किती वेळा येतं हा हिशेब दर सँपलमध्ये फार वरखाली होतो. त्यामुळे त्याची स्टॅटिस्टिकल फ्रिक्वेन्सी काढली तरी ती भरवशाची नसते.

उदाहरणार्थ, ह्या प्रश्नाच्या निमित्ताने 'लोकसत्ते'तल्या एका जुन्या संपादकीयाचं मी आत्ताच पुन्हा विश्लेषण करून पाहिलं. त्यातल्या ९३३ शब्दांमध्ये ‘ळ’ फक्त ३१ वेळा आलेला आहे. (त्यामानाने ‘त’ ३३३ वेळा, म्हणजे त्याच्या दसपट आहे.) ह्या संपादकीयातलं एक वाक्य असं आहे:
उन्हाळी मोसमात अवकाळी पाऊस येणे, पावसाच्या वेळापत्रकांमध्ये फेरबदल होणे या हवामानातील बदलांचा सर्वात पहिला व मोठा फटका हा बळीराजाला बसतो.

आता लिहिणाऱ्याने जर ‘अवकाळी’ ऐवजी ‘अकाली’ लिहिलं असतं आणि ‘बळीराजा’ हा शब्द जिथेतिथे वापरण्याची चूष आवरली असती तर लागलीच दोन ‘ळ’ कमी झाले असते. तेव्हा मुद्दा तोच: दुर्मीळ व्यंजनांचा वापर लिहिणाऱ्यावर आणि विषयावर फार अवलंबून असतो.

हे दोन प्रश्न पाहा:
(१) सरासरी दर आठवड्याला ‘वैशाली’त फर्ग्युसनमधले किती विद्यार्थी येतात?
(२) सरासरी दर आठवड्याला ‘वैशाली’त किती आय.एफ.एस. अॉफिसर्स येतात?

पहिल्या प्रश्नाचं स्टॅटिस्टिक्स काढणं सहज शक्य आहे, पण दुसऱ्याचं काढण्यात विशेष अर्थ नाही.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

- जयदीप चिपलकट्टी (होमपेज)

ध‌न्यवाद प‌ण म‌राठीत‌ ळ हे संस्कृतात‌ल्या लृ प्र‌माणे एखाद्याच श‌ब्दापुर‌ते म‌र्यादित‌ नाही म्ह‌णून‌ पृच्छा, असो.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

ROMANES EUNT DOMUS

शेरलॉक होम्सच्या त्या नाच‌णाऱ्या बाहुल्यांच्या गोष्टीत त्याने हे वारंवारितेचं प्र‌मेय मांड‌लेलं होतं, तेव्हा डोक्यात किडा आलेला की असं मराठीत काय असेल ब्वॉ? प‌ण तो विचार तितक्याच त‌त्प‌र‌तेने अस्तास गेला. तुम्ही इत‌का भ‌न्नाट उप‌क्र‌म हाती घेत‌लाय, की ह्यावर एक शोध‌निबंध‌च लिहू श‌क‌ता की!
फार‌च इंट‌रेस्टिंग माहिती. म‌राठी भाषा दिनाच्या वेळी 'कुसुमाग्र‌जांचं ख‌रं नाव काय' छाप प्रश्नांपेक्षा हे असे प्र‌श्न फार भारी होतील कोणाला विचाराय‌ला.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

_______________________________________________
What's the matter with the calamity anyway?

'त‌' अधिक अस‌ण्याचे कार‌ण म्ह‌णजे धातुसाधितांच्या प्र‌त्य‌यांम‌ध्ये आणि क्रियाप‌दांच्या प्र‌त्य‌यांम‌ध्ये 'त‌'चे प्राब‌ल्य‌ आहे. शिवाय भाव‌वाच‌क नामे ब‌न‌व‌तानाही 'त‌' अस‌तोच. प्र‌ग‌ल्भ‌ भाषेत प्र‌थ‌म अथ‌वा द्वितीय‌ पुरुषापेक्षा तृतीय‌ पुरुषाचा वाप‌र अधिक अस‌तो. (डिस्क्रिप्टिव म्ह‌णून.) स‌ंस्कृतात तृतीय‌पुरुषी क्रियाप‌दांच्या रूपांत 'त‌' अधिक अस‌तो. ग‌च्छ‌ति, ग‌च्छ‌न्ति, एति, द‌दाति, श्रुणोति, ग‌च्छ‌तु, व‌गैरे. म‌राठीत रीतिव‌र्त‌मानाचे स‌ग‌ळेच प्र‌त्य‌य 'त‌'युक्त‌ आहेत्
. क‌र्म‌णि विध्य‌र्थीधाविम‌ध्ये ग‌त्य‌, कृत्य‌, क‌र्त‌व्य‌, ग‌न्त‌व्य‌, व‌क्त‌व्य‌, भ‌वित‌व्य‌ व‌गैरे. भूत‌काल‌वाच‌क धासांम‌ध्ये न‌त‌, ह‌त‌, उक्त‌, द‌त्त‌, साधित‌, बाधित, जात‌, च‌रित‌, लिखित‌, गीत व‌गैरे. जाताना, येताना, बोल‌ताना, सांग‌ताना व‌गैरे. भाव‌वाच‌काम‌ध्ये क‌विता, घ‌न‌ता, शुचिता, स‌ंप‌न्न‌ता, शांत‌ता, उष्ण‌ता, उत्प‌त्ति, स्थिति, वृत्ति, नीति, क‌वित्व‌, गुरुत्व‌, म‌ह‌त्त्व‌, अस्तित्व‌, शिष्य‌त्व‌ व‌गैरे.
म्ह‌णून 'त‌'चे अधिक‌त्व‌ आहे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

मोल्स‌व‌र्थ‌चा म‌राठी-इंग्लिश‌ १८५७ हा कोश‌ माझ्याक‌डे पीडीएफ‌म‌ध्ये आहे आणि तो ब‌घ‌ण्याची वेळ‌ म‌ला अनेक‌दा येते. द‌र‌ वेळेस‌ कोशाची पाने चाळ‌ण्यात‌ वेळ‌ घाल‌विणे टाळ‌ण्यासाठी मी माझ्यापुर‌ता त्याचा एक‌ इंडेक्स‌ क‌रून‌ तोहि त्याच‌ नावाने पीडीएफ‌म‌ध्ये त्याच‌ फोल्ड‌र‌म‌ध्ये ठेव‌ला आहे, जेणेक‌रून‌ आधी इंडेक्स‌ पाहून‌ ह‌व्या त्या पानाव‌र‌ एक‌द‌म‌ जाता यावे.

त्या इंडेक्स‌प्र‌माणे कोशातील‌ म‌राठी अक्ष‌रे श‌ब्दांच्या सुरुवातीस‌ अस‌ण्याची पृष्ठ‌स‌ंख्या अशी आहे.

स‌ ७५, क ६७, प ६६, अ ५८, व ५३, म ४९, ब ३९, ग ३३, न ३३, च ३२, द ३२, त‌ ३१, ह ३१, ख २७, भ‌ २६, र २६, श‌ २६, उ २५, ल‌ २२. बाकी स‌र्व‌ अक्ष‌रे २०च्या खाली.

येथे त खूप‌च‌ खाली आहे. त च‌ एकूण‌ वाप‌र‌ स‌र्वाधिक‌ अस‌ला त‌री त ने सुरू होणारे श‌ब्द‌ त्या मानाने ब‌रेच‌ क‌मी आहेत‌ असे दिस‌ते.

आम‌च्या घ‌री व‌डिलोपार्जित‌ छाप‌खान्याचा व्य‌व‌साय‌ माझ्या ल‌हान‌प‌णी होता. स‌ंग‌ण‌काव‌र‌ म‌ज‌कूर‌ तयार‌ क‌र‌ण्याचे दिव‌स‌ अजून‌ कोणी स्व‌प्नात‌हि पाहिले न‌व्ह‌ते. आम‌च्या छाप‌खान्यात‌ स‌मोर‌ दोन‌ केसेस‌म‌ध्ये अस‌लेले टाइप एकएक‌ क‌रून‌ उच‌लून‌ क‌ंपोझिट‌र्स‌ हातातील‌ 'स्टिक‌'म‌ध्ये ठेवून‌ म‌ज‌कूर‌ जुळ‌व‌त‌ अस‌त‌. त‌शी केस‌ आता कोठे अस‌लीच‌ त‌र‌ जुन्या छाप‌खान्यात‌ असू श‌केल‌. थोड्या शोधान‌ंत‌र‌ अशा केस‌चे चित्र‌ म‌ला येथे दिस‌ले. ह्या केस‌म‌ध्ये स‌र्वात‌ सोप्या जागा आणि स‌र्वात‌ मोठे क‌प्पे क‌ र‌ ग‌ त‌ न‌ आणि अ ह्या अक्षरांना दिलेले दिस‌तात‌. ही अक्षरे स‌र्वात‌ अधिक‌ वाप‌र‌ली जातात‌ ह्याचे हे एक‌ द‌र्श‌क‌ आहे.

(अशा जुन्या छाप‌खान्यात‌ पुस्त‌क‌ क‌से त‌यार‌ होत‌ असे ह्याच्या माझ्या ल‌हान‌प‌ण‌च्या आठ‌व‌णी आहेत‌. त्याव‌र‌ एक‌ म‌नोर‌ंज‌क‌ लेख‌ लिहिता येईल‌. थोडी स‌व‌ड‌ मिळाली की ते क‌र‌ण्याचा विचार‌ आहे.)

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

(अशा जुन्या छाप‌खान्यात‌ पुस्त‌क‌ क‌से त‌यार‌ होत‌ असे ह्याच्या माझ्या ल‌हान‌प‌ण‌च्या आठ‌व‌णी आहेत‌. त्याव‌र‌ एक‌ म‌नोर‌ंज‌क‌ लेख‌ लिहिता येईल‌. थोडी स‌व‌ड‌ मिळाली की ते क‌र‌ण्याचा विचार‌ आहे.)

या बात‌! वाट‌ पाह‌तो आहे!

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

********
वाक्या वाळे अंदु, कृष्णा, नवनीत चोरी...

नेम‌का हेच‌ दाख‌व‌णारा व्हिडिओ फिर‌त‌ होता फेबुव‌र‌ काही म‌हिन्यांपूर्वी. हे सालं जालीय म‌ज‌कूर‌ रिट्रीव्ह‌ क‌र‌णं म्ह‌ण‌जे तुफान‌ त्रासाचं काम‌ आहे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

ROMANES EUNT DOMUS

अरे वा. येऊ द्या, येऊ द्या.
मी सुद्दा केलेय कंपोझिंग उलुसे.
प‌हिल्या डिझाय‌न‌र‌च्या नोक‌रीत माझ्या सोब‌त‌चा स‌ग‌ळा स्टाफ भुत‌पुर्व कंपोझिट‌रांचा होता. फॉन्ट, साईज, अलाइन‌मेंट, स्पेसिंग आणि लेआऊट‌चा क‌मालीचा सेन्स होता त्यांना. डिटिपी क‌र‌तानाहि ते त्यांचे स्पेश‌ल व‌र्ड‌स वाप‌राय‌चे.
एक‌ज‌ण सोल्ज‌र क‌ट माराय‌चा निय‌मित्. त्याला विग्नेट क‌ट् म्ह‌णाय‌चे. विग्नेट म्ह‌न‌जे बॅक्ग्राउंड‌म‌ध्ये फेड होत गेलेले चित्र. ROFLROFL

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

मोरोप‌ंतांनी त्यांच्या क‌मीअधिक‌ १०८ रामाय‌णांम‌ध्ये 'निरोष्ठ्य‌ रामाय‌ण‌' असे एक‌ छोटे रामाय‌ण‌ र‌च‌ले होते. त्याम‌ध्ये 'ओष्ठ्य‌व‌र्ण‌' म्ह‌ण‌जे प‌फ‌ब‌भ‌म‌ हे ओठांनी उच्चाराय‌चे व‌र्ण‌ बिल‌कुल‌ वाप‌र‌ले न‌व्ह‌ते. ह्या १०८ रामाय‌णांव‌र‌चा माझा लेख‌ http://aisiakshare.com/node/3948 येथे आहे.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

या निरोष्ठ‌ रामाय‌णाची कॉपी कुठे मिळेल‌ का हो नेट‌व‌र‌?

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

ROMANES EUNT DOMUS

मजेदार!

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

@जयदीप चिपलकट्टी - ह्याचा कोड‌ गिट‌ह‌ब‌व‌र‌ टाक‌ता येईल का? /

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

आजच nltk प्रकार शिकायला घेतला. काय हा दैवदुर्विलास!

---

विकेण्डपर्यंत मला टाईम इल्ला, पण हाच तरयकल-कार्यक्रम पायथनमध्ये थोडक्यात आटोपेल असं वाटतं. डॉक्युमेंट घ्या, त्याचा युनिकोड सोडवा, स्वरांचे युनिकोड आणि विरामचिन्हं काढून टाका; उरलेल्यांवर पायथनमधली Counter नावाची डिक्शनरी चालवा, ती तिच्या valuesप्रमाणे sort करा, 'तरयकल' मिळेल, आकड्यांसकट. हे सगळं १०-१२ ओळींत होऊन जाईल, बहुदा.
'ळ'चे हिंदोळेही सहज बघता येतील. मटा, सकाळ, लोकसत्तेतल्या ळ च्या हिंदोळ्यांचा आलेख, त्याची आंजाशी तुलना वगैरे किडेही कोणाला करायचे असतील तर पाहा.

हे पायथनमध्ये एवढं सहज करता येतं (असावं) तर ऋ, म्हणजे 'आर'मध्येही सहज जमेल; असा माझा काठावरून कोरडा अंदाज.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

आत्ताच युनिकोडशी थोडी झटापट करून पायताणात एक सोपासा प्रोग्रॅम लिहिला. तू म्हटल्याप्रमाणे दहा-बारा ओळींतच झाला. ऐसीवरच्या वर दिसणाऱ्या लेखांना लावून बघितला. 'तरयकल'बरोबर 'न'ही दिसला काही लेखांत जास्त. मोठ्या सँपलसाठी जचिंना जी दिवाळी अंकाची टेक्स्ट फाईल पाठवली होतीस ती पाठवतेस का? त्यावरही चालवून बघतो. इतरही लेखांशी खेळून बघतो उद्या. Smile

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

हा धागा वर काढल्याबद्दल सर्व संबंधितांचे आभार. मिहिर तू ही हा कोड गिटहबवर टाकशील का?
मला आदिती यांनाही एक सूचना करावीशी वाटते. ऐसीसाठी त्या ज्या खटपटी करत असतात त्याही गिटहबवर टाकता येईल का? ज्यांना हातभार लावायचा असेल ते सहज लावू शकतील. नवीन खटपटी पण सुचतील.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

मिहिर तू ही हा कोड गिटहबवर टाकशील का?

+१
माझ्या डोक्यात आणखी काही किडे आहेत, वेळ झाला की सविस्तर लिहिते/काम करते.
जयदीपला जी फाईल पाठवली होती, ती जरा शोधावी लागेल. शनिवारपर्यंत मी इमेल केलं नाही तर मिहिर, मला एकदा आठवण कर. (बहुदा ती फाईल शिल्लक असेल.)

नील, ऐसीसाठी मी निराळं काही करत नाही. ड्रुपालच्या साईटवरून कोड आणून इकडे जोडते झालं. मला जावास्क्रिप्ट, पीएचपी वगैरे गोष्टी अजिबातच येत नाहीत. तो कोड बघूनच दबून जायला होतं. देवनागरी टंकनाचं गमभनीकरण करणारा, इंडिक स्क्रिप्ट मॉड्यूलचा, कोड शेअर करते.

---

पायथनमध्ये धाग्यांतून टेक्स्ट काढण्याचं स्क्रिप्ट लिहिता येईल. सगळ्या धाग्यांच्या लिंका सारख्याच असतात, फक्त आकडे बदलतात. (लोकसत्ता, मटा, सकाळच्या लिंका तशा शोधता येणार नाहीत.) तर धागा क्र १ ते (उदाहरणार्थ) १०००० पर्यंत धागे शोधायचे. त्यातली अक्षरं शोधता येतील. काही धागे नसतील त्यामुळे कदाचित try - except सारखी 'महागडी' लुपं लावावी लागतील. त्यातून सगळे धागे आणि प्रतिसादही शोधता येतील.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

न‌क्की टाकाच‌ गिट‌ह‌ब‌व‌र‌. वेळ‌ मिळाला की ह्याचा उप‌योग‌ क‌रून‌ ब‌घीन‌ म्ह‌ंटो.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

धाग्यांतून‌ टेक्स्ट‌ काढ‌ण्याचा कोड‌ आहे माझ्याक‌डे - लेख‌काच्या आय‌डीप्र‌माणे त्याचे स‌ग‌ळे लेख‌ .txt म‌धे उत‌र‌वून‌ घेता येईल‌ अस‌ं.
टॉप‌ १०० लेखकांच्या लेख‌नाची फाईल‌ शेअर‌ क‌र‌तो.

हे एक‌ डेटा सॅंप‌ल‌ आहे ऐसीव‌र‌च्या ०-३०० क्र‌मांकांच्या स‌द‌स्य‌लेख‌नाच‌ं.

प्र‌तिसाद‌ही अॅड क‌र‌ता येतील न‌ंत‌र‌.
त्याव‌र‌ हा पाय‌थ‌न‌चा कोड‌ र‌न‌ क‌रून‌ ब‌घ‌ता येईल‌.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

हा घ्या गिटहब दुवा. अगदी साधा कोड लिहिलाय.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0