ऐसी शब्द मोजणी
नमस्कार लोकहो,
मी सुरवातिपासुनच ऐसीचा वाचक आहे. कामनिमित्त बरेच वेळेस वेगवेगळया गोष्टिंच analysis आपण करत असतो. ईथे मी ऐसीच्या बाबतित प्राथमिक स्वरुपाच काही analysis केलेल आहे. तर ते एक-एक पाहुयात.
१) साप्ताहिक वाहतुक : ऐसीचा आतापार्यंतचा सर्व विदा एकत्रितपणे जर विचारात घेतला तर, दर दिवशी किती लेख लिहिले जातात, आठवडयात त्यात कसा बदल होतो. लोक सुट्टीच्या दिवशी जास्त लिहितात की कामाच्या याचा साधारण अंदाज आपण घेउ शकतो.
२) लेखांची साधारण लांबी : एकोळी धागे तर आपल्याला नेहमिचे आहेतच , तसेच लांबच्या लांब धागेही ऐसीवर पचवले जातात. हा खालचा आलेख त्याबाद्दलच बोलतोय.
३) लेखणप्रकार : प्रत्येक जत्रेत हौशे, गौशे आणि नवशे सगळे असतात. मराठी संस्थळांच्या बाबतित म्हनायच झाल तर , संस्थळ कविताप्रधान आहे की चर्चाप्रधान हे त्या त्या लेखणप्रकाराच किती लेखण झालय हे पाहुन ठरवाता याव. हा पुढचा आलेख त्याबद्दल.
४) वारंवार वापरले जाणारे शब्द : प्रत्येक भाषेत काही शब्द वारंवार वापरले जातात. तर ऐसीवरचे हे २५ वारंवार वापरले शब्द.
५) लेखक : कुठल्या लेखकाच किती योगदान आहे हे जर मोजायच ठरलं तर कुणी किती लेख लिहिलेत, कुणी एकुण किती शब्द लिहिलेत किंवा कुणाला आत्तापरर्यंत किती प्रतिसाद मिळालेत हे मोजता येईल. हे खालील आलेख पहिल्या २५ लेखकांबद्दल.
या analysis मधे लेखांमधिल शब्द ग्राह्य धरण्यात आलेले आहेत. व analysis साठी python ही संगणक भाषा वापरणयात आलेली आहे.
-रवि
माहितीमधल्या टर्म्स
लय भारी, रविभाऊ. काही
लय भारी, रविभाऊ.
काही प्रश्न/सुचवण्या/निरीक्षणे
१. साप्ताहिक वाहतुक
- लोक वीकांताला शांतपणे बसून लिहितात आणि सोमवारी पोस्टतात असं दिसतंय. काही लोक शुक्र-रवि प्रतिसाद मिळत नाहीत म्हणून तयार लेखही सोमवारी टाकत असावेत.
- दिवस कोणत्या वेळेनुसार ठरवला आहे? (जीएमटी, यूएसटी, भाप्रवे की आणखी काही?) त्यावरही आलेख बदलेल.
२. लेखांची साधारण लांबी
हा आलेख नॉर्मल डिस्ट्रीब्यूशन पद्धतीने जास्त रुचला असता.
३. लेखणप्रकार
पायचार्ट?
४. वारंवार वापरले जाणारे शब्द
भाषेच्या बांधणीमुळे काही शब्द इतर शब्दांपेक्षा तुलनेने वारंवार येतात. क्वान्टिटेटिव्ह लेक्सिकल अॅनालिसिसमध्ये वारंवार वापरले जाणारे शब्द शोधताना हा कचरा बाजूला केला जातो. (हे करण्याची शास्त्रीय पद्धत विषद करणारा एक पेपर आहे. लिंक सापडली की देतो.) हे न केल्यास रिझल्ट कचरा शब्दांच्या बाजूला स्क्यू होतो, आणि अर्थहीन बनतो. माझा असा दावा आहे की ऐसीवर "रोचक" हा शब्द नॉन कचरा टॉप २५ मध्ये यावा. (तसंच "बोव्हार" हा शब्ददेखील ;) )
५. लेखक
एकातही माझा लंबर नाय? ह्या:! :(
_______________________
analysis साठी python ही संगणक भाषा वापरणयात आलेली आहे
हे कसं करायचं ते मला शिकवाल का? किंबहुना तपशीलवार लेख लिहिलात तर फारच बरं होईल.
बादवे, हा सगळा विदा मॅन्युअली मिळवलात की तेही पायताणच करून देतं?
+१ सुधारणा
४. वारंवार वापरले जाणारे शब्द
भाषेच्या बांधणीमुळे काही शब्द इतर शब्दांपेक्षा तुलनेने वारंवार येतात. क्वान्टिटेटिव्ह लेक्सिकल अॅनालिसिसमध्ये वारंवार वापरले जाणारे शब्द शोधताना हा कचरा बाजूला केला जातो. (हे करण्याची शास्त्रीय पद्धत विषद करणारा एक पेपर आहे. लिंक सापडली की देतो.) हे न केल्यास रिझल्ट कचरा शब्दांच्या बाजूला स्क्यू होतो, आणि अर्थहीन बनतो. माझा असा दावा आहे की ऐसीवर "रोचक" हा शब्द नॉन कचरा टॉप २५ मध्ये यावा. (तसंच "बोव्हार" हा शब्ददेखील (डोळा मारत) )
+१ :)
.
.
५. लेखक
एकातही माझा लंबर नाय? ह्या:!
धागा क्वांटिटिव्ह बाबींबद्दल आहे, क्वालिटिटिव्ह निकषांवर नाही. नैतर ब्रूस ली ला ऑल टैम ग्रेट्ट म्हणतात. पण त्यानं मोजून आख्ख्या करिअर अम्ध्ये साडे चारच मोठे चित्रपट केले म्हणतात. गुरु दत्त ह्यांच्या पिच्चरची संख्याही फार नसावी. सुभाष गुप्ते फक्त पंचेचाळिस तेस्ट खेळले. पण त्यांनी अडीचशे का पावणेतीनशे(!!) विकेट्स घेतल्यात.
मॅराडोनानं एकच फुटबॉल चा विश्व अषक गाजवला, पण तो तयत जे खेळून गेला त्यात एकदम सार्वकालिक महान वगैरे अनला. त्यातही त्यानं प्रत्यक्षात आख्ख्या विश्व चषकात १९८६ला फक्त पाच गोल केले.त्याअच्यानंतरच्या काळात टॉपचे रोनाल्डो , वगैरे लोकांनी एका विश्वचश्कात त्याहून अधिक गोल केलेले आहेत. (आठ आठ गोल करणारे चार पाच तरी लोक असतील) पण आजही १९८६ बद्दल लोक "मॅराडोनाचा वर्ल्ड कप" असच म्हणतात. आणि त्याच्या खेळाला सर्वोत्तम.
.
.
सच्याची ग्रेटेस्ट इनिंग्ज आणी ग्रेटेस्ट पर्फॉर्मन्स/ फॉर्म म्हटला तर डेझर्ट स्टॉर्म ...१९९८ ऑस्ट्रेलिया विरुद्धचा शारजातला हैदोस आठवतो.
पण तेव्हाही सच्याने १४१ आणि १३४ अशा धावा काढलेल्या दोन लागोपाठ सामन्यात.
१४१ तर लोक येता जाता पार करुन जातात.
पण ती खेळी आजही इपिक आहे, क्रिकेट फोकलोर बनलेली आहे.
.
.
बाकी, ही बातमी समजली का, अलिकडे काय पाहिलत, अलिकडे काय वाचलत , मनातले लहान मोठे प्रश्न वगैरे धागे मोजले जाउ नयेत असं मला वाटतं, एखाद्याची धाग्यांची संख्या मोजताना किम्वा त्याला मिलालेले प्रतिसाद मोजताना.
तस्मात् निव्वळ संख्या का निकष असला की हे लोच्य होणारच.
आकडेवारीबद्दल -- शुचिचे सगळे आय डी एकत्रित मोजले तर आकडेवारी बदलू शकते.
चांगला अभ्यास
अंमळ हळवे होण्यात आले आहे.
बाकी,
संस्थळ कविताप्रधान आहे की चर्चाप्रधान हे त्या त्या लेखणप्रकाराच किती लेखण झालय हे पाहुन ठरवाता याव. हा पुढचा आलेख त्याबद्दल.
या बरोबरच त्या त्या लेखनप्रकाराला (अॅव्हरेज) किती प्रतिसाद येतात हे ही पाहिलं तर जास्त योग्य मुल्यमापन होईल.
धाग्याची लांबी: प्रत्येक ओळ एक कॅटेगिरी करण्यापेक्षा ५० किंवा १०० ओळींची प्रतवारी केल्यास डेटा प्रेझेंटेबल होईल. (एकोळीस विशेष स्थान द्यायला हरकत नाही.)
विकली अॅक्टीव्हिटी मध्ये धागे आणि प्रतिसाद असे दोन्ही चार्ट ओव्हरले केल्यास पाहणे रोचक ठरेल.
दोन नविन गोष्टी, जरा अवघड पण तरीही, पहायला मजा येईल.
१. अ लेखक- ब प्रतिसादक अशी क्लस्टर्स पहायला मजा येईल. (थोडक्यात अ ने धागा काढला तर ब, क, ड पैकी किती जणांचे त्याला प्रतिसाद येतात?
२. धागाप्रकारानुसार प्रतिसाद: टॉप प्रतिसाद देणार्यांपैकी कोणते प्रतिसादक कोणत्या धाग्याप्रकाराला जास्त प्रतिसाद देतात. / टॉप प्रतिसाद पर धागा प्रकार.
३. श्रेणीपद्धतीचा डेटाही काढता येईल. टॉप श्रेण्या मिळणारे, त्यांना कोणत्या श्रेण्या बहुतेक करून मिळतात अन अजून डिटेल मध्ये गेल्यास टॉप श्रेण्या मिळणार्यांना धागा प्रकारानुसर कोणत्या श्रेण्या मिळतात वगैरे.
शेवटी काय अभ्यास कराल तेव्हढा थोडा, नाही का.
सर्वांचे प्रतिसादाबद्दल धन्यवाद
@ आदूबाळ
लोक वीकांताला शांतपणे बसून लिहितात आणि सोमवारी पोस्टतात असं दिसतंय. काही लोक शुक्र-रवि प्रतिसाद मिळत नाहीत म्हणून तयार लेखही सोमवारी टाकत असावेत.
तुमच्या निरिक्षणाशी सहमत .
दिवस कोणत्या वेळेनुसार ठरवला आहे? (जीएमटी, यूएसटी, भाप्रवे की आणखी काही?) त्यावरही आलेख बदलेल.
लेखाच्या सुरवातिला जो timestamp आहे त्यानुसा. विदा गोळा करताना login न करता केला आहे,अशावेळी timestamp कुठल्या timezone प्रमाणे दिसातो ? की नेहमी एकाच timezone प्रमाणे दिसातो.
लेखांची साधारण लांबी
हा आलेख नॉर्मल डिस्ट्रीब्यूशन पद्धतीने जास्त रुचला असता.
जसा विदा आहे तसाआलेख काढलेलाआहे, माझिही अपेक्षा अशिच होती की नॉर्मल डिस्ट्रीब्यूशन दिसेल. परंतु मोजणी करण्यासाठी जी script लिहिली होती त्यात शुन्य व एक, दोन / तीन , शब्दसंख्या असलेल्या लेखांची संख्याही बरिच आढळुन आली. परंतु लक्षपुर्वक पहाता काही ठिकाणी script काहि वेळेस बरोबर काम करत नाही व शुन्य मोजते अस आढळुन आलं. याच कारण माझ्या लक्षात आल नाही व सध्या अशा false counts ना डिस्ट्रीब्यूशन मधुन वगळणयात आलय. दोन / तीन शब्दसंख्या असलेल्या लेखांच निरिक्षण करता अस आढळुन आलं की खरच त्या लेखांमधे काहिच शब्द नाहियेत व सुरवातिस जे किवर्डस आहेत ते मोजाले जातायेत. हे लेख म्हनजे कदाचित ज्यांनी लेख काढुन टाकलेत किंवा account delete केलेत असे असावे. संपादक मंडळी याबद्दल सांगु शकतिल.
@Nile हो असे वेगवेगळे bins केले तर जरा बर दिसेल.
३. लेखणप्रकार
पायचार्ट?
हे माझ्या डोस्क्यातच आल नाही, हे करतो.
वारंवार वापरले जाणारे शब्द
याबद्दलही सहमत. व्यनिमधे चिंतातुर जंतू याच्याबरोबर झालेल्या चर्चेतही साधारण हिच सुचना मिळाली. फक्त कूठले शब्द वगळावे हे पक्के झाले की काम सोपे होइल. ती लिंक द्या. व ईतरही सुचना यासंदर्भात आल्या तर चालतिल.
लेखक
याबाद्दल केलेल analysis एकदम बाळबोध आहे. सहजासहजी जे आकडे मोजता येतिल ते मोजलेले आहेत.
मन१ यांनी व्यवस्थित विवचण केल आहे. व काय काय वगळाव हेही मान्य आहे.
सध्या फक्त लेखाची लांबी मोजली आहे. त्यात प्रतिसाद मोजले नाहियेत. तसेच 'वारंवार वापरले जाणारे शब्द ' मेधेही फक्त लेखातिल शब्द मोजले आहेत. प्रतिसादातिल शब्द मोजल्यास अस्सल मराठी आजा वरिल शब्द त्यात दिसुन यावेत.
बाकी Nile नी सुचवलेले analysis जरा अतिप्रगत categoryतले म्हणता येइल. त्यतल्या त्यात हे -"विकली अॅक्टीव्हिटी मध्ये धागे आणि प्रतिसाद असे दोन्ही चार्ट ओव्हरले केल्यास पाहणे रोचक ठरेल." करुन बघतो.
शेवटी काय अभ्यास कराल तेव्हढा थोडा, नाही का.
अर्थात.
मला वेब स्रेपिंग वर जरा हात साफ करायचा होता, त्यासाठी ही सगळी उठाठेव व पहिलाच प्रयत्न.
यात जेवढ काम करता येइल तेवढ करुन हव तर दुसरा / सुधारित भाग आठवडा पंधरा दिवसात टाकतो. व कोडबद्दलही (Python and libraries used) गोषवारा द्यायचा प्रयत्न करेल.
-रवि
आलेख दिसत नाहीयेत.
आलेख दिसत नाहीयेत.
____
दिसले.