ऐसी शब्द मोजणी
नमस्कार लोकहो,
मी सुरवातिपासुनच ऐसीचा वाचक आहे. कामनिमित्त बरेच वेळेस वेगवेगळया गोष्टिंच analysis आपण करत असतो. ईथे मी ऐसीच्या बाबतित प्राथमिक स्वरुपाच काही analysis केलेल आहे. तर ते एक-एक पाहुयात.
१) साप्ताहिक वाहतुक : ऐसीचा आतापार्यंतचा सर्व विदा एकत्रितपणे जर विचारात घेतला तर, दर दिवशी किती लेख लिहिले जातात, आठवडयात त्यात कसा बदल होतो. लोक सुट्टीच्या दिवशी जास्त लिहितात की कामाच्या याचा साधारण अंदाज आपण घेउ शकतो.
२) लेखांची साधारण लांबी : एकोळी धागे तर आपल्याला नेहमिचे आहेतच , तसेच लांबच्या लांब धागेही ऐसीवर पचवले जातात. हा खालचा आलेख त्याबाद्दलच बोलतोय.
३) लेखणप्रकार : प्रत्येक जत्रेत हौशे, गौशे आणि नवशे सगळे असतात. मराठी संस्थळांच्या बाबतित म्हनायच झाल तर , संस्थळ कविताप्रधान आहे की चर्चाप्रधान हे त्या त्या लेखणप्रकाराच किती लेखण झालय हे पाहुन ठरवाता याव. हा पुढचा आलेख त्याबद्दल.
४) वारंवार वापरले जाणारे शब्द : प्रत्येक भाषेत काही शब्द वारंवार वापरले जातात. तर ऐसीवरचे हे २५ वारंवार वापरले शब्द.
५) लेखक : कुठल्या लेखकाच किती योगदान आहे हे जर मोजायच ठरलं तर कुणी किती लेख लिहिलेत, कुणी एकुण किती शब्द लिहिलेत किंवा कुणाला आत्तापरर्यंत किती प्रतिसाद मिळालेत हे मोजता येईल. हे खालील आलेख पहिल्या २५ लेखकांबद्दल.
या analysis मधे लेखांमधिल शब्द ग्राह्य धरण्यात आलेले आहेत. व analysis साठी python ही संगणक भाषा वापरणयात आलेली आहे.
-रवि
प्रतिक्रिया
आलेख दिसत नाहीयेत.
आलेख दिसत नाहीयेत.
____
दिसले.
मला दिसले नाहीत आलेख.
मला दिसले नाहीत आलेख.
********
It is better to have questions which don't have answers, than having answers which cannot be questioned.
राइट क्लिक ओपन इमेज.
राइट क्लिक ओपन इमेज.
आलेख आद्ययावत केलेले आहेत.
आलेख आद्ययावत केलेले आहेत.
-रवी
लय भारी, रविभाऊ. काही
लय भारी, रविभाऊ.
काही प्रश्न/सुचवण्या/निरीक्षणे
१. साप्ताहिक वाहतुक
- लोक वीकांताला शांतपणे बसून लिहितात आणि सोमवारी पोस्टतात असं दिसतंय. काही लोक शुक्र-रवि प्रतिसाद मिळत नाहीत म्हणून तयार लेखही सोमवारी टाकत असावेत.
- दिवस कोणत्या वेळेनुसार ठरवला आहे? (जीएमटी, यूएसटी, भाप्रवे की आणखी काही?) त्यावरही आलेख बदलेल.
२. लेखांची साधारण लांबी
हा आलेख नॉर्मल डिस्ट्रीब्यूशन पद्धतीने जास्त रुचला असता.
३. लेखणप्रकार
पायचार्ट?
४. वारंवार वापरले जाणारे शब्द
भाषेच्या बांधणीमुळे काही शब्द इतर शब्दांपेक्षा तुलनेने वारंवार येतात. क्वान्टिटेटिव्ह लेक्सिकल अॅनालिसिसमध्ये वारंवार वापरले जाणारे शब्द शोधताना हा कचरा बाजूला केला जातो. (हे करण्याची शास्त्रीय पद्धत विषद करणारा एक पेपर आहे. लिंक सापडली की देतो.) हे न केल्यास रिझल्ट कचरा शब्दांच्या बाजूला स्क्यू होतो, आणि अर्थहीन बनतो. माझा असा दावा आहे की ऐसीवर "रोचक" हा शब्द नॉन कचरा टॉप २५ मध्ये यावा. (तसंच "बोव्हार" हा शब्ददेखील )
५. लेखक
एकातही माझा लंबर नाय? ह्या:!
_______________________
हे कसं करायचं ते मला शिकवाल का? किंबहुना तपशीलवार लेख लिहिलात तर फारच बरं होईल.
बादवे, हा सगळा विदा मॅन्युअली मिळवलात की तेही पायताणच करून देतं?
********
It is better to have questions which don't have answers, than having answers which cannot be questioned.
बोव्हार
हाण्ण!!! हसून हसून मेलेच.
बोव्हारसोबतच 'सेकंड सेक्स' हा
बोव्हारसोबतच 'सेकंड सेक्स' हा शब्दही टॉप २५ मध्ये यावा.
माहिष्मती साम्राज्यं अस्माकं अजेयं
+१ सुधारणा
+१
.
.
धागा क्वांटिटिव्ह बाबींबद्दल आहे, क्वालिटिटिव्ह निकषांवर नाही. नैतर ब्रूस ली ला ऑल टैम ग्रेट्ट म्हणतात. पण त्यानं मोजून आख्ख्या करिअर अम्ध्ये साडे चारच मोठे चित्रपट केले म्हणतात. गुरु दत्त ह्यांच्या पिच्चरची संख्याही फार नसावी. सुभाष गुप्ते फक्त पंचेचाळिस तेस्ट खेळले. पण त्यांनी अडीचशे का पावणेतीनशे(!!) विकेट्स घेतल्यात.
मॅराडोनानं एकच फुटबॉल चा विश्व अषक गाजवला, पण तो तयत जे खेळून गेला त्यात एकदम सार्वकालिक महान वगैरे अनला. त्यातही त्यानं प्रत्यक्षात आख्ख्या विश्व चषकात १९८६ला फक्त पाच गोल केले.त्याअच्यानंतरच्या काळात टॉपचे रोनाल्डो , वगैरे लोकांनी एका विश्वचश्कात त्याहून अधिक गोल केलेले आहेत. (आठ आठ गोल करणारे चार पाच तरी लोक असतील) पण आजही १९८६ बद्दल लोक "मॅराडोनाचा वर्ल्ड कप" असच म्हणतात. आणि त्याच्या खेळाला सर्वोत्तम.
.
.
सच्याची ग्रेटेस्ट इनिंग्ज आणी ग्रेटेस्ट पर्फॉर्मन्स/ फॉर्म म्हटला तर डेझर्ट स्टॉर्म ...१९९८ ऑस्ट्रेलिया विरुद्धचा शारजातला हैदोस आठवतो.
पण तेव्हाही सच्याने १४१ आणि १३४ अशा धावा काढलेल्या दोन लागोपाठ सामन्यात.
१४१ तर लोक येता जाता पार करुन जातात.
पण ती खेळी आजही इपिक आहे, क्रिकेट फोकलोर बनलेली आहे.
.
.
बाकी, ही बातमी समजली का, अलिकडे काय पाहिलत, अलिकडे काय वाचलत , मनातले लहान मोठे प्रश्न वगैरे धागे मोजले जाउ नयेत असं मला वाटतं, एखाद्याची धाग्यांची संख्या मोजताना किम्वा त्याला मिलालेले प्रतिसाद मोजताना.
तस्मात् निव्वळ संख्या का निकष असला की हे लोच्य होणारच.
आकडेवारीबद्दल -- शुचिचे सगळे आय डी एकत्रित मोजले तर आकडेवारी बदलू शकते.
शुचिचे सगळे आय डी एकत्रित
थांब आता मी एक प्रतिसाद दिला नव्हता तो देतेच तुला धडा शिकवतेच
आकडेवारीबद्दल -- शुचिचे सगळे
बायदवे, शुचिचे आयडी किती आणि कोणते, आणि प्रत्येक आयडीची नावं कशीकशी बदलत गेलेली आहेत याची आठवण शुचिला तरी आहे का असा प्रश्न पडतो.
आता नाही ना बदलत.
आता नाही ना बदलत.
analysis साठी python ही संगणक
रविभाऊ प्लिज तपशीलवार लिहाच.
चांगला अभ्यास
अंमळ हळवे होण्यात आले आहे.
बाकी,
या बरोबरच त्या त्या लेखनप्रकाराला (अॅव्हरेज) किती प्रतिसाद येतात हे ही पाहिलं तर जास्त योग्य मुल्यमापन होईल.
धाग्याची लांबी: प्रत्येक ओळ एक कॅटेगिरी करण्यापेक्षा ५० किंवा १०० ओळींची प्रतवारी केल्यास डेटा प्रेझेंटेबल होईल. (एकोळीस विशेष स्थान द्यायला हरकत नाही.)
विकली अॅक्टीव्हिटी मध्ये धागे आणि प्रतिसाद असे दोन्ही चार्ट ओव्हरले केल्यास पाहणे रोचक ठरेल.
दोन नविन गोष्टी, जरा अवघड पण तरीही, पहायला मजा येईल.
१. अ लेखक- ब प्रतिसादक अशी क्लस्टर्स पहायला मजा येईल. (थोडक्यात अ ने धागा काढला तर ब, क, ड पैकी किती जणांचे त्याला प्रतिसाद येतात?
२. धागाप्रकारानुसार प्रतिसाद: टॉप प्रतिसाद देणार्यांपैकी कोणते प्रतिसादक कोणत्या धाग्याप्रकाराला जास्त प्रतिसाद देतात. / टॉप प्रतिसाद पर धागा प्रकार.
३. श्रेणीपद्धतीचा डेटाही काढता येईल. टॉप श्रेण्या मिळणारे, त्यांना कोणत्या श्रेण्या बहुतेक करून मिळतात अन अजून डिटेल मध्ये गेल्यास टॉप श्रेण्या मिळणार्यांना धागा प्रकारानुसर कोणत्या श्रेण्या मिळतात वगैरे.
शेवटी काय अभ्यास कराल तेव्हढा थोडा, नाही का.
-Nile
हाफिसातून ग्राफ उघडत नव्हता.
हाफिसातून ग्राफ उघडत नव्हता. आता बघितला
योगदानाच्या यादीत पैला लंबर बघून अंमळ लाजल्या गेलेले आहे!
- ऋ
-------
लव्ह अॅड लेट लव्ह!
सर्वांचे प्रतिसादाबद्दल धन्यवाद
@ आदूबाळ
लोक वीकांताला शांतपणे बसून लिहितात आणि सोमवारी पोस्टतात असं दिसतंय. काही लोक शुक्र-रवि प्रतिसाद मिळत नाहीत म्हणून तयार लेखही सोमवारी टाकत असावेत.
तुमच्या निरिक्षणाशी सहमत .
दिवस कोणत्या वेळेनुसार ठरवला आहे? (जीएमटी, यूएसटी, भाप्रवे की आणखी काही?) त्यावरही आलेख बदलेल.
लेखाच्या सुरवातिला जो timestamp आहे त्यानुसा. विदा गोळा करताना login न करता केला आहे,अशावेळी timestamp कुठल्या timezone प्रमाणे दिसातो ? की नेहमी एकाच timezone प्रमाणे दिसातो.
लेखांची साधारण लांबी
हा आलेख नॉर्मल डिस्ट्रीब्यूशन पद्धतीने जास्त रुचला असता.
जसा विदा आहे तसाआलेख काढलेलाआहे, माझिही अपेक्षा अशिच होती की नॉर्मल डिस्ट्रीब्यूशन दिसेल. परंतु मोजणी करण्यासाठी जी script लिहिली होती त्यात शुन्य व एक, दोन / तीन , शब्दसंख्या असलेल्या लेखांची संख्याही बरिच आढळुन आली. परंतु लक्षपुर्वक पहाता काही ठिकाणी script काहि वेळेस बरोबर काम करत नाही व शुन्य मोजते अस आढळुन आलं. याच कारण माझ्या लक्षात आल नाही व सध्या अशा false counts ना डिस्ट्रीब्यूशन मधुन वगळणयात आलय. दोन / तीन शब्दसंख्या असलेल्या लेखांच निरिक्षण करता अस आढळुन आलं की खरच त्या लेखांमधे काहिच शब्द नाहियेत व सुरवातिस जे किवर्डस आहेत ते मोजाले जातायेत. हे लेख म्हनजे कदाचित ज्यांनी लेख काढुन टाकलेत किंवा account delete केलेत असे असावे. संपादक मंडळी याबद्दल सांगु शकतिल.
@Nile हो असे वेगवेगळे bins केले तर जरा बर दिसेल.
३. लेखणप्रकार
पायचार्ट?
हे माझ्या डोस्क्यातच आल नाही, हे करतो.
वारंवार वापरले जाणारे शब्द
याबद्दलही सहमत. व्यनिमधे चिंतातुर जंतू याच्याबरोबर झालेल्या चर्चेतही साधारण हिच सुचना मिळाली. फक्त कूठले शब्द वगळावे हे पक्के झाले की काम सोपे होइल. ती लिंक द्या. व ईतरही सुचना यासंदर्भात आल्या तर चालतिल.
लेखक
याबाद्दल केलेल analysis एकदम बाळबोध आहे. सहजासहजी जे आकडे मोजता येतिल ते मोजलेले आहेत.
मन१ यांनी व्यवस्थित विवचण केल आहे. व काय काय वगळाव हेही मान्य आहे.
सध्या फक्त लेखाची लांबी मोजली आहे. त्यात प्रतिसाद मोजले नाहियेत. तसेच 'वारंवार वापरले जाणारे शब्द ' मेधेही फक्त लेखातिल शब्द मोजले आहेत. प्रतिसादातिल शब्द मोजल्यास अस्सल मराठी आजा वरिल शब्द त्यात दिसुन यावेत.
बाकी Nile नी सुचवलेले analysis जरा अतिप्रगत categoryतले म्हणता येइल. त्यतल्या त्यात हे -"विकली अॅक्टीव्हिटी मध्ये धागे आणि प्रतिसाद असे दोन्ही चार्ट ओव्हरले केल्यास पाहणे रोचक ठरेल." करुन बघतो.
शेवटी काय अभ्यास कराल तेव्हढा थोडा, नाही का.
अर्थात.
मला वेब स्रेपिंग वर जरा हात साफ करायचा होता, त्यासाठी ही सगळी उठाठेव व पहिलाच प्रयत्न.
यात जेवढ काम करता येइल तेवढ करुन हव तर दुसरा / सुधारित भाग आठवडा पंधरा दिवसात टाकतो. व कोडबद्दलही (Python and libraries used) गोषवारा द्यायचा प्रयत्न करेल.
-रवि
-रवी
मस्तच
मस्तच हो. अण्णालिसिस एकदम आवडलं.
पहिला क्युम्युलेटिव ग्राफ वरखाली कसा काय होतोय?
आकडेबाजी आवडली.
आकडेबाजी आवडली. आदूबाळच्या सूचना/प्रश्नांना मम.
---
सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.