Skip to main content

ऐसी शब्द मोजणी

नमस्कार लोकहो,
मी सुरवातिपासुनच ऐसीचा वाचक आहे. कामनिमित्त बरेच वेळेस वेगवेगळया गोष्टिंच analysis आपण करत असतो. ईथे मी ऐसीच्या बाबतित प्राथमिक स्वरुपाच काही analysis केलेल आहे. तर ते एक-एक पाहुयात.

१) साप्ताहिक वाहतुक : ऐसीचा आतापार्यंतचा सर्व विदा एकत्रितपणे जर विचारात घेतला तर, दर दिवशी किती लेख लिहिले जातात, आठवडयात त्यात कसा बदल होतो. लोक सुट्टीच्या दिवशी जास्त लिहितात की कामाच्या याचा साधारण अंदाज आपण घेउ शकतो.

activity

२) लेखांची साधारण लांबी : एकोळी धागे तर आपल्याला नेहमिचे आहेतच , तसेच लांबच्या लांब धागेही ऐसीवर पचवले जातात. हा खालचा आलेख त्याबाद्दलच बोलतोय.
Article length distribution

३) लेखणप्रकार : प्रत्येक जत्रेत हौशे, गौशे आणि नवशे सगळे असतात. मराठी संस्थळांच्या बाबतित म्हनायच झाल तर , संस्थळ कविताप्रधान आहे की चर्चाप्रधान हे त्या त्या लेखणप्रकाराच किती लेखण झालय हे पाहुन ठरवाता याव. हा पुढचा आलेख त्याबद्दल.
topicwise_count

४) वारंवार वापरले जाणारे शब्द : प्रत्येक भाषेत काही शब्द वारंवार वापरले जातात. तर ऐसीवरचे हे २५ वारंवार वापरले शब्द.
25_most_frequent_words

५) लेखक : कुठल्या लेखकाच किती योगदान आहे हे जर मोजायच ठरलं तर कुणी किती लेख लिहिलेत, कुणी एकुण किती शब्द लिहिलेत किंवा कुणाला आत्तापरर्यंत किती प्रतिसाद मिळालेत हे मोजता येईल. हे खालील आलेख पहिल्या २५ लेखकांबद्दल.

top25_authors_article_count_wise

top25_authors_total_word_count_wise

top25_authors_total_comments_received_count_wise

या analysis मधे लेखांमधिल शब्द ग्राह्य धरण्यात आलेले आहेत. व analysis साठी python ही संगणक भाषा वापरणयात आलेली आहे.

-रवि

धाग्याचा प्रकार निवडा:

माहितीमधल्या टर्म्स

आदूबाळ Mon, 23/05/2016 - 15:36

लय भारी, रविभाऊ.

काही प्रश्न/सुचवण्या/निरीक्षणे

१. साप्ताहिक वाहतुक

- लोक वीकांताला शांतपणे बसून लिहितात आणि सोमवारी पोस्टतात असं दिसतंय. काही लोक शुक्र-रवि प्रतिसाद मिळत नाहीत म्हणून तयार लेखही सोमवारी टाकत असावेत.

- दिवस कोणत्या वेळेनुसार ठरवला आहे? (जीएमटी, यूएसटी, भाप्रवे की आणखी काही?) त्यावरही आलेख बदलेल.

२. लेखांची साधारण लांबी
हा आलेख नॉर्मल डिस्ट्रीब्यूशन पद्धतीने जास्त रुचला असता.

३. लेखणप्रकार
पायचार्ट?

४. वारंवार वापरले जाणारे शब्द
भाषेच्या बांधणीमुळे काही शब्द इतर शब्दांपेक्षा तुलनेने वारंवार येतात. क्वान्टिटेटिव्ह लेक्सिकल अ‍ॅनालिसिसमध्ये वारंवार वापरले जाणारे शब्द शोधताना हा कचरा बाजूला केला जातो. (हे करण्याची शास्त्रीय पद्धत विषद करणारा एक पेपर आहे. लिंक सापडली की देतो.) हे न केल्यास रिझल्ट कचरा शब्दांच्या बाजूला स्क्यू होतो, आणि अर्थहीन बनतो. माझा असा दावा आहे की ऐसीवर "रोचक" हा शब्द नॉन कचरा टॉप २५ मध्ये यावा. (तसंच "बोव्हार" हा शब्ददेखील ;) )

५. लेखक
एकातही माझा लंबर नाय? ह्या:! :(

_______________________

analysis साठी python ही संगणक भाषा वापरणयात आलेली आहे

हे कसं करायचं ते मला शिकवाल का? किंबहुना तपशीलवार लेख लिहिलात तर फारच बरं होईल.

बादवे, हा सगळा विदा मॅन्युअली मिळवलात की तेही पायताणच करून देतं?

adam Mon, 23/05/2016 - 17:42

In reply to by आदूबाळ

४. वारंवार वापरले जाणारे शब्द
भाषेच्या बांधणीमुळे काही शब्द इतर शब्दांपेक्षा तुलनेने वारंवार येतात. क्वान्टिटेटिव्ह लेक्सिकल अ‍ॅनालिसिसमध्ये वारंवार वापरले जाणारे शब्द शोधताना हा कचरा बाजूला केला जातो. (हे करण्याची शास्त्रीय पद्धत विषद करणारा एक पेपर आहे. लिंक सापडली की देतो.) हे न केल्यास रिझल्ट कचरा शब्दांच्या बाजूला स्क्यू होतो, आणि अर्थहीन बनतो. माझा असा दावा आहे की ऐसीवर "रोचक" हा शब्द नॉन कचरा टॉप २५ मध्ये यावा. (तसंच "बोव्हार" हा शब्ददेखील (डोळा मारत) )

+१ :)
.
.

५. लेखक
एकातही माझा लंबर नाय? ह्या:!

धागा क्वांटिटिव्ह बाबींबद्दल आहे, क्वालिटिटिव्ह निकषांवर नाही. नैतर ब्रूस ली ला ऑल टैम ग्रेट्ट म्हणतात. पण त्यानं मोजून आख्ख्या करिअर अम्ध्ये साडे चारच मोठे चित्रपट केले म्हणतात. गुरु दत्त ह्यांच्या पिच्चरची संख्याही फार नसावी. सुभाष गुप्ते फक्त पंचेचाळिस तेस्ट खेळले. पण त्यांनी अडीचशे का पावणेतीनशे(!!) विकेट्स घेतल्यात.
मॅराडोनानं एकच फुटबॉल चा विश्व अषक गाजवला, पण तो तयत जे खेळून गेला त्यात एकदम सार्वकालिक महान वगैरे अनला. त्यातही त्यानं प्रत्यक्षात आख्ख्या विश्व चषकात १९८६ला फक्त पाच गोल केले.त्याअच्यानंतरच्या काळात टॉपचे रोनाल्डो , वगैरे लोकांनी एका विश्वचश्कात त्याहून अधिक गोल केलेले आहेत. (आठ आठ गोल करणारे चार पाच तरी लोक असतील) पण आजही १९८६ बद्दल लोक "मॅराडोनाचा वर्ल्ड कप" असच म्हणतात. आणि त्याच्या खेळाला सर्वोत्तम.
.
.
सच्याची ग्रेटेस्ट इनिंग्ज आणी ग्रेटेस्ट पर्फॉर्मन्स/ फॉर्म म्हटला तर डेझर्ट स्टॉर्म ...१९९८ ऑस्ट्रेलिया विरुद्धचा शारजातला हैदोस आठवतो.
पण तेव्हाही सच्याने १४१ आणि १३४ अशा धावा काढलेल्या दोन लागोपाठ सामन्यात.
१४१ तर लोक येता जाता पार करुन जातात.
पण ती खेळी आजही इपिक आहे, क्रिकेट फोकलोर बनलेली आहे.

.
.

बाकी, ही बातमी समजली का, अलिकडे काय पाहिलत, अलिकडे काय वाचलत , मनातले लहान मोठे प्रश्न वगैरे धागे मोजले जाउ नयेत असं मला वाटतं, एखाद्याची धाग्यांची संख्या मोजताना किम्वा त्याला मिलालेले प्रतिसाद मोजताना.
तस्मात् निव्वळ संख्या का निकष असला की हे लोच्य होणारच.
आकडेवारीबद्दल -- शुचिचे सगळे आय डी एकत्रित मोजले तर आकडेवारी बदलू शकते.

.शुचि. Mon, 23/05/2016 - 20:02

In reply to by adam

शुचिचे सगळे आय डी एकत्रित मोजले तर आकडेवारी बदलू शकते.

थांब आता मी एक प्रतिसाद दिला नव्हता तो देतेच ;) तुला धडा शिकवतेच =))

राजेश घासकडवी Mon, 23/05/2016 - 21:05

In reply to by adam

आकडेवारीबद्दल -- शुचिचे सगळे आय डी एकत्रित मोजले तर आकडेवारी बदलू शकते.

बायदवे, शुचिचे आयडी किती आणि कोणते, आणि प्रत्येक आयडीची नावं कशीकशी बदलत गेलेली आहेत याची आठवण शुचिला तरी आहे का असा प्रश्न पडतो.

Nile Mon, 23/05/2016 - 19:52

अंमळ हळवे होण्यात आले आहे.

बाकी,

संस्थळ कविताप्रधान आहे की चर्चाप्रधान हे त्या त्या लेखणप्रकाराच किती लेखण झालय हे पाहुन ठरवाता याव. हा पुढचा आलेख त्याबद्दल.

या बरोबरच त्या त्या लेखनप्रकाराला (अ‍ॅव्हरेज) किती प्रतिसाद येतात हे ही पाहिलं तर जास्त योग्य मुल्यमापन होईल.

धाग्याची लांबी: प्रत्येक ओळ एक कॅटेगिरी करण्यापेक्षा ५० किंवा १०० ओळींची प्रतवारी केल्यास डेटा प्रेझेंटेबल होईल. (एकोळीस विशेष स्थान द्यायला हरकत नाही.)

विकली अ‍ॅक्टीव्हिटी मध्ये धागे आणि प्रतिसाद असे दोन्ही चार्ट ओव्हरले केल्यास पाहणे रोचक ठरेल.

दोन नविन गोष्टी, जरा अवघड पण तरीही, पहायला मजा येईल.

१. अ लेखक- ब प्रतिसादक अशी क्लस्टर्स पहायला मजा येईल. (थोडक्यात अ ने धागा काढला तर ब, क, ड पैकी किती जणांचे त्याला प्रतिसाद येतात?
२. धागाप्रकारानुसार प्रतिसाद: टॉप प्रतिसाद देणार्‍यांपैकी कोणते प्रतिसादक कोणत्या धाग्याप्रकाराला जास्त प्रतिसाद देतात. / टॉप प्रतिसाद पर धागा प्रकार.
३. श्रेणीपद्धतीचा डेटाही काढता येईल. टॉप श्रेण्या मिळणारे, त्यांना कोणत्या श्रेण्या बहुतेक करून मिळतात अन अजून डिटेल मध्ये गेल्यास टॉप श्रेण्या मिळणार्‍यांना धागा प्रकारानुसर कोणत्या श्रेण्या मिळतात वगैरे.

शेवटी काय अभ्यास कराल तेव्हढा थोडा, नाही का.

रवि Mon, 23/05/2016 - 22:20

@ आदूबाळ
लोक वीकांताला शांतपणे बसून लिहितात आणि सोमवारी पोस्टतात असं दिसतंय. काही लोक शुक्र-रवि प्रतिसाद मिळत नाहीत म्हणून तयार लेखही सोमवारी टाकत असावेत.
तुमच्या निरिक्षणाशी सहमत .

दिवस कोणत्या वेळेनुसार ठरवला आहे? (जीएमटी, यूएसटी, भाप्रवे की आणखी काही?) त्यावरही आलेख बदलेल.
लेखाच्या सुरवातिला जो timestamp आहे त्यानुसा. विदा गोळा करताना login न करता केला आहे,अशावेळी timestamp कुठल्या timezone प्रमाणे दिसातो ? की नेहमी एकाच timezone प्रमाणे दिसातो.

लेखांची साधारण लांबी
हा आलेख नॉर्मल डिस्ट्रीब्यूशन पद्धतीने जास्त रुचला असता.

जसा विदा आहे तसाआलेख काढलेलाआहे, माझिही अपेक्षा अशिच होती की नॉर्मल डिस्ट्रीब्यूशन दिसेल. परंतु मोजणी करण्यासाठी जी script लिहिली होती त्यात शुन्य व एक, दोन / तीन , शब्दसंख्या असलेल्या लेखांची संख्याही बरिच आढळुन आली. परंतु लक्षपुर्वक पहाता काही ठिकाणी script काहि वेळेस बरोबर काम करत नाही व शुन्य मोजते अस आढळुन आलं. याच कारण माझ्या लक्षात आल नाही व सध्या अशा false counts ना डिस्ट्रीब्यूशन मधुन वगळणयात आलय. दोन / तीन शब्दसंख्या असलेल्या लेखांच निरिक्षण करता अस आढळुन आलं की खरच त्या लेखांमधे काहिच शब्द नाहियेत व सुरवातिस जे किवर्डस आहेत ते मोजाले जातायेत. हे लेख म्हनजे कदाचित ज्यांनी लेख काढुन टाकलेत किंवा account delete केलेत असे असावे. संपादक मंडळी याबद्दल सांगु शकतिल.

@Nile हो असे वेगवेगळे bins केले तर जरा बर दिसेल.

३. लेखणप्रकार
पायचार्ट?

हे माझ्या डोस्क्यातच आल नाही, हे करतो.

वारंवार वापरले जाणारे शब्द
याबद्दलही सहमत. व्यनिमधे चिंतातुर जंतू याच्याबरोबर झालेल्या चर्चेतही साधारण हिच सुचना मिळाली. फक्त कूठले शब्द वगळावे हे पक्के झाले की काम सोपे होइल. ती लिंक द्या. व ईतरही सुचना यासंदर्भात आल्या तर चालतिल.

लेखक
याबाद्दल केलेल analysis एकदम बाळबोध आहे. सहजासहजी जे आकडे मोजता येतिल ते मोजलेले आहेत.
मन१ यांनी व्यवस्थित विवचण केल आहे. व काय काय वगळाव हेही मान्य आहे.

सध्या फक्त लेखाची लांबी मोजली आहे. त्यात प्रतिसाद मोजले नाहियेत. तसेच 'वारंवार वापरले जाणारे शब्द ' मेधेही फक्त लेखातिल शब्द मोजले आहेत. प्रतिसादातिल शब्द मोजल्यास अस्सल मराठी आजा वरिल शब्द त्यात दिसुन यावेत.

बाकी Nile नी सुचवलेले analysis जरा अतिप्रगत categoryतले म्हणता येइल. त्यतल्या त्यात हे -"विकली अ‍ॅक्टीव्हिटी मध्ये धागे आणि प्रतिसाद असे दोन्ही चार्ट ओव्हरले केल्यास पाहणे रोचक ठरेल." करुन बघतो.

शेवटी काय अभ्यास कराल तेव्हढा थोडा, नाही का.
अर्थात.

मला वेब स्रेपिंग वर जरा हात साफ करायचा होता, त्यासाठी ही सगळी उठाठेव व पहिलाच प्रयत्न.
यात जेवढ काम करता येइल तेवढ करुन हव तर दुसरा / सुधारित भाग आठवडा पंधरा दिवसात टाकतो. व कोडबद्दलही (Python and libraries used) गोषवारा द्यायचा प्रयत्न करेल.

-रवि

मिहिर Mon, 23/05/2016 - 22:57

मस्तच हो. अण्णालिसिस एकदम आवडलं.
पहिला क्युम्युलेटिव ग्रा‌फ वरखाली कसा काय होतोय?