'ह्या' लेखाने होईल तुमची दिवाळी साजरी!

#ललित #संसर्ग #ऐसीअक्षरे #दिवाळीअंक२०२०

'ह्या' लेखाने होईल तुमची दिवाळी साजरी!

- ३_१४ विक्षिप्त अदिती

मार्च महिन्यात करोना (Sars-Cov-2) विषाणूनं धुमाकूळ घालायला सुरुवात केल्यापासून 'क्वारंटाईन' हा शब्द आपल्या रोजच्या व्यवहारांचा भाग झाला आहे. ह्या शब्दाचं मूळ काय?

पूर्वी व्यापारी जहाजं बंदराला लागत असत. जगभर फिरून, तिथल्या जिवाणू-विषाणूंच्या संपर्कात येऊन जहाजावरचे खलाशी आजारी पडत. त्यामुळे गावात राहणारे लोक ह्या खलाश्यांचं स्वागत करायला उत्सुक नसत. तेव्हाच्या इटलीतल्या पद्धतीनुसार जहाज बंदराला लागलं, की क्वारांता दिवस म्हणजे चाळीस दिवस खलाशांना बंदरात, बोटीतच ठेवायचं आणि नंतरच गावात येऊ द्यायचं. त्या चाळीस दिवसांत फार आजारी पडलेले खलाशी मरूनच जात. जे जगायचे ते तोवर आजारी पडून का होईना, रोगमुक्त झालेले असत आणि त्यांच्यामुळे गावात रोगराई पसरत नसे. त्या 'क्वारांता' म्हणजे चाळीस दिवसांवरून शब्द आला क्वारंटाईन. (अधिक माहितीसाठी ह्याच दिवाळी अंकातला 'चौदाव्या शतकातील प्लेग' लेख पाहा.)

चाळीसच दिवस का, तर जिवाणू-विषाणूंमुळे रोग होतात, ते कसे पसरतात, त्यांवर लशी कशा बनवायच्या, त्यांवर औषधं कशी शोधायची, ह्याबद्दल कुठल्याही प्रकारचं शास्त्रीय ज्ञान लोकांकडे नव्हतं. त्याची शास्त्रीय परिभाषाही तयार झालेली नव्हती. 'बघलं-केलं-चाललं' अशा प्रकारची ती उपाययोजना होती. व्याकरणाशिवाय भाषा जशी तोडकीमोडकी वाटते, तसं ते वैज्ञानिक पद्धतीहीन 'शास्त्र' होतं. 'शास्त्र असतंय ते' म्हणून केलं.

समजा चाळीस दिवस क्वारंटाईन करायचं असेल, तर आता आधुनिक वैद्यकानुसार, शेवटच्या बंदरावरून निघाल्यापासून चाळीस दिवस क्वारंटाईन करून पुरेल. जहाज इप्सित स्थळी कधी पोहोचलं ह्याला फार महत्त्व नाही. आता करोना विषाणूसंदर्भात चौदा दिवस क्वारंटाईन करायला सांगतात; कारण विषाणूचा प्रभाव दिसण्यासाठी चौदा दिवस लागतात. ह्यूमन इम्यूनोडेफीशियन्सी व्हायरस किंवा एड्सच्या HIVचा प्रभाव दिसण्यासाठी सहा महिन्यांपर्यंत काळ जावा लागतो.

तेव्हाच्या लोकांना रोगराईमागचं विज्ञान आणि ठोस कारण समजलेलं नव्हतं. पण रोगराई कशी पसरू शकते, ह्याचं मानवी वर्तनाशी असलेलं साधर्म्य, correlation समजलं होतं.

सांख्यिकीमध्ये बरेचदा म्हणतात - correlation does not mean causation. साधर्म्य आहे म्हणून कार्यकारणभाव असेलच असं नाही.

correlation causation phd comic xkcd
xkcdवरचं संबंधित कॉमिक; प्रताधिकार(?) Wink

तुम्ही कधी लहान मुलांचं निरीक्षण केलं आहेत का? ज्या मुलांना मोठ्या आकाराच्या चपला लागतात त्या मुलांची शब्दसंपदा जास्त असते, ते जास्त गुंतागुंतीच्या कल्पना मांडू शकतात. चपलांचा आकार मोठा, तर भाषा जास्त समृद्ध. ह्या दोन्ही गोष्टींचा एकमेकांशी काहीही संबंध नाही, हे पुरेशा मोठ्या चपला वापरणारं पोरसुद्धा सांगू शकेल. पण हे correlation, साधर्म्य नाकारता येणं शक्य नाही, एवढी विदा (data) उपलब्ध आहे. चपलांचा आकार आणि समृद्ध भाषा ह्यांची संगती कशी लावणार? मोठ्या आकाराच्या चपला वापरणारी मुलं बहुतेकदा वयानं मोठी असतात. मोठ्या मुलांची भाषा लहान मुलांपेक्षा जास्त समृद्ध असते, ह्यात काही नवल नाही. चपलांचा आकार आणि भाषा ह्यांचा परस्परसंबंध लावताना मध्ये वय आलं की मग साधर्म्य का दिसतं, हे सहज समजतं. साधर्म्य दिसलं, ते साधर्म्य सिद्ध करायला पुरेशी विदा आहे म्हणून कारणपरंपरा असेलच असं नाही.

कारणपरंपरा योग्य नसेल, तर चपला आणि भाषा असा काहीच्या काही संबंध जोडला जाऊ शकतो. कारणपरंपरा समजली नाही, तरीही जुन्या काळातल्या इटलीतल्या लोकांनी रोगराई आणि विलगीकरण ह्यांचा योग्य संबंध लावला होता. मराठीत आपण म्हणतो ना, कावळा बसायला आणि फांदी तुटायला एकच गाठ पडली. (ह्याच अंकातला आणखी एक लेख पाहा - 'संसर्गाख्यान'. प्राचीन भारतीयांनी रोगराई आणि दैवतांच्या कोपाचा संबंध लावला होता; तो चुकला होता. युरोपीय आणि भारतीयांनी वेगवेगळे काढे पिऊन प्लेग बरे होतील, अशी संगती लावली होती, तीही चुकली होती.) कावळ्यामुळे फांदी पडली नाही, म्हणजे परस्परसंबंध असला तरी कार्यकारणभाव नाही, हे आपल्याला स्पष्ट माहीत असतं.

साधारण १०० वर्षांपूर्वी संख्याशास्त्रात दादा समजला जाणारा कार्ल पियर्सन ह्या मुद्द्यावर ठाम होता. दोन मोजमापांमध्ये साधर्म्य दिसलं, म्हणून ते मोजलं; पण त्याची कारणपरंपरा लावणं त्याला पटत नव्हतं. पियर्सनचं correlation coeffficient शोधण्याचं योगदान संख्याशास्त्रात मोठं आहे. ते आजही वापरलं जातं. पियर्सनचा शिक्षक होता फ्रान्सिस गॉल्टन. गॉल्टनलाही उत्क्रांतिशास्त्रात रस होता, डार्विनसारखाच. गॉल्टन हा डार्विनचा लांबचा भाऊ. त्यानं डार्विनकडून उक्रांतिशास्त्रात संशोधनाची प्रेरणा घेतली. गॉल्टनचंही उत्क्रांतीच्या संशोधनामध्ये मोठं योगदान आहे, पण त्याच्या वंशवादी आणि वर्गवादी सामाजिक धारणांमुळे झालेल्या घोडचुकांमुळे डार्विनला जसा मान आहे तसा काही गॉल्टनला मिळत नाही.

हल्ली सगळीकडे मशीन लर्निंग, डेटा सायन्स वगैरेंचा बोलबाला असताना तुम्ही कदाचित regression towards the mean ही संज्ञा ऐकली असेल. ती गॉल्टनची देणगी. मराठीत त्याला 'सुमारपणा किंवा सरासरीकडे वाटचाल' म्हणता येईल. गॉल्टननं आई-वडील आणि त्यांच्या मुलांच्या उंचीचा अभ्यास केला. आई-वडलांपैकी कुणी एक, किंवा दोघेही सरासरीपेक्षा बरेच जास्त उंच, किंवा बरेच जास्त बुटके असतील तरीही मुलं बऱ्याचदा (त्यांच्या वयाच्या मुलांमध्ये) सरासरी उंचीची असतात, असं त्याला दिसलं. आई-वडील फार उंच किंवा बुटके असले तरीही बरेचदा मुलं फार उंच किंवा बुटकी निघत नाहीत.

गॉल्टनचा दावा होता की, मुलांची उंची त्यांच्या आई-वडलांच्या गुणसूत्रांवर अवलंबून असतेच, शिवाय आजी-आजोबांवर आणि आणखी मागच्या पिढीतल्या पूर्वजांवरही अवलंबून असते. मग हा गट, ज्यांच्यावर मुलांची उंची अवलंबून असते, तो वंश, ‌वर्ण, वगैरेंचे धागे पकडले तर मोठामोठा होत जातो, 'शुद्ध' गट राहत नाही. तो गट छोटा राहिला की उंची जास्त होते; असा गॉल्टनचा समज होता. आपल्या भारतीय संदर्भात सांगायचं, तर आपल्याच जातीत, आणि त्याच तालुक्यात लग्नं केली, तर मुलं आणखी उंच होतील. जाती-धर्माबाहेर लग्न केलं तर उंची वाढणार नाही आणि ही गॉल्टनची मोठी चूक होती. गॉल्टनच्या डोक्यात तेव्हा फक्त ब्रिटिश उमराव वर्ग होता; उमराव वर्गानं आपसांत लग्नं करावीत, असे त्याचे विचार होते. त्याच्या ह्या वर्गवादी सामाजिक धारणांमुळे संशोधक म्हणूनही त्याचे उत्क्रांतीविषयक सिद्धांत पुढे चुकत गेले. आता आपण उत्क्रांतीचा प्रणेता म्हणून डार्विनला मानतो, आणि गॉल्टनचं (आड)नावही बहुतेकांना माहीत नसतं.

'सुमारपणाकडे वाटचाल' करण्याचं दुसरं उदाहरण बघू. गेली काही वर्षं आयपीएल चिकार नावारूपाला आली आहे. आयपीएलमध्ये खूप मोठ्या प्रमाणावर खेळाडू असतात. गेल्या वर्षी जो त्यात चमकला होता, तो ह्या वर्षीही तेवढाच चमकेल असं नसतं. बॅट्समन असो किंवा बॉलर. माणूस तोच, पण तो पहिल्या नंबरवर टिकूनच राहील ह्याची शाश्वती नसते. ह्याचं शास्त्रीय कारण नशिबाची साथ. होय, होय, नशिबाचा संबंध मी शास्त्रीय कारणाशी लावत्ये. हे सगळे खेळाडू अतिशय कसलेले आणि उत्तम ॲथलीट, खेळाडू असतात; त्यांचा व्यायाम, आहार, शिक्षण, इतर सगळ्या अडचणींमध्ये मिळणारी मदत, ह्या सगळ्या गोष्टी छाटछूट फरकाचा अपवाद वगळता सारख्याच असतात. म्हणून उरता उरतो तो नशिबाचा भाग. त्यात कुणी ह्या वर्षी जिंकला म्हणून पुढच्या वर्षी पुन्हा जिंकेलच, असं सांगता येत नाही. नाणेफेकीत आता छापा आला म्हणून पुढच्या वेळेस छापाच येईल असं नाही. हीच गोष्ट हवामानाच्या बाबतीत सांगितली, तर पटणं आणखी सोपं होईल. राज्यात काल सगळ्यांत जास्त पाऊस ज्या गावात पडला तिथेच, त्याच गावात आज सगळ्यांत जास्त पाऊस पडेल, असं नाही. आज शेजारच्या गावात सगळ्यांत जास्त पाऊस पडेल, किंवा शेजारच्या तालुक्यात सगळ्यांत जास्त पाऊस पडेल.

कुठल्या गावात सगळ्यांत जास्त पाऊस पडला ह्या ऐवजी, कुठल्या तालुक्यात, किंवा जिल्ह्यात सगळ्यांत जास्त पाऊस पडला असं मोजायचं ठरलं तर? पुरेसा मोठा भूभाग, प्रदेश घेतला तर तोच प्रदेश बराच काळ, सगळ्यांत जास्त पावसाचा दिसत राहील. गॉल्टनची चूक होती ती तीच, तो वर्गशुद्धी किंवा आपल्या संदर्भांनुसार जातीतच लग्नं, संततीचा विचार करत होता; त्यातून तो होता उमराव वर्गातला. तो वंशवादी ठरला, तेवढंच नाही तर विज्ञानातल्या मूलभूत संकल्पना म्हणूनही त्याची घोडचूक होत गेली. समाजातल्या मर्यादित वर्गापेक्षा पुरेसा मोठा समाज घेतला, तर त्यांत नेहमी खूप उंच लोक सापडत राहतील.

कुठल्याही समूहाची 'सुमारपणाकडे वाटचाल' होते ह्याचा प्रत्यक्षातला वापरही बघता येईल. शाळेतली हुशार मुलं आणखी पुढे गेली पाहिजेत म्हणून शिक्षक फार मेहनत घेतात. (आमच्या शाळेतही हे चालायचं.) ह्या सगळ्या हुशार मुलांच्या घरांत थोड्याफार फरकानं सारखी परिस्थिती होती. कौटुंबिक स्थैर्य, पालकांचं शिक्षण, मुलांची बुद्धिमत्ता, वगैरे. कुणाचा पहिला नंबर यायचा, कुणाचा दुसरा. पण त्यातही तोच नशिबाचा भाग येतो आणि हुशार मुलांना त्या तयारीचा फायदा मोठ्या प्रमाणावर होत नाही. ह्याउलट कमी मार्क मिळवणाऱ्या गटांतल्या मुलांना जास्त तयारीचा फायदा होतो; आणि ते सरासरीच्या आणखी जवळ येतात. हा झाला सांख्यिकी भाग. पण सामाजिक गुंतागुंतीचा विचार केला, तर असं दिसतं, की कमी मार्क मिळवणारे काही विद्यार्थी मुळात हुशार असतात; पण घरच्या परिस्थितीमुळे त्यांची क्षमता पुरेशी वापरली जात नाही. त्यांच्यावर थोडी जास्त मेहनत घेतली तर त्यांच्या मार्कांमधली प्रगती लक्षणीय असू शकते.

इंग्लिश विकिपीडियावर ह्या विषयाबद्दल गमतीशीर किस्सा आहे. विकिपीडियाचं भाषांतर करण्याचा धोका पत्करून मी ते लिहिणार आहे. कारण लेखाचा पुढचा मुद्दा तोच आहे.

मानसशास्त्रज्ञ डॅनियल काहनिमनला २००२ सालचा अर्थशास्त्राचा नोबेल पुरस्कार मिळाला. विमान चालवण्याचं प्रशिक्षण घेणाऱ्या वर्गाला तो 'प्रशंसा करण्याचं महत्त्व' सांगत होता. तिथे बरेच अनुभवी वैमानिक-शिक्षक होते. त्यांना काहनिमनचं म्हणणं अजिबात पटलं नाही. त्यांचं म्हणणं होतं की, कुणी फार छान विमान चालवतंय म्हणून त्यांची प्रशंसा करावी, तर पुढच्या वेळेस त्यांनी अगदीच ढोबळ, फुटकळ गोष्टींत चुका केल्या. आणि कुणी अगदी वाईट विमान चालवलं म्हणून त्यांच्यावर चिकार आगपाखड केली, तर त्यांच्यात पुढच्या वेळेस खूप सुधारणा दिसली. त्यांचा त्यावर दावा होता, की प्रशंसा केल्यामुळे विद्यार्थी शेफारले आणि त्यांनी चुका केल्या; आणि टीका केल्यामुळे विद्यार्थी सुधारले.

मग काहनिमननी तिथेच प्रयोग केला. लोकांना दोन नाणी दिली आणि नाणं जिथे पडायला पाहिजे त्या लक्ष्याकडे पाठ करून उभं केलं. पहिलं नाणं लक्ष्याच्या किती जवळ किंवा लांब पडलं, ते बघायचं आणि मग दुसरं नाणं फेकायचं. ज्यांचं पहिलं नाणं लक्ष्याच्या जवळ पडलं होतं, त्यांच्या दुसऱ्या प्रयत्नातल्या चुका खूपच मोठ्या होत्या. उलट ज्यांचा पहिला प्रयत्न अगदी फसला होता त्यांचा दुसरा प्रयत्न बराच जास्त यशस्वी झाला. ह्यात कुणी काही प्रशंसा किंवा टीका केली नव्हती, पण आपला प्रयत्न किती यशस्वी झाला, किंवा फसला हे लोकांना आपापलं दिसलं होतं. पहिल्या प्रयत्नात यशस्वी झालेले आणि सपशेल चुकलेले, अशा दोन्ही प्रकारच्या लोकांची 'सुमारपणाकडे वाटचाल' झाली होती. प्रशंसा किंवा टीका केल्यामुळे लक्ष्यवेधावर काही परिणाम झाला नव्हता, इतरांनी प्रशंसा करण्याचा काही संबंधच नव्हता. वरवर दिसताना मात्र असं दिसतं, की प्रशंसा केल्यामुळे लोक शेफारले आणि टीका केल्यामुळे सुधारले.

किनकक्स गॉल्टनचं यंत्र
गॉल्टननं काढलेलं 'बीन मशीन'चं चित्र

समजा असं एखादं यंत्र आहे. त्यात अध्येमध्ये छोटे, खुंटीसारखे अडथळे आहेत, आणि त्यांतून जाऊ शकणारे छोटे दाणे वरून टाकले. तर दाण्यांच्या राशीचा आकार कसा होईल ते सगळ्यात खाली डाव्या बाजूला दिसत आहे. त्या आकाराला normal distribution असं नाव आहे. ह्या यंत्राला गॉल्टनचा बोर्ड किंवा किनकन्स (quincunx) असं नाव आहे. ह्या यंत्रात दाणे वरून टाकताना फक्त मध्येच टाकले नाहीत, सगळीकडे टाकले, तरीही मध्ये खुंट्यांवर आपटून दाण्यांचा मार्ग बदलतो, आणि मधोमध जास्त दाणे गोळा होतात. हीच ती 'सुमारपणाकडे वाटचाल'. ह्या यंत्राची रचना करणाऱ्या गॉल्टननं वापरलेला शब्द - regression किंवा मराठी शब्द सुमारपणा - चूक आहे. पण regression हा शब्द आता एवढा रुळला आहे, आणि सध्याच्या विदाविज्ञानाच्या (data science) जगतात कळीचा आहे की त्यातला हिणवण्याचा भाव बहुतेकदा गळून जातो. (किंबहुना प्रत्यक्षात regression models वापरली तर प्रारूपं (models) ठरावीक निर्णय कसे घेतात, हे समजून घेता येतं; ते समजणं महत्त्वाचं असतं तेव्हा ही प्रारूपं मोठ्या प्रमाणात वापरली जातात.)

आपण काही केलं म्हणून काही फरक पडला का, असा प्रश्न विचारून, त्यासाठी खास प्रयोग करून विदा गोळा केल्याशिवाय कारणपरंपरा सिद्ध होत नाही. मोठ्या चपला घालणाऱ्या मुलांना जास्त शब्द माहीत असतात; आणि चाळीस दिवस खलाश्यांना बंदरातच ठेवल्यावर रोगराई पसरत नाही ह्या दोन्ही उदाहरणांमध्ये नेमके प्रयोग करेस्तोवर कारणपरंपरा समजलेली नव्हती.

आता पुन्हा कार्ल पियर्सन. दोन गोष्टींचा परस्परसंबंध किती, हे मोजण्यासाठी कारणपरंपरा समजण्याची गरज नाही. पियर्सननं परस्परसंबंध मोजण्याचं गणिती समीकरण मांडलं; आणि त्याला पियर्सनचा परस्परसंबंध गुणांक (Pearson Correlation Coefficient) म्हणतात. ह्या मोजमापांतून कारणपरंपरा वगळली, की गणितं करायला काहीच अडचण नसते.

त्याच्या विचारसरणीमुळे एकोणिसाव्या शतकाच्या पूर्वार्धात, कुठल्याही दोन गोष्टींत असं साधर्म्य दिसलं, तरी परस्परसंबंध लावण्याचं काम कठीण झालं होतं. त्याचा फायदा तंबाखू, सिगरेट विकणाऱ्या कंपन्यांनी करून घेतला होता. १९४०-५०च्या दशकांमध्ये सिगरेट ओढणं आणि फुफ्फुसाचा कर्करोग ह्यांचा परस्परसंबंध लावला जात होता. सिगरेट ओढल्यामुळे फुफ्फुसांमध्ये काळा थर, टार जमा होतो, ह्याची निरीक्षणं होती. त्या टारमुळे कर्करोग होतो. मुलांच्या चपलांचा आकार आणि किती शब्द माहीत आहेत, ह्यात मध्ये वय आलं, की लगेच आपल्याला हे निरीक्षण पटतं. तेव्हा अनेक डॉक्टर, संख्याशास्त्रज्ञांना फार कष्ट करून पटवून द्यावं लागलं की, सिगरेटमुळेच टार जमा होतो आणि टारमुळेच कर्करोग होतो.

सिगरेट ओढणाऱ्या लोकांत कर्करोग खूप मोठ्या प्रमाणावर दिसत होता. तरीही सिगरेट ओढल्यामुळेच कर्करोगाचं प्रमाण वाढतं, हे संशोधकांनी सहजासहजी मान्य केलं नव्हतं. आज आपण ही गोष्ट गृहीत धरतो. प्रस्थापित आकलनाच्या विरोधात जाऊन, प्रस्थापित शास्त्रज्ञांच्या मतांच्या विरोधात जाऊन इतर काही शास्त्रज्ञांनी हे साधार सिद्ध केलं. हे पटवून देणाऱ्यांतले आघाडीचे काही संख्याशास्त्रज्ञ स्वतः चिकार सिगरेट ओढत असत. तंबाखू-सिगरेट कंपन्यांना माघार घ्यावी लागली. आता सिगरेटच्या पाकिटांवर 'धूम्रपानामुळे कर्करोग होतो' असं छापण्याची सक्ती केली जाते. आणि आपण ही गोष्ट शाळेत शिकतो.

फक्त सनसनाटीकरता 'हे' केलं.

ह्या सगळ्याचा लेखाच्या शीर्षकाशी काय संबंध? पुढच्या दोन वाक्यांपैकी कुठलं वाक्य अधिक आकर्षक वाटतं :
१. ह्या सगळ्याचा लेखाच्या शीर्षकाशी काय संबंध?
२. ह्या सगळ्याचा लेखाच्या शीर्षकाशी संबंध 'असा' आहे.

हल्ली वर्तमानपत्रांमधल्या बातम्यांची शीर्षकं ह्या लेखाच्या शीर्षकासारखी असतात; आणि त्यावर फेसबुकवर मराठी जनांत बऱ्यापैकी चर्चा सुरू असते. किमान माझ्या मैत्रयादीतल्या लोकांमध्ये. तुम्ही आणि तुमच्या मैत्रिणींनी 'बझफीड' नावाच्या साइटवर कसल्याकसल्या प्रश्नावल्याही सोडवल्या असणार: तुम्ही चेटकीण आहात का सुपरहीरो; तुम्ही 'हे' खात असाल तर तरुण आहात, वगैरे. बझफीड ह्या अमेरिकी संस्थळानं ह्या-हा-हे वगैरे प्रकाराची सुरुवात केली. 'कंगना राणावतला ही चूक पडली महागात', किंवा 'अर्णब गोस्वामी रोज सकाळी हे खातो', असला ह-हा-हि-ही प्रकार केला तर लोक अशा बातम्या जास्त उघडतात असं बझफीडच्या लक्षात आलं. अशा शीर्षकांसाठी इंग्लिश शब्द आहे clickbait; आपण क्लिक करावं म्हणून आमिष दाखवल्यासारखं शीर्षक देणं. जास्त लोकांनी त्यांच्या पानांवर क्लिक केलं, तर त्यांना जाहिरातदारांकडून जास्त उत्पन्न मिळणार असा तो सरळ हिशोब होता. बझफीडनं किती सनसनाटीमुळे किती उत्पन्न वाढतं, अशा प्रकारची गणितंही केली. हे सगळं अमेरिकेत. इंग्लिश वाचणाऱ्या अमेरिकी समाजासाठी.

मराठी वर्तमानपत्रांनी त्यांची सनसनाटी शैली तेवढी उचलली असावी; कारण त्यासाठी ज्या प्रकारची विदा लागेल ती मराठी वर्तमानपत्रांनी गोळा केल्याचं वरवरच्या चौकशीत सापडलं नाही. (मराठी दैनिक 'लोकसत्ता'कडे चौकशी केली.) एवढंच नाही, तर करोनाकाळात कडक लॉकडाउन असताना, वरवरच्या बातम्या, आणि इपेपर बघूनच लक्षात आलं, की मराठी वर्तमानपत्रांचा उत्पन्नाचा मुख्य स्रोत छापील आवृत्ती आहे. छापील आवृत्ती काही काळ बंद ठेवायला लागल्यावर मराठी वर्तमानपत्रांमधल्या जाहिराती कमी झाल्या; आणि अनेक वृत्तपत्रांमधल्या पत्रकारांच्या नोकऱ्याही त्याच काळात गेल्या.

मराठी लोक अशा प्रकारची सनसनाटी असणाऱ्या बातम्या जास्त उघडतात; आणि त्यातून जास्त पैसे मिळतात, अशा प्रकारची विदा गोळा करणं शक्य आहे. कुणी ते खरोखरच केलेलं आहे, ह्याचा तपास मात्र लागत नाही. मराठी आणि अमेरिकी समाज एकाच प्रकारच्या वृत्तपत्रीय सनसनाटीचा ग्राहक आहे, हे गृहीतक आहे.

शीर्षकासकट लेखाचा हा भाग फक्त सनसनाटीकरता लिहिला आहे.

'ब्लॅक लाईव्ह्ज मॅटर' आणि भारतात?

काही महिन्यांपूर्वी अमेरिकेत, पुन्हा एकदा, 'Black Lives Matter'चं आंदोलन चर्चेत आलं. पोलिसांनी अटक करताना काही काळ्या लोकांचा मृत्यू झाला. त्यांपैकी एक, जॉर्ज फ्लॉइडशी पोलिस किती क्रौर्यानं वागले, हे एका तिऱ्हाईतानं केलेल्या रेकॉर्डिंगमुळे जगजाहीर झालं आणि हे आंदोलन पुन्हा भडकलं. भारतातही त्याचे पडसाद उमटले. हाथरसच्या प्रकरणानंतर भारतात पुन्हा 'दलित लाईव्ह्ज मॅटर' हा हॅशटॅग थोडा दिसला.

ह्या वर्षी (२०२०च्या) जूनमध्ये आयबीएम, मायक्रोसॉफ्ट आणि ॲमेझॉननं जाहीर केलं, की कृत्रिम प्रज्ञा (artificial intelligence) वापरून चेहरे ओळखण्याचं तंत्रज्ञान ते (अमेरिकेत) स्थानिक किंवा राज्य पोलिसांना विकणार नाहीत. हे त्यांनी आपलं मूल्य म्हणून केलं की फक्त आपली प्रतिमा जपण्यापुरतं केलं ह्याबद्दल अनेकांना संशय आहे. कारण काही का असेना, आपल्या तंत्रज्ञानाचा वापर आंदोलकांविरोधात करण्यासाठी त्यांनी नकार दिला आणि त्यातून काळ्या आंदोलकांना, चळवळींतल्या कार्यकर्त्यांना दिलासा मिळाला. पण तो पुरेसा नाही. कारण कट्टर उजव्या विचारसरणीच्या लोकांकडे ताबा असणाऱ्या क्लियरव्ह्यू ह्या कंपनीकडेही चेहरे ओळखण्याचं तंत्रज्ञान आहे. ते तंत्रज्ञान त्यांनी अनेक शहरांमध्ये पोलिसांना दिलेलं आहे. आणि पोलिसांच्या मनांत काळ्या लोकांबद्दल संशय आहे.

अमेरिकेत पोलिसांच्या हातून मरणाऱ्या लोकांत काळ्या लोकांचं प्रमाण गोऱ्या लोकांच्या दुप्पट आहे. काळ्या लोकांवर पोलिस अधिक प्रमाणात पाळत ठेवून असतात. नव्वदच्या दशकात न्यू यॉर्क शहरात 'स्टॉप अँड फ्रिस्क' म्हणजे कुणालाही थांबवून तपासणी करण्याचा कायदा काढला होता. त्या काळात तिथल्या गुन्ह्यांचं प्रमाणही कमी झालं. ते नक्की का कमी झालं, हा प्रश्न निराळा. त्यात गौरेतर लोकांची, विशेषतः काळ्या (आणि हिस्पॅनिक) तरुणांची तपासणी करण्याचं प्रमाण खूप जास्त होतं. काळ्या लोकांत पोलिसांबद्दल अविश्वास असण्याचं आणि ते वाढण्याची बरीच कारणं आहेत, त्यांतलं हे एक.

आणि इथे डॅनियल काहनिमनचा प्रयोग महत्त्वाचा आहे. त्या वैमानिक-शिक्षकांना असं वाटत होतं, की आपल्या दटावणीमुळेच मागे पडणारे विद्यार्थी सुधारले. प्रत्यक्षात दटावण्याचा (वा प्रशंसेचा) काही संबंधच नव्हता. तो नशिबाचा भाग होता. कितीही कसलेली व्यक्ती असली, तरी चुका होतातच. काळ्या लोकांना थांबवून त्यांची तपासणी घेतली म्हणून गुन्हे कमी झाले नाहीत; मात्र त्या काळात तशी विधानं केली जात होती.

अमेरिकेत काळ्या लोकांबद्दल (आणि भारतात खालच्या जातीतल्या लोकांबद्दल) समाजमन अजूनही कलुषित आहे. 'हे लोक असलेच' असं मानण्याचं प्रमाण उच्चवर्णीयांमध्ये कमी नाही. (आठवा, दलितांचे जीव गेल्यावर झालेल्या आंदोलनांमध्ये मालमत्तेची हानी झाली तर उच्चवर्णीयांची प्रतिक्रिया त्या मालमत्ताहानीबद्दल असते. जिवीतहानीशी तुलना करता मालमत्तेची हानी कमी आहे, अशा प्रतिक्रिया दिसत नाहीत.) आपल्याला आलेला संशय योग्य का अयोग्य, असे प्रश्न सहसा कुणी विचारत नाहीत. त्यामुळे न्यू यॉर्क शहरात काळ्या (आणि हिस्पॅनिक) लोकांना थांबवून त्यांच्या तपासण्या जास्त झाल्या, तसंच त्यांच्यावर नजर ठेवण्याचं प्रमाणही बरंच जास्त आहे.

'प्रोपब्लिका' ह्या ना-नफा तत्त्वावर चालणाऱ्या (अमेरिकी) संस्थेला संशोधनातून दिसलं की काळ्या लोकांवर व्यवस्था बराच जास्त अन्याय करते. तुरुंगातून कुणाला लवकर (पॅरोलवर) सोडावं, ह्यासाठी जी काही विदाधारित (data based) व्यवस्था सुरुवातीला निर्माण केली होती, तीत काळ्या लोकांना सोडण्याचं प्रमाण बरंच कमी होतं; आणि लवकर सोडलेल्या लोकांपैकी गोऱ्या लोकांत पुन्हा गुन्हे (recidivism) करण्याऱ्यांचं प्रमाण काळ्या लोकांपेक्षा जास्त होतं. म्हणजे गोऱ्या गुन्हेगारांना ते गोरे असल्यामुळे जास्त क्षमाशीलता दाखवली होती. पुन्हा एकदा, गुन्ह्याची शिक्षा भोगताना पॅरोलवर सोडलेल्या लोकांमध्ये गोऱ्या लोकांत पुन्हा गुन्हे करण्याचं प्रमाण जास्त होतं. व्यवस्थेनं गुन्हेगारी वृत्ती कुणात अधिक आहे, ह्याची चुकीची भाकितं केली होती; आणि त्यात काळ्या लोकांवर अन्याय केला.

पुढे तर एका राज्यात, ही व्यवस्था कुठल्याशा एक्सेल फाइलवर चालवली जाते आणि त्या फायलीतच घोटाळा असल्याचं लक्षात आलं होतं. 'प्रोपब्लिका'च्या आणखी एका अहवालानुसार समान गुन्ह्यासाठी काळ्या लोकांना गोऱ्या लोकांपेक्षा जास्त कडक शिक्षा होते, अधिक सहजरीत्या देहदंड होतो. कारण? पूर्वग्रह. मोठ्या-चपला-जास्त-शब्द.

अशात लोकांवर नजर ठेवण्याचं, कायदा आणि सुव्यवस्था राखण्याचं काम पोलिसांसाठी सोपं करण्यासाठी न्यायव्यवस्थेच्या खालच्या किंवा प्राथमिक पातळीवर विदाविज्ञान (डेटा सायन्स) वापरण्याचं प्रमाण अमेरिकेत वाढतं आहे. विदाविज्ञानात मुळात विदा जर एका समाजाच्या विरोधात असेल, तर निकालही त्या समाजाच्या विरोधात येण्याची शक्यता खूप जास्त असते. समजा ठरावीक प्रकारच्या नोकरीत पुरुषांचं प्रमाण जास्त असल्याची विदा मुळात उपलब्ध आहे, आणि पुढच्या नोकऱ्यांमध्ये कुणाला मुलाखतीसाठी बोलवावं, किंवा नोकऱ्या कुणाला द्याव्यात ह्यासाठी विदेचा, सरधोपट विदाविज्ञानाचा आधार घेतला तर त्यातही पुरुषांचं प्रमाण जास्त असेल. माझी एक मैत्रीण अशा प्रकारच्या प्रश्नावर काम करत होती. नोकरीचे अर्ज वाचून त्यातून नोकरीसाठी योग्य लोकांची यादी करण्याऱ्या सॉफ्टवेअरसाठी विदाविज्ञानाचं प्रारूप ती लिहीत होती. तिचं म्हणणं होतं की अर्जात अर्जदार व्यक्ती स्त्री आहे, का पुरुष, का कसं हे लिहिलेलं नसलं तरीही लोक कुठे शिकले आहेत, काय विषय शिकले आहेत, त्यांचे छंद ह्यांवरूनही अर्जदार स्त्री आहे का पुरुष ह्याचा अंदाज अल्गोरिदम लावू शकतं. आणि मूळ विदेनुसार अल्गोरिदम पुरुषांचे अर्ज प्राधान्यानं निवडत होतं.

(अवांतर : ही चर्चा आमच्यांत झाली तेव्हा आम्ही 'Women in Data Science' नावाच्या गटाच्या मिटींगसाठी भेटलो होतो. ह्या गटात अशा प्रकारचे सामाजिक भेदभाव, अन्याय, आणि ते कमी करण्यासाठी विदाविज्ञान काय प्रकारानं वापरता येईल, असे विषय आम्ही अधूनमधून चर्चेसाठी निवडतो. विदाविज्ञानावर चर्चा करणाऱ्या इतर काही स्थानिक गटांमध्ये मी जाते; तिथे सामाजिक अन्याय वगैरे विषय तोंडीलावण्यापुरतेही चर्चेला येत नाहीत. तिथे जमणाऱ्या लोकांत बहुसंख्य लोक गोरे आणि स्ट्रेट पुरुष असतात.)

समाजातले असे कल समोर येतात, ते बहुतेकदा त्या-त्या समाजगटांतले लोक वरच्या पदांवर चढतात आणि त्यांना साथ देणारे काही लब्धप्रतिष्ठित (privilged) गटातले म्हणजे गोरे किंवा भारताच्या बाबतीत उच्चवर्णीय जागरूक असतात म्हणून. ह्या लेखातल्या शेवटच्या मुद्द्यात मला भारतातली उदाहरणं लिहायला आवडलं असतं. भारतात खालच्या जातींचे किती लोक खासगी कंपन्यांत मोठ्या हुद्द्यांवर काम करतात ते लिहिणं महत्त्वाचं ठरलं असतं. पण अमेरिकेबद्दल जशी ही माहिती सहज उपलब्ध असते, तशी भारताबाबत ही माहिती उपलब्ध नाही. भारतात उच्चवर्णीयांनी किती प्रमाणात हाथरसबद्दल आक्रोश केला? खासगी कंपन्यांमध्ये अल्पसंख्याक गटांतल्या लोकांना पुढे जाता यावं ह्यासाठी किती उच्चवर्णीय जागरूक असतात? माहीत नाही.

खालच्या जातीतल्या मुलांना व्यावसायिक शिक्षणासाठी प्रवेश मिळाला, की लगेच 'आरक्षण' असा मुद्दा कोणी तरी काढतातच. ह्या मुलांची खरोखर शैक्षणिक पात्रता काय वगैरे तपशील बघण्यात कुणालाही रस नसतो; आणि मुळात आरक्षणाची गरजच का आहे, वगैरे मूलभूत प्रश्न विचारलेही जात नाहीत. सनसनाटी तेवढी चालते.

मराठी वर्तमानपत्रांनी कदाचित त्यांच्या सनसनाटीचा किती फायदा होतो हे पैशांत मोजलेलं नसेल. पण त्यांना ते मोजण्याची गरजही नसेल. (मोजली तर मात्र तिचा भाषेच्या दृष्टिकोनातून कल्पक वापर कसा करायचा आणि त्यातून नवीन काही कसं निर्माण करता येईल, ह्याचा विचार कदाचित सोपा होईल.)

'द अटलांटिक'मध्ये मी हा लेख वाचला तेव्हा सदर लेखाबद्दल विचार सुरू केला. पण भारताबद्दल अशा प्रकारचे अहवाल सहज मिळाले नाहीत.

'क्वारंटाईन' शब्दाच्या व्युत्पत्तीचा संदर्भ न्यू यॉर्करच्या लेखात मिळाला - Pandemics and the Shape of Human History

field_vote: 
0
No votes yet

प्रतिक्रिया

विदाविज्ञानात मुळात विदा जर एका समाजाच्या विरोधात असेल, तर निकालही त्या समाजाच्या विरोधात येण्याची शक्यता खूप जास्त असते.

डेटा सायंस मध्ये हिच एक मोठी गोची आहे. एक्सपिरियन्स डेटा, कँटेगाराईज्ड डेटा प्रभावित करता येऊ शकतो. त्यामुळे वेगवेगळ्या एकसारख्या प्रॉब्लेम्ससाठी नवी मॉडेल्स विकसित झाली तर आऊटपुट एक्युरेसी वाढेल. काहीवेळेस एकसुरी मॉडेलचे इम्प्लिमेंटेशन केले जाते.

"ब्लँक व्हर्सेस व्हाईट"वर लिहिलेले मुद्दे पटण्यासारखे आहेत. भारतात म्हणाल तर हिंदू व्हर्से मुस्लिम किंवा सवर्ण व्हर्सेस दलित साठी बऱ्यापैकी लागू होतात आपण मांडलेले मुद्दे.

खूप मागे एकदा भारतात अवैध तस्करीक्षेत्रात मुस्लिम समाजातील तरुण जास्त सापडतात वगैरेबद्दल वाचले होते. त्याचा सूर प्रत्येक मुस्लिम तस्कर नसतो मात्र अवैध तस्करीत मुस्लिम तरुण जास्त सापडतात असा काहीसा अनुमान काढला होता. तशाच धाटणीच्या एका लेखात भारतातील अतिरेकी कारवाईत मुस्लिम समाजातील तरूणच का सापडतात यावर काथ्याकूट केला होता. त्यावेळी जी उदाहरणे घेतली होती ती अशीच एकसुरी पठडीतील घेऊन मुद्दे मांडलेले होते.
तसाच काहीसा प्रकार दलित लोक लो प्रोफाइल नोकरीच्या क्षेत्रात जास्त आढळतात वगैरे पटवून देण्यासाठी मुळातच लो प्रोफाइल जॉब्ज ची उदाहरणे दिलेली होती. म्हणजेच उदाहरणे किंवा एक्सपिरियन्स डेटा किंवा कँटेगाराईज्ड डेटा जसा निवडला जाईल तसेच अनुमान काढले जातात. असो.

बकी लेख आवडला.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

----------------------------------
शंभरातील नव्व्याणव गेल्यावर राहतो तो एक खवचट तुच्छतावादी
मी एक एकटा एकलकोंडा गुरफटलेल्या कोसल्यातून बाहेर पडणारा

लेख आवडला पण काही संकल्पना समजून घेण्यासाठी दोनदा वाचाव्या लागल्या. लेख वाचल्यावर आपणही कसे झापडं लावून त्याच चुका करत होतो ते जाणवलं.
असेच माहितीपूर्ण लेख, वर्षातल्या इतर महिन्यांतही वाचायला मिळु देत, ही सदिच्छा!

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

आता उरलो केवळ
स्मायलीपुरता.

उत्तम लेख. Golten bean मशीन, normal distribution मधल्या सिग्मा curve सदृश दिसत आहे. 6सिग्मा शिकताना. यासंदर्भात काही गेल्याच स्मरत नाही

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

वा! काही काही गोष्टी मला फार छान समजल्या कारण रोजच्या कामात वापरल्या जातात. For example, normal distribution and regression.
I had also read a long piece about the drawbacks of using AI when the existing data has a bias. I forgot which newspaper it was.
आणि हा लेख माहितीपूर्ण आहेच. पण मला तुझ्या मराठी प्रतिशब्द संपदेचं कौतुक करायचं आहे. You don't ever seem to be short of words. Blum 3

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

'लेख लांबला' हे सांगण्याची पद्धत आवडली आहे. Tongue पुढच्या वेळी वापरण्यात येईल.

कुठलीही वैज्ञानिक संकल्पना रोजच्या, ओळखीच्या उदाहरणांवरून मांडता आली, तरच मला ती पूर्ण समजल्यासारखं वाटतं. तोवर त्याबद्दल लिहिणं कठीण वाटतं, विशेषतः मराठीत आणि बहुसंख्य लोकांसाठी.

  • ‌मार्मिक0
  • माहितीपूर्ण1
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

थोडक्यात काय तर आर्टिफिशियल इंटेलिजन्सला शिकवायला लागणारा डेटा इंटेलिजंटपणे दिला नाही की सगळं मुसळ केरात जातं.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी1
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

किंवा आलेल्या निकालांचा अर्थ लावताना बुद्धी वापरली नाही तरीही...

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

विशेषत: शेवटी जे नोकरी-अर्जांविषयी सांगितलेस, की निष्कर्षांत जास्त अचुकता आणण्यासाठी जास्त व्यापक डेटाची गरज आहे...
ह्या विषयावर मागे एकदा वाचले होते, ते आठवले- की ए-आय ने दवाखान्यातल्या डेटावरून अतिशय चुकीचे निष्कर्ष काढले, कारण दवाखान्यात केवळ आजारी लोकांचाच डेटा होता, तोच त्यांनी मशीनला खाऊ घातला Smile

हा व्हिडीओ मी माझ्या विद्यार्थ्यांना दाखवते, confused causation बद्दल.
https://youtu.be/8HLtFv_KqoE

दक्षिणेकडे पाय करून झोपण्याबद्दल काही डेटा उपलब्ध आहे का? Smile भारतातून, आणि पूर्वामेरिकेतून दक्षिणध्रुव किती दूर आहे, यावर ते अवलंबून आहे का? मला वाटते, सर्वात आधी हे समज 'पुराव्याने शाबित करायचा' प्रयत्न करावा.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

विशेषत: शेवटी जे नोकरी-अर्जांविषयी सांगितलेस, की निष्कर्षांत जास्त अचुकता आणण्यासाठी जास्त व्यापक डेटाची गरज आहे...

थोडं तांत्रिक भाषेत बोलायचं तर हा imbalanced dataset आहे. एरवी हा imbalance नोकरी द्यायची का नाही, ह्याबद्दल असतो. म्हणजे अर्ज आलेले असतील त्यांपैकी २-४% निवडले जातील, असा. पण इथे सामाजिक असमतोल आहे; म्हणजे २-४% निवडण्याचा असमतोल आहेच; शिवाय निवडलेल्यांत स्त्रियांचं प्रमाण अनैसर्गिकरीत्या कमी असणं निराळं. आधीचा असमतोल समान करण्यासाठी गणिती पद्धती आहेत. पण सामाजिक असमतोल कमी करण्यासाठी नाहीत; त्यासाठी कितीही विदा ओतली तरी फरक पडणार नाही.

जोवर हा प्रश्न आहे, तो सोडवला पाहिजे ह्याची दखल घेऊन मुद्दाम त्यासाठी (गणिती वा इतर) प्रयत्न केले जाणार नाहीत, तोवर आहेत त्या पद्धतींमधून आहेत त्याच रेषा पुन्हा पुन्हा आखल्या जाणार. आजारी लोकांचीच माहिती गोळा करून चुकीचेच निष्कर्ष येणार, तसंच.

  • ‌मार्मिक0
  • माहितीपूर्ण1
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

---

सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.

या नटीने 'अशी' केली दिवाळी साजरी लॅाकडाऊनमध्ये?
-----
नटी आवडते>>'कशी' केली दिवाळी ? उत्सुकता वाढली>>बातमीवर क्लिक केले>>पेपरच्या साइटला एक hit वाढला.;; पेपरवाल्यांनी जाहिरातदारांना सांगितले -बघा इतके लोक आमचा पेपर वाचतात, रेट वाढला.
जाहिरातदारांनी खात्री करण्यासाठी analyst कडे धाव घेतली. त्याने गिरणीतून चाळण मारून कळवले >> वाढलेले आकडे 'ह्या', 'अशा' हिट्सचे आहेत. खरे वाचक नाहीत.

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0

Smile

  • ‌मार्मिक0
  • माहितीपूर्ण0
  • विनोदी0
  • रोचक0
  • खवचट0
  • अवांतर0
  • निरर्थक0
  • पकाऊ0