'Panini': भाषाशास्त्रज्ञ की सॅन्डविच?
'Panini': भाषाशास्त्रज्ञ की सॅन्डविच?
(अर्थात, कंप्युटेशनल भाषाविज्ञानाशी तोंडअोळख)
अापण सर्वजण तंत्रज्ञानाचा भरपूर वापर करतो. तंत्रज्ञानाशी संवाद साधण्याचे मूलभूत साधन म्हणजे भाषा. संगणकाला मानवी भाषा समजून देऊन त्यावर त्याला योग्य प्रतिक्रिया देण्यास शिकवण्यासाठी कंप्युटेशनल भाषाविज्ञानाचा उपयोग केला जातो. ह्या लेखाचा उद्देश ह्या विषयाशी तोंडओळख करुन देणे हा आहे.
तुम्ही दिवसातून किती वेळा गूगल, सिरि, किंवा त्यासारख्या इतर गोष्टींचा वापर करता? गूगलला एका दिवसात जगभरातून साधारण साडेचार अब्ज प्रश्न विचारले जातात! अाजच्या स्मार्ट फोनच्या काळात अापण तंत्रज्ञानाचा प्रचंड वापर करतो. ह्या तंत्रज्ञानाशी संवाद साधण्याचे मूलभूत साधन म्हणजे भाषा. तुम्ही गूगल किंवा सिरिला प्रश्न विचारता तेव्हा इंग्रजीतून किंवा तुमच्या बोली भाषेतून विचारता. तुम्हाला योग्य उत्तर देण्यासाठी गूगलला प्रथम तुम्ही विचारलेला प्रश्न समजून घ्यावा लागतो. उदाहरणार्थ खालील प्रश्न गूगलला विचारल्यावर गूगल काही क्षणात भाषाशात्रज्ञ पाणिनीची माहिती देईल.
(१) Who is Panini?
पाणिनी कोण अाहेत?
Will | Will | will | the will | to Will? | |
( A ) | (B) | (C) | (D) | (B) |
A → Auxiliary verb
B → The name Will, short for William
C → The verb will, meaning to give
D → The noun form of will, as in a legal document
विल इच्छापत्र विलला देईल का?
उदाहरण (६) मधे 'will' हा शब्द एकाच वाक्यात विविध प्रकारे कसा वापरता येऊ शकतो हे दाखवले आहे.
ट्युरिंगचा खेळ (Turing test)
आधी नमूद केल्याप्रमाणे, कंप्युटेशनल भाषाविज्ञान हा विषय कृत्रिम बुद्धिमत्ता (artificial intelligence) ह्या विषयाचा एक भाग मानला जातो. भाषा हा मानवाच्या बुद्धिमत्तेचा एक महत्त्वाचा भाग. सर्व मानव कमीजास्त प्रमाणात का होईना पण एक तरी भाषा शिकतातच. त्यामुळे अनेकांकरता संगणकाचे भाषेतील काैशल्य म्हणजे संगणकाच्या बुद्धिमत्तेचा पुरावा. संगणक शास्राचा अाणि कृत्रिम बुद्धिमत्ता ह्या विषयाचा जनक मानला जाणाऱ्या अॅलन ट्युरिंगने (Alan Turing) संगणक बुद्धिमान अाहे की नाही हे प्रायोगिकरीत्या तपासण्याकरता एक खेळ सुचवला. ह्या खेळात तिघेजण सहभागी असतात. दोन मानव अाणि एक संगणक. दोन मानवांपैकी एक परीक्षक. तिघेही वेगवेगळ्या खोल्यांमधे असतात अाणि एकमेकांशी फक्त टायपिंग करुन बोलू शकतात. परीक्षकाला कोण मानव व कोण संगणक हे माहित नसते. आणि त्याचे काम म्हणजे हे त्याने दोघांना पाच मिनिटे भाषेसंबधीचे काही प्रश्न विचारून ठरवायचे. संगणक परीक्षकाला पटवून देण्याचा प्रयत्न करतो की दुसरा मानव नसून संगणक अाहे अाणि तो स्वतः मानव अाहे. जर परीक्षक वारंवार फसत असेल अाणि संगणक अनेकदा खेळ जिंकत असेल तर संगणक बुद्धिमान!
ट्युरिंगच्या खेळाबद्दल अाज ६७ वर्षांनंतरही बोलले जाते आणि ह्या खेळामुळे ह्या विषयाच्या संशोधनात प्रगती व्हायला मदत झाली ह्यात शंकाच नाही.२ ट्युरिंग चा उद्देश संगणकाला भाषा समजून देण्यात प्रगती व्हावी हा असावा. पण हा खेळ जिंकण्यासाठी भाषा समजून घेण्यावर लक्ष केंद्रित करण्यापेक्षा परीक्षकाला फसवता कसे येईल यावर जास्त भर दिला जाऊ शकतो. हा खेळ जिंकायला संगणकानी सर्व उत्तरे बरोबरच दिली पाहिजेत असे आहे का? तो मानवाप्रमाणे मधेमधे 'मला माहीत नाही' असेही म्हणू शकतो किंवा उत्तर येत नसेल तर विषय बदलू शकतो किंवा काहीतरी मजेशीर बोलू शकतो. संगणक काही वेळेला काही मानवांसमवेत जिंकला म्हणजे संगणक मानवापेक्षा बुद्धिमान का? बुद्धिमत्ता, विचार ह्या गोष्टींचे शास्त्रीय पद्धतीने मूल्यांकन करणे अत्यंत कठीण अाहे. भाषांचा विस्तार मोठ्ठा अाहे अाणि पाच मिनिटाच्या परीक्षेवरुन संगणकाची बुद्धिमत्ता ठरवणे न्याय्य नाही. अाणि म्हणूनच, संगणकाकरवी माणसाच्या वागणुकीची नक्कल करण्यापेक्षा भाषेची मूलभूत तत्त्वे जाणून घेणे जास्त महत्वाचे आहे, हे ह्या विषयातील संशोधकांनी जाणले आहे.
कंप्युटेशनल भाषाविज्ञानाच्या उपयोगाचे एक उदाहरण
अाजच्या स्मार्टफोनच्या काळात अापण कंप्युटेशनल भाषाविज्ञानाचा भरपूर वापर करून भाषांचे माॅडेल केलेल्या साधनांचा रोजच्या जीवनात अनुभव घेतो. काही ठळक उदाहरणे म्हणजे, गूगलचा माहिती शोधण्याकरता, फेसबुक व अॅमेझॉन चा अापल्याला अावडतील अशा बातम्या, घटना, अाणि गोष्टी पाहण्याकरता, आणि सिरिचा संवादामार्फत माहिती मिळवण्याकरता किंवा करमणूक म्हणून संवाद साधण्याकरता, केलेला उपयोग.
एका भाषेतून दुसऱ्या भाषेत संगणकाच्या साहाय्याने भाषांतर करणे हा अनेक दशकांपासून अाकर्षणाचा विषय आहे. नवीन भाषा शिकणे हे अत्यंत परिश्रमाचं काम अाहे आणि त्यामुळेच पूर्वीपासूनच संगणकाच्या साहाय्याने भाषांतर करण्याला राजकीय अाणि ऐतिहासिक महत्त्व अाहे. अाजच्या काळात सामान्य माणसाचे प्रवासाचे अाणि निरनिराळ्या देशांना भेट देण्याचे प्रमाण वाढले असल्याने आपल्या सर्वांकरताच वेगवेगळ्या कारणांनी भाषांतर ही एक उपयुक्त गोष्ट झाली अाहे. १९६० च्या दरम्यान अमेरिका, रशिया, अाणि पश्चिम युरोपातील संशोधकांना वाटत होते की भाषांतराचा प्रश्न काही वर्षातच, निदान तांत्रिक कागदपत्रांपुरता तरी, सोडवला जाईल. पण हा प्रश्न सोडवताना कंप्युटेशनल भाषाविज्ञानाचा कस लागतो. भाषांतर करण्याकरता दोन्ही भाषांची व्यवस्थित माहिती असणे गरजेचे असते अाणि युक्त्याप्रयुक्त्या अाणि प्रश्नाची टाळाटाळी करायला जास्त वाव नसतो. गेल्या काही वर्षात ह्या विषयात लक्षणीय प्रगती झाली असली तरी हा प्रश्न पूर्णपणे सुटायला अजून बराच अवकाश अाहे. दाखला म्हणून गूगलच्या भाषांतराची काही गमतीशीर उदाहरणे पहा!
शब्दाला शब्द असे भाषांतर केल्याने तयार झालेले गंमतशीर उदाहरण!
(७) अति शहाणा त्याचा बैल रिकामा.
Very sensible his ox is empty.
दुसऱ्या भाषेत अचूक शब्द किंवा वाक्प्रचार न मिळाल्याने तयार झालेली काही गंमतशीर उदाहरणे!
(८) उथळ पाण्याला खळखळाट फार.
Soaring water is very rude.
(९) पोलिसांना पाहून त्यांच्या तोंडचे पाणी पळाले.
Seeing the police, water ran out of their mouth.
भाषांतराचा प्रश्न कठीण का अाहे? अापण बोलतो त्या भाषा हजारो वर्षांच्या जुन्या अाहेत अाणि त्यांचे व्याकरण, लिपी, वापरण्याच्या पद्धती ह्यात प्रचंड विविधता अाहे. उदाहरणार्थ, (१०) मधे दाखवल्याप्रमाणे मराठी व इंग्रजीतील दोन महत्त्वाचे फरक खालीलप्रमाणे. पहिला फरक म्हणजे मराठीत वाक्यातील शब्द अनुक्रम साधारणपणे कर्ता - कर्म - क्रियापद असा असतो तर इंग्रजीत कर्ता (subject) - क्रियापद (verb) - कर्म (object) असा.
(१०) मी दगड उचलला.
(कर्ता) - (कर्म) - (क्रियापद)
I picked up the stone.
(कर्ता) - (क्रियापद) - (कर्म)
दुसरा फरक म्हणजे मराठीत वस्तूंना लिंग असते (तो सूर्य) तर इंग्रजी मधे नसते अाणि क्रियापद कर्माच्या लिंगानुसार बदलते. उदाहरण (१०) मधे दगडा ऐवजी कैरी असती तर मी कैरी उचलली असे म्हणले असते. इंग्रजीत वस्तूंना लिंग नसल्याने लिंगानुसार क्रियापद बदलायचा प्रश्नच येत नाही.
ही झाली मराठी आणि इंग्रजीची कथा. जगात हजारो भाषा अाहेत. आणि प्रत्येकीची तऱ्हा वेगळी. चिनी, जपानी सारख्या भाषांमधे तर वर्णमालेची संकल्पनाच नाही. शब्द चिन्हांच्या सहाय्याने दाखवले जातात आणि कधीकधी एक शब्द संपून दुसरा कधी सुरु झाला ह्याचा पत्ताच लागत नाही. हिंदीत वाक्याचा शेवट '।' ने तर बऱ्याच भाषांमधे '.' ने. फ्रेंच मधे अनेक मूक अक्षरे तर मराठी, हिंदी मधे जसे दिसले तसे वाचले जाते. काही भाषांमधे विभक्ति प्रत्यय तर काही भाषांमधे शब्द योगी अव्यये (prepositions).
भाषेवर तिचे मूळ, बोलणाऱ्या लोकांची संस्कृती, लोकांचा स्वभाव, अाणि इतिहास ह्या सर्व गोष्टींचाही प्रभाव असतो. काहींच्या मते भाषांतर हे शास्र नसून एक कला अाहे. चांगले अनुवादक नुसते शब्दाला शब्द अाणि वाक्याला वाक्य असे भाषांतर करत नाहीत तर ते लेखकाचा भाव अाणि मजकूरातला गर्भितार्थ समजून घेऊन तो अनुभव दुसऱ्या भाषेत जिवंत करण्याचा प्रयत्न करतात. ह्या सर्व गोष्टी शास्त्रीय पद्धतीने उलगडता येणे शक्य अाहे का? भावना, संस्कृती, अाणि अनुभव ह्या गोष्टी शास्त्रीय पद्धतीने मोजणे अत्यंत कठीण अाहे. कंप्यूटेशनल भाषाविज्ञानाचा वापर करून मजकुराचा गोषवारा कळण्याइतपत भाषांतर संगणक करू शकतो. परंतु तज्ज्ञ मानवाप्रमाणे भाषांतर करण्याकरता अजून ह्या विषयात बरीच प्रगती करायला पाहिजे, हे पु. लं. च्या पोस्ट अाॅफिस मधील खालील वाक्याचे गूगलने इंग्रजीत केलेले भाषांतर पाहून लक्षात येते.
(११) शेवटी काय हो, आपण पत्त्याच्या नावाचे धनी, मजकुराचा मालक निराळाच.
०. Google translation: In the end, you know the address of the wealthy, the owner of the text.
०. Human translation: In a letter, all we own is the address on the envelope. The contents are a matter of fate.
०. Alternate human translation: Ultimately, it may be our name on the envelope, but someone else (God) is the one who wrote the message.
असे जिवंत विनोद टाळले जायला हवे असतील तर कंप्यूटेशनल भाषाविज्ञानाला अजून पुष्कळच मार्ग काटायचा अाहे, अाणि त्यासाठीचा हुरुप अाम्ही ताजा ठेवू ह्यात शंका नाही.
ह्या लेखातून तुम्हाला नवीन काहीतरी शिकायला मिळाले असेल आणि कंप्यूटेशनल भाषाविज्ञानाविषयी तुमच्या मनात कुतूहल निर्माण झाले असेल अशी मी अाशा करते. तुम्हाला ह्या लेखासंबधी काही प्रश्न असतील तर माझ्याशी ह्या पत्त्यावर (kvarada@gmail.com) जरूर संपर्क साधा.
१ जर तुम्हाला अजून गंमतीदार मथळे पाहायचे असतील तर येथे पहा.
२ ट्युरिंगच्या मूळ शोधनिबंधाप्रमाणे, त्या काळाला अनुसरुन, जर संगणक ३०% वेळा जिंकला, तर तो बुद्धिमान!
३ २००० सालापासून दरवर्षी ट्युरिंगच्या खेळाची स्पर्धा घेतली जाते. त्याबद्दलची माहिती अाणि प्रतिलेखन खालील लिंकवर बघा. http://www.loebner.net/Prizef/loebner-prize.html
प्रतिक्रिया
छान माहितीपूर्ण लेख
चला, आमच्याच आडनावाचे येथे अजूनहि कोणी आले आहेत हे पाहून परम संतोष जाहला.
इंग्रजीचे शब्दश: भाषान्तर करण्याचे विनोद सर्व शाळकरी मुलांना ठाऊक असतात. मला आठवतात त्यांपैकी दोन येथे देतो. कोल्हापूरची अंबाबाई मला पावली - फॉक्सपूरची मँगोमॅडम मला ब्रेडली. रामचन्द्र पांडुरंग करमरकर - राममून पांडुकलर डू-डाय-डू.
संगणकाच्या माइंडलेस भाषान्तराचा आणि ते कितपत समाधानकारक असते ह्याचा एक पुरावा. The Spirit is ready but the flesh is not ह्या वाक्याचे मराठीत भाषान्तर करण्यास संगणकाला सांगितले आणि आलेल्या भाषान्तराचे पुन: इंग्लिशमध्ये. ते भाषान्तर असे आले The ghost is ready but the meat is not.
दुरुस्ती
चला, आता चट्टेरीपट्टेरी नाडी ब्रिगेडचे पुढचे लक्ष्य तुम्ही. अभिनंदन!
मूळ अवतरण 'The spirit is willing but the flesh is weak' असे आहे. (बैबलातले आहे बहुधा - चूभूद्याघ्या.) लीजेंडप्रमाणे, याचे रशियनमधील यंत्रभाषांतर 'The whisky is agreeable, but the meat has gone bad' अशा अर्थाचे झाले होते म्हणे.
http://www.snopes.com/language/misxlate/machine.asp येथे पाहा. (चौथे उदाहरण.)
मी खालील आवृत्ती ऐकली होते.
मी खालील आवृत्ती ऐकली होते.
The spirit is willing, but the flesh is weak --> (Russian) --> (English) --> The vodka is good, but the meat is rotten
पण आता तुम्ही google translate वर ह्या वाक्याचे रशियन मधे भाषांतर करुन परत इंग्रजीत भाषांतर केले तर ही चूक दिसत नाही.
The spirit is willing, but the flesh is weak (to Russian) Дух готов, но плоть слаба (to English) The spirit is ready, but the flesh is weak
ह्याचे दोन अर्थ असू शकतात.
१) ह्या भाषांच्या जोडीच्या कंप्युटेशनल मॉडेलस् मधे प्रगती झाली आहे.
२) हे वाक्य भाषांतरासाठी प्रसिद्ध झाले असल्याने गूगलने ते हार्डकोड केले असू शकते.
(अतिअवांतर)
पावण्यावरून आठवले. 'देवा, मला पाव!' हा 'O Lord, give us our daily bread' या (ख्रिस्ती) प्रार्थनेच्या भाषांतराकरिता पाद्रीछाप मराठीतील तर्जुमा असावा, अशी आमची जुनीच आणि घनदाट शंका आहे.
'देवा, मला पाव!' हा 'O Lord,
तसे नाही, कारण अन्य संदर्भातही "पैके पावले" वगैरे शब्दप्रयोगही जुन्या कागदपत्रांमधून, पुस्तकांमधून वगैरे वाचायला मिळतात. सबब ते ब्रेडबीड कै नाही.
माहिष्मती साम्राज्यं अस्माकं अजेयं
'देवा, मला पाव!' हा 'O Lord,
तसे नाही, कारण अन्य संदर्भातही "पैके पावले" वगैरे शब्दप्रयोगही जुन्या कागदपत्रांमधून, पुस्तकांमधून वगैरे वाचायला मिळतात. सबब ते ब्रेडबीड कै नाही.
माहिष्मती साम्राज्यं अस्माकं अजेयं
भाषिक संदिग्धता
याच्या उदाहरणांत, 'Mary had a little lamb', 'I had a friend for dinner', झालेच तर 'Squad helps dog bite victim'सारखे वृत्तपत्रीय मथळे वगैरे सदाबहार आहेत. ती टाळलेली दिसतात. (ते ठीकच आहे म्हणा.)
लेख
आवडला. या विषयावर अजूनही वाचायला आवडेल - विशेषत: चॉम्स्कीच्या भाषिक थिअरीच्या अनुषंगाने.
अवांतर:
१. हा लेखही या संदर्भात वाचनीय.
२.
शिवाय इतालियनमध्ये सँडविच (एकवचन) = Panino --> सँडविचेस (अनेकवचन) = Panini.
जेपर्डी
रोचक लेख.
काही वर्षांपूर्वी, अमेरिकेतील "जेपर्डी" ह्या प्रश्नमंजुषेच्या कार्यक्रमात भाग घेण्यासाठी आयबीएम ह्या कंपनीने, त्यांनी खास बनवलेला 'वॉटसन" हा संगणक पाठ्वला होता. अख्ख्या विकिपिडियासहित कोट्यावधी पाने त्याला "भरवण्यात" आली होती. प्रत्यक्श स्पर्धेच्यावेळी मात्र त्यास इंटरनेट्पासून विलग केले होते.
१४ ते १६ फेब्रुवारी २०११ अशा तीन दिवस चाललेल्या स्पर्धेत अखेर "वॉटसन"ने बाजी मारली!
अर्थात, त्याने काही ठोबळ चुकाही केल्या - जसे की, एका स्पर्धकाने दिलेले चुकीचे उत्तर पुन्हा देणे! पण स्पर्धा भलतीच रोचक झाली होती!
त्याचीच एक जुनी आठवण.
गमतीचा भाग सोडला तर गुगल
गमतीचा भाग सोडला तर गुगल किंवा इतर शोधसंच योग्य पान उघडून देतो. उद्देश तोच असतो. पुढचा अतीहुशार संगणक/मोबाइल कोड काय करेल तर आपला अपेक्षित कल शोधेल. माझ्या मोबाइलात कोणत्या वेबसाइट बघितल्या जातात त्याचा इतिहास पाहील आणि उत्तर पहिल्याच प्रयत्नात बरोबर मिळेल. उदा० platinum शोधतोय आणि माझ्याकडे गाणी डौनलोड झालेली दिसताहेत तर "बँड" असेल. अन्यथा काही सायन्स आर्टिकल दिसल्यास "मेटल".
लेख आवडला.
गमतीशीर विषय आहे. आमच्या लाडक्या ऑस्कर वाईल्डचा आज बड्डे आहे. तर माझ्याकडून ही आहुति -
Devil lies in the details.
तपशिलातच सैतान पहुडलेला असतो. (मूळ भाषांतर माझं नाही. मी फक्त पोस्टगर्लगिरी केली.)
---
सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.
छान
छान ओळख आहे.
एक टंकनदोष सुधारावा, अशी विनंती :
>>(६) Will will will the will to Will?<<
हे असे हवे :
(६) Will Will will the will to Will?
(दुसऱ्या शब्दात कॅपिटल W हवा.)
थ्यँक्यू.
वरदानं योग्य मजकूर पाठवला होता. मी पुन्हा वाचताना गोंधळ घातला. आता चूक सुधारल्ये.
---
सांगोवांगीच्या गोष्टी म्हणजे विदा नव्हे.
लेख आवडला
लेख आवडला