कन्नड़ विवाद भाषाओं पर गूगल का भद्दा मजाक नहीं, मस्तिष्क पर आर्टिफीशियल इंटेलिजेंस के खतरे का संकेत

हाल में गूगल ने भाषा पर एक नए विवाद को जन्म दे दिया। पिछले सप्ताह सबसे बेढंगी भारतीय भाषा का जवाब गूगल कन्नड़ को बता रहा था। जाहिर है, इसके बाद एक नया विवाद शुरू हो गया और इसके बाद अब गूगल ने माफी मांग ली है और इसके पीछे तकनीकी कारणओं का हवाला दिया है।

महेन्द्र पांडे

Published: 13 Jun 2021, 7:00 AM

भाषाओं पर समाचार कम ही बनते हैं, और जो समाचार बनते भी हैं वे भाषा के विकास से ज्यादा लोगों की मानसिकता से संबंधित होते हैं। दो साल पहले अमित शाह ने हिंदी को राष्ट्रभाषा बनाने से संबंधित बयान दिया था, जिसके बाद हिंदी के पक्ष और विपक्ष में बहुत प्रतिक्रियाएं आईं। पर इन विचारों में हिंदी भाषा से अधिक चर्चा इसे श्रेष्ठ साबित करने या फिर स्थानीय भाषाओं से कमतर आंकने पर हुई। भाषा पर दूसरी चर्चा जो होती है, उसके अनुसार बहुत सारी भाषाएं और बोलियां विलुप्त होती जा रही हैं।

हाल में ही सर्च इंजन गूगल ने भाषा पर एक नए विवाद को जन्म दिया। पिछले सप्ताह सबसे बेढंगी भारतीय भाषा का जवाब गूगल कन्नड़ को बता रहा था। जाहिर है, इसके बाद एक नया विवाद शुरू हो गया और इसके बाद अब गूगल ने माफी मांग ली है और बताया है कि जब भी हम गूगल पर कुछ खोजते हैं तब गूगल जवाब नहीं देता बल्कि यह आर्टिफीशियल इंटेलिजेंस और अलोग्रिथ्म पर निर्भर करता है, जिसके आधार पर ढेर सारे वेबसाइट्स से सबसे अधिक मैच करने वाले जवाबों को प्रस्तुत कर दिया जाता है। इसे सर्च इंजन ऑप्टिमाइजेशन कहा जाता है। गूगल ने यह जवाब debtconsolidationsquestions.com नामक एक वेबसाइट पर प्रकाशित एक लेख से लिए थे। यह वेबसाईट ब्लॉग प्रकाशित करती है और अब इसने भी इस लेख को हटा लिया है।

कन्नड़ लगभग 4 करोड़ लोगों द्वारा बोली और लिखी जाती है, यह भारत की 22 सरकारी भाषा में से एक है। इसका इतिहास 2000 वर्षों से भी अधिक पुराना है। गूगल के इस कारनामे के बाद कर्नाटक के अनेक मंत्रियों ने गूगल पर कानूनी कार्यवाही की बात कही थी। इस बढ़ते विवाद के बाद गूगल ने इसे हटा लिया और एक माफीनामा प्रकाशित किया। गूगल पर अब आप भारत की सबसे बेढंगी भाषा का जवाब खोजेंगें तो केवल गूगल के कन्नड़ विवाद से संबंधित समाचार पत्रों और वेबसाइट पर प्रकाशित आर्टिकल ही मिलेंगें।

भले ही यह विवाद थम गया हो, पर कुछ प्रश्न तो लम्बे समय तक बने रहेंगे। सबसे बड़ा सवाल तो यह है कि आर्टिफीशियल इंटेलिजेंस के इस दौर में क्या मानवीय संवेदनाएं कम होने लगी हैं और यदि ऐसा है तो फिर जल्दी ही हम संवेदना शून्य हो जाएंगे, क्योंकि इस आर्टिफीशियल इंटेलिजेंस, अलोग्रिथ्म और रोबोटिक्स के जाल में हम इस कदर फंस चुके हैं कि धीरे-धीरे अपने मस्तिष्क पर भी हमारा नियंत्रण नहीं है और हम वही सोचने लगे हैं जो आधुनिक प्रोद्योगिकी हमें सोचने पर मजबूर करती है। वर्ना किसी भाषा, किसी संस्कृति और किसी समाज को हम संवेदना के साथ किस तरह कमतर या महान मान सकते है?

दूसरा बड़ा प्रश्न है कि, क्या कोई भाषा महान और कोई भाषा विकृत या बेढंगी मानी जा सकती है? जाहिर है, गूगल और दूसरे सर्च इंजन हैं, तो कुछ भी संभव है। पर, एक नए अनुसंधान से स्पष्ट होता है कि किसी भी भाषा की सूचना प्रचार की क्षमता एक सामान होती है, इससे कोई फर्क नहीं पड़ता कि वह भाषा जल्दी-जल्दी बोली जाती है या फिर उसका व्याकरण बहुत समृद्ध है। किसी भी भाषा में सूचना के प्रसार की दर 39 बिट्स प्रति सेकंड रहती है। तय गति टेलीग्राम के आधार मोर्स कोड से लगभग दोगुनी है।

माना जाता है कि इटली के निवासी विश्व के किसी और देश की तुलना में जल्दी बोलते हैं और इनके बोलने की दर लगभग 9 शब्दांश प्रति सेकंड रहती है। दूसरी तरफ जर्मनी के कुछ इलाकों में बोलने की दर 5 शब्दांश से अधिक नहीं रहती। हमारे देश में भी भाषाओं में इस तरह का अंतर रहता है। मैथिली और भोजपुरी अपेक्षाकृत धीरे बोली जाती हैं, जबकि हरयाणवी और पंजाबी जल्दी बोली जाती हैं। पर, भाषा को धीरे बोलने या फिर जल्दी बोलने का महत्व क्या है? अब तक यही माना जाता रहा है कि जिस भाषा को जल्दी-जल्दी बोला जाता है, उसके द्वारा किसी सूचना का प्रसार अधिक तेजी से होता होगा, जबकि आराम से बोली जाने वाली भाषाओं में उसी सूचना के प्रसार में अपेक्षाकृत अधिक समय लगेगा।

वैज्ञानिकों ने सबसे पहले अंग्रेजी, इटालियन, जापानी, वियातनामी और हिन्दी जैसी 17 भाषाओं का चयन कर हरेक भाषा के सूचना घनत्व को बिट्स में परिवर्तित किया। बिट्स से पहले लोग अनजान थे, पर अब स्मार्टफोन के जमाने में बिट्स एक सामान्य शब्द हो गया है। हमारा स्मार्टफोन, लैपटॉप या कंप्यूटर मॉडेम भी सूचनाओं का सम्प्रेषण बिट्स में ही करता है। हरेक भाषा का सूचना घनत्व अलग रहता है– जापानी भाषा में यह 5 बिट्स प्रति शब्दांश है, अंग्रेजी में 7 बिट्स प्रति शब्दांश और वियातानामी में 8 बिट्स प्रति शब्दांश।

इसके बाद एक ही आलेख का भाषा-विशेषज्ञों की मदद से हरेक भाषा में अनुवाद कराकर हरेक भाषा के जानकारों को इसे पढ़ने को दिया गया। एक ही आलेख को हरेक भाषा में पढ़ने का उद्देश्य यह था कि हरेक भाषा में सूचना के सम्प्रेषण में एकरूपता रहे। हर भाषा में उस आलेख को पढ़ने में कितना समय लगा, यह ज्ञात करने के बाद हरेक भाषा में बोलने की दर शब्दांश प्रति सेकंड में ज्ञात की गई। विशेषज्ञों को मालूम था कि कुछ भाषाएं सामान्यतया जल्दी बोली जाती हैं, पर जब विशेषज्ञों ने भाषा के बोलने की दर को बिट्स दर से गुणा करने के बाद परिणाम देखा तो विस्मित रह गए। इस गुणा को यह जानने के लिए किया गया कि हरेक भाषा में प्रति सेकंड में कितनी सूचना का सम्प्रेषण हुआ।

इसका परिणाम आश्चर्यजनक था और किसी की उम्मीद से परे भी। हरेक भाषा में सूचना की सम्प्रेषण दर 39.15 बिट्स प्रति सेकंड के आसपास ही थी। इसका सीधा सा मतलब है कि भाषा भले ही जल्दी बोली जाती हो या फिर धीरे बोली जाती हो, भाषा क्लिष्ट हो या सरल, भाषा का व्याकरण विस्तृत हो या संक्षिप्त हो– हरेक भाषा द्वारा सूचना के सम्प्रेषण की दर लगभग एक रहती है। इस अध्ययन को साइंस एडवांसेज नामक जर्नल में प्रकाशित किया गया है। इस अध्ययन के मुख्य लेखक फ्रांस स्थित यूनिवर्सिटी ऑफ लियान के फ्रेंकोइस पेलेग्रिनो हैं।

किसी भाषा में बोलकर सूचना प्रसारण की तुलना में वर्ष 1959 में बने पहले कंप्यूटर मॉडेम की सम्प्रेषण क्षमता 110 बिट्स प्रति सेकंड थी, जबकि आधुनिक मॉडेम के लिए यह दर 100 मेगाबिट्स (10 करोड़ बिट्स) प्रति सेकंड है। फ्रेंकोइस पेलेग्रिनो के अनुसार भाषा के विज्ञान पर बहुत काम किया जा चुका है, पर आश्चर्य है कि इतने सीधे, सरल और मौलिक तथ्य पर पहले कभी किसी ने ध्यान नहीं दिया। इस अध्ययन से इतना तो स्पष्ट है कि सूचनाओं के प्रसार के सन्दर्भ में कोई भी भाषा किसी अन्य भाषा से श्रेष्ठ नहीं है, पर क्या गूगल को यह समझ आएगा?

Google न्यूज़, नवजीवन फेसबुक पेज और नवजीवन ट्विटर हैंडल पर जुड़ें

प्रिय पाठकों हमारे टेलीग्राम (Telegram) चैनल से जुड़िए और पल-पल की ताज़ा खबरें पाइए, यहां क्लिक करें @navjivanindia

विचार सब्स्क्राइब न्यूज पेपर