माझी मुलगी मनुश्री,मागच्या वर्षी पाचव्या वर्गात असतांना तिच्या कंप्युटर विषयाच्या च्या पुस्तकात हा धडा होता.म्हणजेच CBSE च्या २०१९ च्या पाचव्या वर्गाच्या सिलॅबस मध्ये हा विषय शिकवण्यात आलेला आहे. तर दुसऱ्या बाजूला ग्रॅज्यएटस,नोकरी आणि बिझिनेस करणाऱ्या फार कमी लोकांना सर्च इंजिन्स कसे कार्य करतात किंवा क्रॉलिंग, इंडेक्सींग म्हणजे काय या बद्दलची माहिती आहे.आणि म्हणूनच हा विषय मी इथे चर्चेला घेतला आहे.
सर्च इंजिन काय आहे ?- एक प्रोग्राम जो युझर ने टाईप केलेल्या कीवर्ड किंवा किफ्रेज शी संबंधित असलेला तपशील स्वतः च्या डेटाबेस मध्ये शोधतो आणि रिझल्ट्स सादर करतो. विशेषतः वर्ल्ड वाइड वेबवर विशिष्ट साइट शोधण्यासाठी वापरला जातो.
सर्च इंजिन हे वेब वरील माहिती स्वतः च्या डेटाबेस मध्ये गोळा करण्याचं काम करते. हि माहिती इंटरनेट द्वारे आपण access करू शकतो. सर्च इंजिन हे युझर च्या प्रश्नां (query) नुसार स्वतः च्या इन्फॉर्मेशन डेटाबेस मध्ये माहिती शोधते आणि युझर च्या प्रश्नांशी निगडित असेलेले मॅचिंग रिझल्ट्स (उत्तरे) शोधून देते. सर्वात लोकप्रिय आणि सुप्रसिद्ध सर्च इंजिन अर्थातच “गुगल” आहे. सर्च इंजिन च्या मार्केट शेअर बद्दल चा ग्राफ खाली दिला आहे:
वरील चार्ट सविस्तर बघायचा असल्यास इथे क्लिक करा.
सर्च इंजिन च्या सर्चबार मधे टाईप केलेल्या शब्दाला “किवर्ड असे म्हणतात. याच किवर्ड आणि किफ्रेज (म्हणजेच अनेक शब्द किंवा एक वाक्य) च्या आधारे सर्च इंजिन तुमच्या समोर वेब रिझल्ट्स ची मोठी यादी सादर (present) करते.
उदाहरणार्थ : समजा तुम्ही गुगल सर्च बार वर “What Is Search Engine” हि किफ्रेज सर्च केलं, तर “Search Engine” हा एक किवर्ड आहे, ज्यानी सर्च इंजिन ला हे कळते कि तुम्हाला नेमक्या कुठल्या गोष्टीचा तपशील पाहिजे आहे. आणि बाकी पूर्ण वाक्याला Key Phrase असे म्हणतात – जे गुगल किंवा इतर सर्च इंजिन्स ला माहिती शोधण्यात आणि रिझल्ट्स सादर करण्यास मदत करतात.
वेबसाईट लिंक्स, इमेज आणि videos च्या रूपात सर्च इंजिन तुमच्या समोर ज्या रिझल्ट्स ची यादी सादर करते, त्या पेज ला “Search Engine Result Page (SERP)“ असे म्हटले जाते.
सर्च इंजिन खालील दोन प्रकारच्या लोकांच्या दैनंदिन जीवनाचा एक भाग आहे :
- युझर्स – जे माहिती शोधतात आणि मिळवतात.
- Site owners जे सर्च रिझल्ट्स मध्ये top rank मिळविण्याकरिता त्यांच्या वेबसाईटस ला optimize करण्याचा प्रयत्न करतात.
इतरांच्या च्या संबंधित माहिती शोधण्यासाठी गुगल वर कोट्यवधी पेक्षा जास्त सर्चेस युझर्स कडून केल्या जातात. म्हणूनच व्हिसिटर्स (युझर्स) ला आपल्या वेबसाइट वर आकर्षित करण्यासाठी site owners ला मोठा वाव असतो.
सर्च इंजिन अशी कार्ये करतात :
सर्च इंजिन स्वत: च्या वेब क्रॉलऱ (एक प्रोग्रॅम) चा वापर करून कोट्यावधी वेब पेजेस क्रॉल करतात. या वेब क्रॉलऱ ला सामान्यतः सर्च इंजिन बॉट किंवा सर्च इंजिन स्पायडर असेही म्हणतात. हे क्रॉलर्स, बॉट्स किंवा स्पायडर्स हे दुसरे तिसरे काही नसून कोडिंग केलेला एक प्रोग्रॅम असतो.
जेव्हा तुम्ही एखादा किवर्ड किंवा किफ्रेज सर्च बार मध्ये टाईप करून सर्च करता, तेव्हा सर्च इंजिन तुम्हाला exact रिझल्ट सादर करते – या प्रोसेस ला सर्च इंजिन द्वारे ३ फेजेस मधे केल्या जाते
१. क्रॉलिंग : क्रॉलिंग चा खरा अर्थ रेंगाळणे असा असला तरीही इथे त्याचा अर्थ “शोधणे” किंवा शोधण्यासाठी वेबसाईट वर रेंगाळणे असा होतो.
२. इंडेक्सींग : क्रॉलिंग प्रोसेस दरम्यान जी काही माहिती मिळते, त्या पूर्ण माहिती ला सर्च इंजिन च्या डेटाबेस मधे समाविष्ट (submit) करणे म्हणजेच इंडेक्सींग.
३. रँकिंग : तुमची वेबसाईट किंवा वेब पेज, एखाद्या किवर्ड किंवा किफ्रेज साठी सर्च इंजिन रिझल्ट पेज वर ज्या पोझिशन वर दिसते ते रँकिंग. (डिफॉल्ट सेटिंग प्रमाणे प्रत्येक पेज वर १० रिझल्ट्स दिसतात)
फेज १ : सर्च इंजिन क्रॉलिंग
क्रॉलिंग ही एक शोध प्रक्रिया आहे. ज्या मधे सर्च इंजिन द्वारे, कुठलीही नवीन किंवा जुनी वेबसाईट स्कॅन केली जाते. या प्रोसेससाठी “बॉट” चा वापर केला जातो. (वर लिहिल्या प्रमाणे बॉट ला “क्रॉलऱ किंवा स्पायडर” असेही म्हणतात). हे बॉट्स वेबसाईट च्या कन्टेन्ट ला त्या वेबसाईट च्या लिंक्स म्हणजेच URLs द्वारे शोधतात. बॉट चे काम हे वेबसाईट चे प्रत्येक पेज स्कॅन करून त्या मधील संपूर्ण माहिती एकत्रित करून सर्च इंजिन च्या डेटाबेस मध्ये समाविष्ट करणे हे असते.
बॉट्स हे वेब पेज च्या टायटल, URL आणि किवर्डस ला स्कॅन करून ते वेब पेज कश्या बद्दल आहे हे शोधतात. अश्या पद्धतीने या बॉट लाखो वेब पेज ला स्कॅन करत असतात.
फेज २ : सर्च इंजिन इंडेक्सींग
क्रॉलऱ ची वेब पेज ला स्कॅन करण्याची प्रक्रिया पूर्ण झाली कि त्यानंतर होते ते इंडेक्सींग . क्रॉल केलेल्या डेटा ला सर्च इंजिन च्या डेटाबेस मधे समाविष्ट (submit) केल्या जाते – याच प्रोसेस ला “इंडेक्सींग” असे म्हणतात.
हाच तो डेटा आहे, जो सर्च इंजिन मधे माहिती शोधण्याच्या दरम्यान तुम्हाला सर्च रिझल्ट च्या माध्यमातून दिसतो. सर्च इंजिन जगातल्या सगळ्या वेबसाईट ला क्रॉल करून त्यांची इंडेक्सींग करतो.
फेज ३ : सर्च इंजिन रँकिंग
या phase मधे, युझर द्वारे सर्च इंजिन वर केले गेलेल्या query ची प्रोसेसिंग सर्च एंजिने करते. त्यानंतर लगेच रिझल्ट पेजेस (SERP) सर्च इंजिन युजरला सादर करते. यात युझरच्या प्रश्नाची ची बरोबर उत्तरे मिळू शकतात. जे वेब पेजेस (रिझल्ट्स) तुम्हाला सर्च रिझल्ट मधे वर दिसतात, ते तुमच्या query साठी सगळ्यात relevant असतात. अर्थात गुगल किंवा इतर सर्च इंजिन्स मध्ये, रिझल्ट्स सादर करतांना टॉप च्या पोझिशन्स कुठल्या वेबसाईट्स ला द्यायच्या, हे त्या-त्या सर्च इंजिन्स चे अल्गोरिदम्स ठरवतात.
वेबसाईट-ओनर सर्च इंजिन optimization (SEO) मध्ये असलेल्या वेग-वेगळ्या पद्धतींचा चा वापर करून स्वतः च्या वेब पेज ला इतरांच्या च्या पुढे (वर) नेण्याचा प्रयत्न करत असतात. या पद्धती मध्ये प्रामुख्याने आहे ते ऑन-पेज SEO व ऑफ-पेज SEO.
सर्च रिझल्ट्स मध्ये तुमची वेबसाईट अजिबातच दिसत नसल्यास त्याची काही संभाव्य कारणे खालील प्रमाणे असू शकतात:
- तुमची साइट नवीन आहे आणि अद्याप क्रॉल झालेली नाही.
- तुमच्या साइटने कोणत्याही external वेबसाइट वरुन लिंक साधलेली नाही.
- तुमच्या वेबसाइटचे navigation कठीण असल्या कारणाने बॉट्स ला तुमची वेबसाईट प्रभावीपणे क्रॉल करण्यास अडथळे येत आहेत.
- तुमच्या साइट मध्ये क्रॉलऱ directives नावाचा काही मूलभूत कोड आहे जो सर्च इंजिन ला ब्लॉक करत आहे.
माझा निष्कर्ष : वर दिलेले mechanism हे ढोबळ आहेत. या मध्ये सुद्धा अनेक बारकावे आहेत. माझा वाचक वर्ग हा एक मूळतः व्यवसायाशी निगडित किंवा पर्सनल ब्रॅण्डिंग मध्ये उत्सुक असल्यामुळे वरील माहिती पुरेशी आहे. सर्च इंजिन्स कसे कार्य करतात: क्रॉलिंग, इंडेक्सींग, आणि रँकिंग या तिन्ही पद्धती तुम्हाला समजल्या असतील अशी मी आशा करतो.
आपल्याकडे काही प्रश्न किंवा सूचना असल्यास कृपया खाली कमेंट मध्ये टाईप कराव्यात अशी मी तुम्हाला विनंती करतो. तुमच्या प्रश्नांचे व सूचनांचे माझ्याकडे नेहमीच स्वागत असेल.
खूप छान माहिती