वेब पेजों को क्रॉल करने के लिए सर्च इंजन रोबोट जिम्मेदार है। कार्यक्रम स्वचालित रूप से सभी साइटों से डेटा पढ़ता है और उन्हें एक ऐसे रूप में पंजीकृत करता है जो स्वयं खोज इंजन के लिए समझ में आता है, ताकि बाद में सिस्टम उपयोगकर्ता के लिए सबसे उपयुक्त परिणाम प्रदर्शित करेगा।
कार्यों
सभी अनुक्रमित जानकारी एक सामान्य डेटाबेस में दर्ज की जाती है।
एक खोज रोबोट एक प्रोग्राम है जो स्वचालित रूप से इंटरनेट के पृष्ठों के माध्यम से यात्रा करता है, आवश्यक दस्तावेजों का अनुरोध करता है और क्रॉल की गई साइटों की संरचना प्राप्त करता है। रोबोट स्वतंत्र रूप से स्कैन किए जाने वाले पृष्ठों का चयन करता है। ज्यादातर मामलों में, स्कैन करने के लिए साइटों को बेतरतीब ढंग से चुना जाता है।
बॉट प्रकार
अनुचित तरीके से काम करने वाला रोबोट नेटवर्क और सर्वर पर लोड को काफी बढ़ा देता है, जिससे संसाधन अनुपलब्ध हो सकता है।
प्रत्येक सर्च इंजन में कई प्रोग्राम होते हैं जिन्हें रोबोट कहा जाता है। उनमें से प्रत्येक एक विशिष्ट कार्य कर सकता है। उदाहरण के लिए, यांडेक्स में, कुछ रोबोट आरएसएस समाचार फ़ीड को स्कैन करने के लिए जिम्मेदार हैं, जो ब्लॉगों को अनुक्रमित करने के लिए उपयोगी होंगे। ऐसे प्रोग्राम भी हैं जो केवल चित्रों की खोज करते हैं। हालांकि, सबसे महत्वपूर्ण चीज इंडेक्सिंग बॉट है, जो किसी भी खोज के लिए आधार बनाती है। समाचार फ़ीड और घटनाओं पर अपडेट खोजने के लिए डिज़ाइन किया गया एक सहायक तेज़ रोबोट भी है।
स्कैनिंग प्रक्रिया
सामग्री को क्रॉल करने से रोकने का एक अन्य तरीका पंजीकरण पैनल के माध्यम से साइट तक पहुंच बनाना है।
साइट पर जाते समय, प्रोग्राम robots.txt निर्देश फाइलों की उपस्थिति के लिए फाइल सिस्टम को स्कैन करता है। यदि कोई दस्तावेज़ है, तो दस्तावेज़ में लिखे निर्देशों का पठन शुरू होता है। robots.txt साइट पर कुछ पेजों और फाइलों को स्कैन करने पर रोक लगा सकता है या इसके विपरीत अनुमति दे सकता है।
स्कैनिंग प्रक्रिया कार्यक्रम के प्रकार पर निर्भर करती है। कभी-कभी रोबोट केवल पृष्ठ के शीर्षक और कुछ पैराग्राफ ही पढ़ते हैं। कुछ मामलों में, HTML मार्कअप के आधार पर पूरे दस्तावेज़ में स्कैनिंग की जाती है, जो मुख्य वाक्यांशों को निर्दिष्ट करने के साधन के रूप में भी काम कर सकता है। कुछ प्रोग्राम छिपे या मेटा टैग के विशेषज्ञ होते हैं।
सूची में जोड़ना
प्रत्येक वेबमास्टर खोज इंजन को robots.txt या META टैग के माध्यम से पृष्ठों को क्रॉल करने से रोक सकता है। साथ ही, साइट निर्माता मैन्युअल रूप से साइट को अनुक्रमण कतार में जोड़ सकता है, लेकिन इसे जोड़ने का मतलब यह नहीं है कि रोबोट तुरंत वांछित पृष्ठ को क्रॉल करेगा। साइट को कतार में जोड़ने के लिए, खोज इंजन विशेष इंटरफेस भी प्रदान करते हैं। साइट जोड़ने से अनुक्रमण प्रक्रिया में काफी तेजी आती है। साथ ही, सर्च इंजन में त्वरित पंजीकरण के लिए, वेब एनालिटिक्स सिस्टम, साइट निर्देशिका आदि का उपयोग किया जा सकता है।