सर्च इंजन रोबोट क्या है

2024 लेखक: Lauren Nevill | [email protected]. अंतिम बार संशोधित: 2023-12-16 18:52

वेब पेजों को क्रॉल करने के लिए सर्च इंजन रोबोट जिम्मेदार है। कार्यक्रम स्वचालित रूप से सभी साइटों से डेटा पढ़ता है और उन्हें एक ऐसे रूप में पंजीकृत करता है जो स्वयं खोज इंजन के लिए समझ में आता है, ताकि बाद में सिस्टम उपयोगकर्ता के लिए सबसे उपयुक्त परिणाम प्रदर्शित करेगा।

कार्यों

सभी अनुक्रमित जानकारी एक सामान्य डेटाबेस में दर्ज की जाती है।

एक खोज रोबोट एक प्रोग्राम है जो स्वचालित रूप से इंटरनेट के पृष्ठों के माध्यम से यात्रा करता है, आवश्यक दस्तावेजों का अनुरोध करता है और क्रॉल की गई साइटों की संरचना प्राप्त करता है। रोबोट स्वतंत्र रूप से स्कैन किए जाने वाले पृष्ठों का चयन करता है। ज्यादातर मामलों में, स्कैन करने के लिए साइटों को बेतरतीब ढंग से चुना जाता है।

बॉट प्रकार

अनुचित तरीके से काम करने वाला रोबोट नेटवर्क और सर्वर पर लोड को काफी बढ़ा देता है, जिससे संसाधन अनुपलब्ध हो सकता है।

प्रत्येक सर्च इंजन में कई प्रोग्राम होते हैं जिन्हें रोबोट कहा जाता है। उनमें से प्रत्येक एक विशिष्ट कार्य कर सकता है। उदाहरण के लिए, यांडेक्स में, कुछ रोबोट आरएसएस समाचार फ़ीड को स्कैन करने के लिए जिम्मेदार हैं, जो ब्लॉगों को अनुक्रमित करने के लिए उपयोगी होंगे। ऐसे प्रोग्राम भी हैं जो केवल चित्रों की खोज करते हैं। हालांकि, सबसे महत्वपूर्ण चीज इंडेक्सिंग बॉट है, जो किसी भी खोज के लिए आधार बनाती है। समाचार फ़ीड और घटनाओं पर अपडेट खोजने के लिए डिज़ाइन किया गया एक सहायक तेज़ रोबोट भी है।

स्कैनिंग प्रक्रिया

सामग्री को क्रॉल करने से रोकने का एक अन्य तरीका पंजीकरण पैनल के माध्यम से साइट तक पहुंच बनाना है।

साइट पर जाते समय, प्रोग्राम robots.txt निर्देश फाइलों की उपस्थिति के लिए फाइल सिस्टम को स्कैन करता है। यदि कोई दस्तावेज़ है, तो दस्तावेज़ में लिखे निर्देशों का पठन शुरू होता है। robots.txt साइट पर कुछ पेजों और फाइलों को स्कैन करने पर रोक लगा सकता है या इसके विपरीत अनुमति दे सकता है।

स्कैनिंग प्रक्रिया कार्यक्रम के प्रकार पर निर्भर करती है। कभी-कभी रोबोट केवल पृष्ठ के शीर्षक और कुछ पैराग्राफ ही पढ़ते हैं। कुछ मामलों में, HTML मार्कअप के आधार पर पूरे दस्तावेज़ में स्कैनिंग की जाती है, जो मुख्य वाक्यांशों को निर्दिष्ट करने के साधन के रूप में भी काम कर सकता है। कुछ प्रोग्राम छिपे या मेटा टैग के विशेषज्ञ होते हैं।

सूची में जोड़ना

प्रत्येक वेबमास्टर खोज इंजन को robots.txt या META टैग के माध्यम से पृष्ठों को क्रॉल करने से रोक सकता है। साथ ही, साइट निर्माता मैन्युअल रूप से साइट को अनुक्रमण कतार में जोड़ सकता है, लेकिन इसे जोड़ने का मतलब यह नहीं है कि रोबोट तुरंत वांछित पृष्ठ को क्रॉल करेगा। साइट को कतार में जोड़ने के लिए, खोज इंजन विशेष इंटरफेस भी प्रदान करते हैं। साइट जोड़ने से अनुक्रमण प्रक्रिया में काफी तेजी आती है। साथ ही, सर्च इंजन में त्वरित पंजीकरण के लिए, वेब एनालिटिक्स सिस्टम, साइट निर्देशिका आदि का उपयोग किया जा सकता है।