अनुक्रमण एक खोज रोबोट द्वारा इंटरनेट संसाधन पर स्थित फ़ाइलों को स्कैन करने की प्रक्रिया है। यह प्रक्रिया इसलिए की जाती है ताकि खोज इंजन में विभिन्न प्रश्नों के लिए खोज परिणामों में साइट उपलब्ध हो। आज सबसे बड़े सर्च इंजनों में यांडेक्स है, जो इस स्कैन को अपने तरीके से करता है।
अनुदेश
चरण 1
इंटरनेट साइट का अनुक्रमण विशेष स्वचालित कार्यक्रमों द्वारा किया जाता है - खोज रोबोट, जो स्वचालित रूप से वर्ल्ड वाइड वेब पर नई साइटों की उपस्थिति को ट्रैक करते हैं, इंटरनेट पर स्थित इंटरनेट पेजों को लगातार स्कैन करते हैं, प्रत्येक संसाधन पर फाइलें और उनसे लिंक करते हैं।
चरण दो
स्कैन करने के लिए, रोबोट उस निर्देशिका में जाता है जहां संसाधन किसी विशेष सर्वर पर स्थित होता है। एक नई साइट चुनते समय, रोबोट इसकी उपलब्धता द्वारा निर्देशित होता है। उदाहरण के लिए, एक राय है कि यांडेक्स पहले रूसी-भाषा डोमेन और रूसी में बनाई गई साइटों को स्कैन करता है - आरयू, आरएफ, सु या यूए, और उसके बाद ही अन्य क्षेत्रों में जाता है।
चरण 3
रोबोट साइट पर नेविगेट करता है और इसकी संरचना को स्कैन करता है, पहले उन फाइलों की तलाश करता है जो आगे की खोज का संकेत देती हैं। उदाहरण के लिए, साइट को साइटमैप.एक्सएमएल या robots.txt के लिए स्कैन किया जाता है। स्कैन करते समय इन फ़ाइलों का उपयोग खोज रोबोट के व्यवहार को सेट करने के लिए किया जा सकता है। साइटमैप (साइटमैप.एक्सएमएल) का उपयोग करके, रोबोट को संसाधन की संरचना का अधिक सटीक विचार मिलता है। वेबमास्टर उन फ़ाइलों को परिभाषित करने के लिए robots.txt का उपयोग करता है जिन्हें वह खोज परिणामों में नहीं दिखाना चाहता। उदाहरण के लिए, यह व्यक्तिगत जानकारी या अन्य अवांछित डेटा हो सकता है।
चरण 4
इन दो दस्तावेज़ों को स्कैन करने और आवश्यक निर्देश प्राप्त करने के बाद, रोबोट HTML कोड को पार्स करना और प्राप्त टैग को संसाधित करना शुरू कर देता है। डिफ़ॉल्ट रूप से, robots.txt फ़ाइल की अनुपस्थिति में, खोज इंजन सर्वर पर संग्रहीत सभी दस्तावेज़ों को संसाधित करना शुरू कर देता है।
चरण 5
दस्तावेज़ों में लिंक पर क्लिक करके, रोबोट अन्य साइटों के बारे में भी जानकारी प्राप्त करता है जो इस संसाधन के बाद स्कैनिंग के लिए कतारबद्ध हैं। साइट पर स्कैन की गई फ़ाइलें यांडेक्स डेटा केंद्रों में सर्वर पर टेक्स्ट कॉपी और संरचना के रूप में सहेजी जाती हैं।
चरण 6
पुन: स्कैनिंग की आवश्यकता भी रोबोट द्वारा स्वचालित रूप से निर्धारित की जाती है। प्रोग्राम साइट के अद्यतन संस्करण के साथ मौजूदा स्कैन परिणाम की तुलना करता है जब यह फिर से अनुक्रमण के माध्यम से जाता है। यदि प्रोग्राम द्वारा प्राप्त डेटा भिन्न होता है, तो साइट कॉपी को यैंडेक्स सर्वर पर भी अपडेट किया जाता है।