微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:[email protected]

Robots.txt में संशोधन के बाद | Google को इंडेक्स अपडेट करने में कितना समय लगता है

本文作者:Don jiang

Robots.txt में संशोधन करने के बाद, Google की प्रतिक्रिया दो चरणों में विभाजित होती है: “फ़ाइल क्रॉलिंग” और “इंडेक्स प्रभावी होना”।

आमतौर पर Googlebot 24 घंटे के भीतर इस फ़ाइल को फिर से पढ़ता है, लेकिन खोज परिणामों (इंडेक्स) में वास्तविक बदलाव के लिए आमतौर पर 3 से 10 दिन का समय लगता है।

SEO के कुशल प्रबंधन सिद्धांतों (EEAT) का अनुपालन करने के लिए, यह अनुशंसा की जाती है कि संशोधन के तुरंत बाद आप Google Search Console पर जाएँ।

“Robots.txt टेस्टर” के माध्यम से मैन्युअल रूप से अपडेट सबमिट करें, और मुख्य पृष्ठों के लिए पुन: अनुक्रमण (re-indexing) का अनुरोध करने के लिए “URL निरीक्षण” टूल का उपयोग करें।

यह सक्रिय हस्तक्षेप प्रभावी समय को 48 घंटे के भीतर कम कर सकता है, जिससे यह सुनिश्चित होता है कि क्रॉल बजट (Crawl Budget) अनुकूलित है।

स्वचालित क्रॉल अपडेट

Googlebot RFC 9309 मानक का पालन करता है और डिफ़ॉल्ट रूप से robots.txt के लिए 24 घंटे की कैशिंग अवधि सेट करता है।

क्रॉलर प्रतिदिन कम से कम एक बार इस फ़ाइल का अनुरोध करता है; यदि सर्वर 304 Not Modified लौटाता है, तो Google पुराने निर्देशों का उपयोग करना जारी रखेगा;

यदि यह 200 OK लौटाता है और फ़ाइल का आकार 500 KB के भीतर है, तो नए नियम पुराने कैश को ओवरराइट कर देंगे।

स्वचालित अपडेट का सिंक्रनाइज़ेशन विलंब आमतौर पर 24 घंटे के भीतर होता है, लेकिन खोज परिणाम पृष्ठों पर इंडेक्स को हटाने या पुनर्प्राप्त करने का प्रतिबिंब क्रॉल बजट आवंटन पर निर्भर करता है, जिसमें आमतौर पर 3 से 10 दिन तक का समय लगता है।

क्रॉल बजट

क्रॉल बजट एक निश्चित संख्या नहीं है; robots.txt को प्रोसेस करते समय, Googlebot हमेशा इस फ़ाइल को प्राप्त करने के लिए बजट खर्च करने को प्राथमिकता देता है।

यदि किसी साइट का क्रॉल बजट पर्याप्त है, तो Googlebot द्वारा /robots.txt पर जाने की आवृत्ति सामान्य साइटों की तुलना में काफी अधिक होगी।

बड़े ई-कॉमर्स प्लेटफॉर्म के लिए जो प्रतिदिन हजारों नए URL उत्पन्न करते हैं, Google हर कुछ घंटों में फ़ाइल परिवर्तनों का पता लगा सकता है।

कम बजट वाली छोटी साइटों पर, सिस्टम 24 घंटे के कैशिंग चक्र को सख्ती से लागू करेगा।

यदि Googlebot अनुरोधों के लिए सर्वर की औसत प्रतिक्रिया समय 2 सेकंड से अधिक है, तो Google स्वचालित रूप से उस साइट के क्रॉल बजट को कम कर देगा।

बजट में यह कटौती robots.txt के अपडेट डिटेक्शन को प्रभावित करेगी।

जब सर्वर उच्च लोड के तहत बड़ी संख्या में 5xx त्रुटियां लौटाता है, तो होस्ट सर्वर की सुरक्षा के लिए, Googlebot डिटेक्शन आवृत्ति को काफी कम कर देगा, स्थानीय रूप से कैश्ड रोबोट निर्देशों को अपडेट करना बंद कर देगा, और 35 दिनों की लंबी निर्देश प्रतिधारण अवधि में प्रवेश कर जाएगा।

इस स्थिति में, भले ही सर्वर-साइड फ़ाइल को संशोधित कर दिया गया हो, शेड्यूलिंग सिस्टम अभी भी क्रॉल कोटा आवंटित करने के लिए पुराने पुराने कैश का उपयोग करेगा।

साइट स्तर अनुमानित दैनिक क्रॉल अनुरोध robots.txt डिटेक्शन आवृत्ति नियम प्रभावी होने का समय
स्तर एक (मिलियन+ पृष्ठ) > 100,000 बार हर 4 – 6 घंटे में एक बार 12 घंटे के भीतर
स्तर दो (लाख+ पृष्ठ) 1,000 – 50,000 बार हर 12 – 24 घंटे में एक बार लगभग 24 घंटे
स्तर तीन (10 हजार से कम पृष्ठ) < 500 बार हर 24 – 48 घंटे में एक बार 48 घंटे से अधिक

यदि किसी साइट ने हाल ही में बड़ी संख्या में उच्च-गुणवत्ता वाली मूल रिपोर्ट या उत्पाद पृष्ठ प्रकाशित किए हैं, तो Google का शेड्यूलिंग एल्गोरिदम उसकी क्रॉल प्राथमिकता बढ़ा देगा।

इस “उच्च मांग” के तहत, Googlebot अधिक बार रूट डायरेक्टरी का अनुरोध करेगा और साथ ही साथ robots.txt के संस्करण सत्यापन को पूरा करेगा।

Google खोज केंद्र के तकनीकी संकेतक बताते हैं कि उच्च PageRank मान वाले पृष्ठों की संख्या सीधे क्रॉल बजट से संबंधित है

अधिक उच्च-अधिकार वाले बाहरी लिंक वाले डोमेन आमतौर पर बिना किसी बाहरी लिंक वाली नई साइटों की तुलना में अपनी robots.txt को 300% तेजी से अपडेट करते हैं।

बड़ी संख्या में नियमों वाली robots.txt फ़ाइलों को संभालते समय, 500 KB की पार्सिंग सीमा क्रॉल बजट के साथ जटिल तरीके से इंटरैक्ट करेगी।

यदि फ़ाइल में बड़ी संख्या में रेगुलर एक्सप्रेशन मिलान प्रतीक (जैसे * और $) शामिल हैं, तो प्रत्येक स्वचालित अपडेट चक्र के दौरान फ़िल्टरिंग लॉजिक निष्पादित करने के लिए Googlebot के पार्सर की लागत बढ़ जाएगी।

सीमित क्रॉल बजट वाली साइटों के लिए, नियमों का यह अक्षम सेट क्रॉलर को सीमित कनेक्शन समय के भीतर गहरे स्तर की निर्देशिकाओं को प्रभावी ढंग से पार करने से रोकेगा, जो GSC रिपोर्ट में “क्रॉल किया गया – वर्तमान में अनुक्रमित नहीं” मानों में वृद्धि के रूप में प्रकट होता है।

क्रॉल बजट और अपडेट गति के बीच मिलान को प्रभावित करने वाले विशिष्ट डेटा संकेतक यहाँ दिए गए हैं:

  • Host Load सीमा: समवर्ती क्रॉलिंग के दौरान सर्वर को 200 OK प्रतिक्रिया दर 99% से ऊपर बनाए रखनी चाहिए, अन्यथा बजट स्वचालित रूप से कम हो जाएगा।
  • URL निर्देश घनत्व: यदि एक फ़ाइल में Disallow पथ 10,000 पंक्तियों से अधिक हैं, तो यह कैश अपडेट के दौरान पार्सर पर गणना के बोझ को काफी बढ़ा देगा।
  • औसत प्रतिक्रिया विलंब: यदि Googlebot द्वारा robots.txt प्राप्त करने का समय 200 मिलीसेकंड के भीतर स्थिर रहता है, तो सिस्टम डिटेक्शन आवृत्ति बढ़ाने की प्रवृत्ति रखेगा।
  • 304 प्रतिक्रिया अनुपात: यदि सर्वर बार-बार 304 निर्देश लौटाता है, तो Googlebot यह मान लेगा कि फ़ाइल सामग्री स्थिर है, जिससे अगली स्वचालित डिटेक्शन की समय सीमा 24 घंटे की ऊपरी सीमा तक बढ़ जाएगी।

उद्देश्य के आधार पर विभाजित क्रॉल अनुरोधों में, “री-सिंक्रनाइज़ेशन” श्रेणी का अनुपात Googlebot द्वारा निर्देशों को ताज़ा रखने के लिए उपभोग किए गए बजट के अनुपात को दर्शाता है।

यदि यह अनुपात कुल क्रॉल वॉल्यूम के 1% से कम है, और साइट बड़े पैमाने पर पथ समायोजन अवधि में है, तो स्वचालित अपडेट में देरी अनियंत्रित हो जाएगी

इस समय, अवरुद्ध निर्देशिकाओं के लिए क्रॉलिंग जारी रहेगी क्योंकि शेड्यूलिंग पूल में पुराने कैश्ड निर्देश अभी तक ओवरराइट नहीं हुए हैं।

कंटेंट डिलीवरी नेटवर्क (CDN) पर होस्ट की गई साइटों के लिए, CDN एज नोड्स की कैशिंग नीतियां कभी-कभी क्रॉल बजट के Googlebot के निर्णय में हस्तक्षेप करती हैं। यदि robots.txt में बदलाव के बाद भी CDN पुराने Etag के साथ Googlebot को प्रतिक्रिया देता है, तो Google गलत तरीके से यह मान लेगा कि फ़ाइल अपडेट नहीं हुई है, जिससे वर्तमान स्वचालित सिंक समाप्त हो जाएगा। यह स्थिति उत्तरी अमेरिका और यूरोप के वितरित होस्टिंग वातावरण में आम है और आमतौर पर इसके लिए robots.txt की CDN कैश वैधता को अनिवार्य रूप से 0 सेट करने या no-cache हेडर का उपयोग करने की आवश्यकता होती है।

जब किसी साइट पर robots.txt में बड़े पैमाने पर संशोधन किया जाता है, तो मूल रूप से क्रॉल करने की अनुमति वाले हजारों पृष्ठ नियम परिवर्तन के बाद पहले 48 घंटों के भीतर क्रॉल रिकॉर्ड उत्पन्न करना जारी रख सकते हैं।

केवल तभी जब नया robots.txt कैश Google के सभी क्रॉल क्लस्टर नोड्स में पूरी तरह से सिंक्रनाइज़ हो जाता है, सिस्टम द्वारा इन पुराने क्रॉल कार्यों को बैचों में रद्द कर दिया जाएगा।

अपडेट के बाद का प्रदर्शन

सामान्य स्थिति में, robots.txt की 200 (OK) या 304 (Not Modified) प्रतिक्रिया को 100% अनुरोध रिकॉर्ड को कवर करना चाहिए

यदि 4xx या 5xx स्थिति कोड का अनुपात बढ़ता है, तो यह इंगित करता है कि Googlebot के स्वचालित सत्यापन अनुरोधों को संसाधित करते समय सर्वर में कॉन्फ़िगरेशन विचलन हुआ है।

स्वचालित अपडेट के 24 से 48 घंटों के भीतर, आप “कुल क्रॉल” चार्ट में एक स्पष्ट मोड़ देखेंगे।

यदि नए निर्देश उच्च-आवृत्ति क्रॉल की गई निर्देशिकाओं को अवरुद्ध करते हैं, तो सर्वर लॉग में Googlebot के User-Agent अनुरोधों की आवृत्ति प्रति मिनट दर्जनों बार से गिरकर शून्य हो जाएगी।

निगरानी संकेतक सामान्य स्वचालित अपडेट प्रदर्शन असामान्य स्थिति प्रदर्शन
robots.txt प्रतिक्रिया कोड लगातार 200 या 304 स्थिति बनाए रखता है। 403 अनुमति अस्वीकृत या 503 सेवा अनुपलब्ध दिखाई देता है।
क्रॉल अनुरोध प्रकार अवरुद्ध पथों के लिए “सामग्री निकालें” अनुरोध गायब हो जाते हैं। अवरुद्ध पथों के लिए अभी भी बड़ी संख्या में 200 क्रॉल रिकॉर्ड उत्पन्न होते हैं।
इंडेक्स कवरेज “बहिष्कृत” श्रेणी के तहत “robots.txt द्वारा अवरुद्ध” की संख्या बढ़ जाती है। robots.txt संशोधन के साथ “वैध” पृष्ठों की संख्या कम नहीं होती है।
Host Load संकेतक अवरुद्ध सीमा बढ़ने के साथ सर्वर लोड दबाव कम हो जाता है। क्रॉल दबाव कम होने के बजाय बढ़ जाता है, संभवतः निर्देश सिंटैक्स संघर्ष के कारण।

RFC 9309 प्रोटोकॉल विनिर्देशों के अनुसार, स्वचालित रूप से robots.txt को संसाधित करते समय Googlebot 500 KB बाइट सीमा का कड़ाई से पालन करेगा। यदि स्वचालित अपडेट के बाद फ़ाइल सामग्री इस सीमा से अधिक हो जाती है, तो Google केवल पहले 500 KB निर्देशों को पढ़ेगा और निष्पादित करेगा। डेटा प्रदर्शन के संदर्भ में, इसके परिणामस्वरूप फ़ाइल के अंत में स्थित Disallow नियम विफल हो जाएंगे, और जो पृष्ठ क्रॉल नहीं किए जाने चाहिए वे अभी भी खोज परिणामों में दिखाई देंगे।

इंडेक्स स्तर के फीडबैक के दृष्टिकोण से, स्वचालित अपडेट पूरा होने के बाद, Google नए नियमों द्वारा क्रॉल करने से प्रतिबंधित पृष्ठों को डेटाबेस से तुरंत नहीं हटाएगा।

खोज परिणाम पृष्ठ (SERP) आमतौर पर 3 से 10 दिनों की संक्रमण अवधि से गुजरते हैं

इस अवधि के दौरान, पृष्ठ का शीर्षक और विवरण (Snippet) बदल जाएगा, जो मानक प्लेसहोल्डर टेक्स्ट जैसे “इस वेबसाइट की robots.txt के कारण इस पृष्ठ का विवरण उपलब्ध नहीं है” के रूप में दिखाई देगा।

यदि आप Search Console के “URL निरीक्षण टूल” में प्रभावित URL दर्ज करते हैं, तो सिस्टम “अनुक्रमित, लेकिन robots.txt द्वारा अवरुद्ध” की स्थिति वापस कर देगा।

अपडेट चरण डेटा विशेषताएँ संबंधित संचालन सुझाव
दिन 1-2 सर्वर लॉग में robots.txt अनुरोध बढ़ जाते हैं, कैश रीसेट पूरा हो जाता है। जांचें कि क्या GSC में “क्रॉल आँकड़े” में कोई 5xx त्रुटि है।
दिन 3-5 क्रॉल बजट पुनर्वितरित होना शुरू होता है, नए अनुमत पथों के लिए क्रॉल वॉल्यूम बढ़ जाता है। निगरानी करें कि क्या नई खुली निर्देशिकाओं की क्रॉल आवृत्ति अपेक्षाओं को पूरा करती है।
दिन 7-14 इंडेक्स डेटाबेस बड़े पैमाने पर सिंक्रनाइज़ेशन पूरा करता है, पुराने पृष्ठ विवरण गायब हो जाते हैं। जांचें कि क्या SERP में अभी भी प्लेसहोल्डर के साथ अमान्य लिंक मौजूद हैं।

Googlebot के IP सेगमेंट अनुरोधों का विश्लेषण करके, आप पाएंगे कि Google हर 24 घंटे में एक अनिवार्य robots.txt डिटेक्शन करता है

डेटा लॉग में, इस अनुरोध में आमतौर पर googlebot-id की सत्यापन जानकारी होती है।

यदि स्वचालित अपडेट प्रभावी होता है, तो निषिद्ध निर्देशिकाओं के लिए GET अनुरोध जल्दी से 0 हो जाएंगे।

मिलियन से अधिक पृष्ठों वाली बड़ी साइटों के लिए, क्रॉल आवृत्ति में यह गिरावट अधिक क्रॉल कोटा जारी करेगी, और मूल रूप से कम क्रॉल आवृत्ति वाले उच्च-मूल्य वाले पृष्ठों (जैसे हाल ही में प्रकाशित समाचार पृष्ठ या उत्पाद विवरण पृष्ठ) को अधिक क्रॉल अवसर मिलेंगे।

इस समय, GSC में “डिस्कवर किया गया – वर्तमान में अनुक्रमित नहीं” स्थिति वाले पृष्ठों की संख्या में गिरावट की प्रवृत्ति दिखाई देगी।

Google का स्वचालित अपडेट एल्गोरिदम Last-Modified HTTP हेडर को संदर्भित करेगा। यदि सर्वर एक सटीक अंतिम संशोधन समय के साथ कॉन्फ़िगर किया गया है, तो स्वचालित अपडेट निष्पादित करते समय Googlebot स्थानीय कैश और सर्वर फ़ाइल के बीच अंतर की अधिक प्रभावी ढंग से तुलना कर सकता है। यदि फ़ाइल का आकार अपरिवर्तित रहता है और हेडर की तारीख अपडेट नहीं होती है, तो Googlebot क्रॉलर संसाधनों को बचाने के लिए 304 स्थिति कोड भेजकर इस अपडेट चेक को समाप्त कर सकता है।

उन पृष्ठों के लिए जो मूल रूप से शीर्ष तीन खोज पृष्ठों में रैंक करते थे, उनके कैश हटाने की गति अक्सर गहरे पृष्ठों की तुलना में धीमी होती है

आप खोज बॉक्स में inurl: सिंटैक्स के साथ site निर्देश का उपयोग करके डेटा नमूना जांच कर सकते हैं।

यदि आप पाते हैं कि कुछ निजी निर्देशिकाएं स्वचालित अपडेट के 14 दिनों के बाद भी शीर्षक के साथ खोजी जा सकती हैं, तो यह इंगित करता है कि robots.txt के स्वचालित क्रॉल में रिकर्सिव रीडायरेक्ट समस्याओं का सामना करना पड़ा होगा, जिससे Googlebot अंतिम टेक्स्ट नियमों को प्राप्त करने में असमर्थ रहा।

Search Console मैन्युअल अपडेट

GSC के “सेटिंग्स” पैनल में, robots.txt रिपोर्ट के माध्यम से Googlebot को इसके 24 घंटे के डिफ़ॉल्ट कैश को ताज़ा करने के लिए बाध्य किया जा सकता है।

तदनुसार “अपडेट का अनुरोध करें” बटन पर क्लिक करने के बाद, Google आमतौर पर 10 से 30 मिनट के भीतर सर्वर पर फ़ाइल को फिर से निकाल लेता है।

यह क्रिया HTTP प्रतिक्रिया स्थिति को Google इंडेक्स डेटाबेस के साथ सिंक्रनाइज़ करेगी; यदि स्थिति कोड 200 है, तो नए नियमों को तुरंत संसाधित किया जाएगा;

यदि 503 त्रुटि का सामना करना पड़ता है, तो Googlebot क्रॉल को स्थगित कर देगा।

हस्तक्षेप की यह विधि प्राकृतिक अपडेट के लिए आवश्यक 48 घंटे की अवधि को 1 घंटे से भी कम समय तक काफी कम कर सकती है।

संचालन प्रक्रिया

Google Search Console में लॉग इन करने के बाद, आपको माउस को बाएं नेविगेशन बार के नीचे “सेटिंग्स” विकल्प पर ले जाना होगा।

सेटिंग्स पृष्ठ में, “क्रॉलिंग” श्रेणी के तहत robots.txt रिपोर्ट देखें।

रिपोर्ट में प्रवेश करने के लिए क्लिक करें, इंटरफ़ेस वर्तमान में Google द्वारा डेटाबेस में संग्रहीत फ़ाइल की प्रतिलिपि प्रदर्शित करेगा।

इस पृष्ठ के शीर्ष पर अंतिम सफल निष्कर्षण की तिथि और सेकंड तक का सटीक टाइमस्टैम्प इंगित किया गया है।

यदि सर्वर पर फ़ाइल में संशोधन किए गए हैं, तो पृष्ठ के ऊपरी दाएं कोने में “अपडेट का अनुरोध करें” बटन पर क्लिक करें।

यह क्रिया एक एसिंक्रोनस अनुरोध ट्रिगर करेगी, जो Googlebot को वेबसाइट की रूट डायरेक्टरी के तहत /robots.txt पथ पर तुरंत फिर से जाने के लिए सूचित करेगी।

Googlebot एक्सेस करने के लिए एक मानक क्रॉल आवृत्ति का उपयोग करेगा; आमतौर पर बटन पर क्लिक करने के बाद 10 से 15 मिनट के भीतर, सिस्टम “कतारबद्ध” से “निष्कर्षण सफल” स्थिति में संक्रमण पूरा कर लेगा।

robots.txt निकालते समय, Googlebot फ़ाइल आकार की ऊपरी सीमा को सख्ती से 500 KB (लगभग 512,000 बाइट्स) तक सीमित करता है। यदि सर्वर द्वारा लौटाई गई फ़ाइल इस सीमा से अधिक है, तो Google केवल पहले 500 KB की सामग्री पढ़ेगा, शेष को अनदेखा कर दिया जाएगा। इस ट्रंकेशन व्यवहार के कारण फ़ाइल के अंत में स्थित Allow या Disallow निर्देश विफल हो जाएंगे।

अपडेट बटन पर क्लिक करने के बाद, सर्वर को HTTP 200 OK प्रतिक्रिया स्थिति लौटानी होगी।

यदि सर्वर ने कैशिंग तंत्र कॉन्फ़िगर किया है, जैसे ETag या Last-Modified प्रतिक्रिया शीर्षकों का उपयोग करना, तो Googlebot एक If-Modified-Since अनुरोध भेजेगा।

यदि फ़ाइल सामग्री में कोई बाइट-स्तरीय परिवर्तन नहीं हुआ है, तो सर्वर 304 Not Modified लौटाता है; इस समय, GSC रिपोर्ट में निष्कर्षण टाइमस्टैम्प अभी भी अपडेट होगा, लेकिन फ़ाइल सामग्री वैसी ही रहेगी।

यदि नई फ़ाइल में सिंटैक्स त्रुटियाँ हैं, जैसे User-agent पंक्ति गायब है या गैर-मानक वाइल्डकार्ड का उपयोग किया गया है, तो GSC रिपोर्ट पूर्वावलोकन विंडो में लाल रंग में विशिष्ट त्रुटि पंक्ति संख्या को चिह्नित करेगी।

मैन्युअल अपडेट प्रक्रिया के लिए आवश्यक है कि फ़ाइल एन्कोडिंग UTF-8 होनी चाहिए; यदि बाइट ऑर्डर मार्क (BOM) वाली अन्य एन्कोडिंग प्रारूपों का उपयोग किया जाता है, तो Googlebot फ़ाइल की शुरुआत में पहले निर्देश को पार्स करने में असमर्थ हो सकता है।

यदि वेबसाइट क्लाउडफ्लेयर या फ़ास्टली जैसे CDN (कंटेंट डिलीवरी नेटवर्क) का उपयोग करती है, तो GSC में मैन्युअल रूप से अपडेट पर क्लिक करने से पहले, CDN प्रबंधन बैकएंड में फ़ाइल पथ रिफ्रेश (Purge Cache) किया जाना चाहिए। अन्यथा, Googlebot अभी भी CDN नोड द्वारा कैश्ड पुराने संस्करण को क्रॉल करेगा, जिससे GSC रिपोर्ट में प्रदर्शित टाइमस्टैम्प नया होने के बावजूद नियम सामग्री पुरानी ही रहेगी।

कई सबडोमेन वाली साइटों के लिए (जैसे blog.example.com और shop.example.com), प्रत्येक सबडोमेन की अपनी स्वतंत्र robots.txt फ़ाइल होती है।

GSC में मैन्युअल रूप से अपडेट ट्रिगर करते समय, आपको संबंधित संसाधन संपत्ति पर स्विच करना होगा और अलग से काम करना होगा।

मैन्युअल अपडेट अनुरोधों को संसाधित करते समय, Googlebot न केवल मानक क्रॉलर की अनुमतियों को अपडेट करेगा, बल्कि Googlebot-Image (छवि खोज) और Googlebot-Video (वीडियो खोज) के लिए क्रॉल नियमों को भी सिंक्रनाइज़ करेगा।

यदि robots.txt में कई Sitemap पथ परिभाषित हैं, तो मैन्युअल अपडेट सफल होने के बाद, Google इन Sitemap पथों को लंबित कतार में जोड़ देगा, लेकिन Sitemap के भीतर URL के पुन: क्रॉल को सिंक्रनाइज़ रूप से ट्रिगर नहीं करेगा; पृष्ठों का वास्तविक इंडेक्स अपडेट अभी भी प्रत्येक पृष्ठ के क्रॉल बजट आवंटन का पालन करना चाहिए।

24 घंटे के भीतर, यदि एक ही संसाधन संपत्ति के लिए अनुरोधों की संख्या एक निश्चित सीमा से अधिक हो जाती है, तो बटन अनुपलब्ध हो जाएगा।

Googlebot 5 रीडायरेक्ट सीमा का पालन करता है।

यदि /robots.txt किसी अन्य URL पर रीडायरेक्ट करता है, तो Googlebot अधिकतम 5 जंप तक अनुसरण करेगा।

यदि रीडायरेक्ट श्रृंखला बहुत लंबी है या 404 पृष्ठ की ओर इशारा करती है, तो Google इसे “अप्रतिबंधित क्रॉल” के रूप में मानेगा, यानी डिफ़ॉल्ट रूप से वेबसाइट की सभी सामग्री तक पहुंच की अनुमति होगी।

मैन्युअल अपडेट पूरा होने के बाद, “URL निरीक्षण टूल” के साथ इसका उपयोग करने की अनुशंसा की जाती है।

टूल में नए नियमों से प्रभावित एक विशिष्ट URL दर्ज करें और “लाइव URL का परीक्षण करें” पर क्लिक करें।

लौटाए गए JSON लॉजिक डेटा में, जांचें कि क्या “क्रॉल अनुमति” कॉलम अब “robots.txt द्वारा अवरुद्ध” या “अनुमत” के रूप में प्रदर्शित होता है।

परिवर्तन चक्र

10,000 पृष्ठों वाली एक मध्यम आकार की साइट के लिए, यदि किसी निर्देशिका को मूल रूप से Disallow निर्देश के माध्यम से अवरुद्ध किया गया था, तो Allow में बदलने के बाद, Googlebot को इन URL को फिर से खोजना होगा।

यदि ये URL अभी भी XML साइटमैप में मौजूद हैं, तो क्रॉलर 48 घंटे के भीतर एक्सेस करने का प्रयास करेगा;

यदि इन पृष्ठों की ओर इशारा करने वाला कोई इन-साइट लिंक नहीं है, तो खोज चक्र 14 दिनों से अधिक तक बढ़ जाएगा।

साइट का आकार और अधिकार नियम परिवर्तन प्रकार अनुमानित इंडेक्स स्थिति ताज़ा करने का समय क्रॉल आवृत्ति संदर्भ मान
बड़ी समाचार साइट (1M+ URL) पथ अवरोधन रद्द करें 4 घंटे – 24 घंटे प्रति सेकंड कई अनुरोध
सामान्य कॉर्पोरेट वेबसाइट (1k-5k URL) पथ अवरोधन रद्द करें 7 दिन – 21 दिन दैनिक 10-50 अनुरोध
किसी भी आकार की साइट नया Disallow अवरोधन जोड़ें 24 घंटे – 5 दिन पुराने कैश की समाप्ति गति पर निर्भर करता है
कम अधिकार वाली नई साइट नियम अनुमति 15 दिन – 45 दिन साप्ताहिक कुछ अनुरोध

robots.txt से अवरोधन निर्देश हटाए जाने के बाद, Googlebot प्रभावित पथों को “क्रॉल किया जाना बाकी” के रूप में चिह्नित करेगा।

यदि सर्वर धीमी प्रतिक्रिया देता है या Googlebot द्वारा नए अनुमत पृष्ठों तक पहुँचने का प्रयास करते समय बड़ी संख्या में 503 स्थिति कोड लौटाता है, तो सिस्टम स्वचालित रूप से उस साइट की क्रॉल प्राथमिकता कम कर देगा, जिससे इंडेक्स अपडेट का समय और आगे बढ़ जाएगा।

Google का आंतरिक Caffeine इंडेक्सिंग सिस्टम इन नए क्रॉल किए गए डेटा को संसाधित करेगा और ऐतिहासिक स्नैपशॉट के साथ उनकी तुलना करेगा।

यदि पृष्ठ की सामग्री वैसी ही है जैसी कुछ सप्ताह पहले अवरुद्ध होने के समय थी, तो सिस्टम इंडेक्सिंग की गति तेज कर सकता है;

यदि पृष्ठ पूरी तरह से नई सामग्री है, तो उसे पूर्ण गुणवत्ता मूल्यांकन प्रक्रिया से गुजरना होगा।

“क्रॉल किया गया” और “अनुक्रमित” के बीच अंतर करना आवश्यक है। GSC के पेज इंडेक्सिंग रिपोर्ट में, भले ही स्थिति “क्रॉल किया गया – वर्तमान में अनुक्रमित नहीं” के रूप में दिखाई दे, यह इंगित करता है कि robots.txt का मैन्युअल अपडेट प्रभावी हो गया है और क्रॉलर पृष्ठ सामग्री को सफलतापूर्वक पढ़ने में सक्षम हो गया है। इस समय देरी मुख्य रूप से पृष्ठ गुणवत्ता की Google की एल्गोरिदम गणना से उत्पन्न होती है, न कि क्रॉल नियमों के प्रतिबंधों से।

उन पृष्ठों के लिए जो मूल रूप से अनुमत स्थिति में थे और अब उन्हें robots.txt के माध्यम से अवरुद्ध करने की आवश्यकता है, प्रसंस्करण गति आमतौर पर “अनुमति देने” की तुलना में तेज होगी।

एक बार जब Googlebot अपनी अगली नियमित यात्रा के दौरान पाता है कि अनुरोध को robots.txt द्वारा अस्वीकार कर दिया गया है, तो वह कैश में इस बदलाव को रिकॉर्ड कर लेगा।

प्रभावित URL 3 से 7 दिनों के भीतर नियमित खोज परिणामों से गायब हो जाएंगे।

लेकिन कुछ मामलों में, यदि बाहरी लिंक अभी भी उस URL की ओर इशारा करते हैं, तो Google बिना स्निपेट जानकारी के एक इंडेक्स प्रविष्टि रख सकता है और खोज परिणामों में “robots.txt के कारण इस पृष्ठ का विवरण उपलब्ध नहीं है” प्रदर्शित कर सकता है।

यह स्थिति बताती है कि robots.txt ने केवल सामग्री को पढ़ने से रोका है और इंडेक्स डेटाबेस से URL के अस्तित्व को पूरी तरह से नहीं हटाया है।

संचालन लक्ष्य तकनीकी ट्रिगर तंत्र Googlebot व्यवहार लॉजिक इंडेक्स डेटाबेस अंतिम प्रतिक्रिया
गलती से हटाई गई निर्देशिका इंडेक्स को पुनर्स्थापित करें Disallow निर्देश हटाएं पथ को नए खोजे गए URL कतार में जोड़ें पृष्ठ शीर्षक और स्निपेट फिर से प्रदर्शित करें
संवेदनशील निर्देशिकाओं को प्रदर्शित होने से रोकें नया Disallow निर्देश जोड़ें उस पथ के लिए GET अनुरोध शुरू करना बंद करें पृष्ठ सामग्री हटाएँ, संभवतः URL प्लेसहोल्डर रखें
क्रॉल दक्षता में सुधार करें पथ वाइल्डकार्ड अनुकूलित करें क्रॉल कोटा को महत्वपूर्ण पथों पर पुनर्वितरित करें महत्वपूर्ण पृष्ठों की स्नैपशॉट ताज़ा आवृत्ति बढ़ाएँ

यदि साइट robots.txt को संशोधित करने के साथ-साथ पृष्ठ के मेटा निर्देशों (जैसे meta name=”robots” content=”noindex”) को भी अपडेट करती है, तो कृपया दोनों के बीच लॉजिक संघर्ष पर ध्यान दें।

यदि robots.txt किसी पथ को अवरुद्ध करता है, तो Googlebot उस पथ के तहत वेब पेज के भीतर noindex टैग को नहीं पढ़ पाएगा।

किसी पृष्ठ के इंडेक्स को पूरी तरह से हटाने के लिए, मानक अभ्यास पहले robots.txt में Allow स्थिति बनाए रखना है ताकि यह सुनिश्चित हो सके कि Googlebot पृष्ठ के भीतर noindex निर्देश को पढ़ सके, और खोज परिणामों से इंडेक्स गायब होने के बाद robots.txt में Disallow अवरोधन लागू करें।

Google के तकनीकी दस्तावेज़ों के अनुसार, robots.txt की कैश समाप्ति अवधि आमतौर पर 24 घंटे होती है। यदि GSC मैन्युअल अपडेट अनुरोध नहीं किया जाता है, तो Googlebot पिछली बार फ़ाइल निकालते समय सर्वर द्वारा लौटाए गए Cache-Control प्रतिक्रिया शीर्षकों के आधार पर अगले निष्कर्षण का समय तय करेगा। यदि सर्वर ने बहुत लंबा कैश जीवन सेट किया है, तो Google कई दिनों तक पुराने नियमों का उपयोग करना जारी रख सकता है।

छवि और वीडियो संसाधनों की इंडेक्स अपडेट गति आमतौर पर मानक HTML वेब पेजों की तुलना में धीमी होती है।

चूंकि Googlebot-Image की क्रॉल आवृत्ति आमतौर पर मुख्य क्रॉलर की तुलना में कम होती है, इसलिए /images/ निर्देशिका के लिए अवरोधन नियमों को संशोधित करने के बाद, खोज परिणामों में छवियों को बदलने में 30 से 60 दिन लग सकते हैं।

इंडेक्स में वास्तविक बदलाव

robots.txt को संशोधित करने के बाद, Googlebot डिफ़ॉल्ट रूप से 24 घंटे के भीतर अपने स्थानीय कैश को ताज़ा करता है।

Google Search Console (GSC) सबमिशन टूल के माध्यम से, फ़ाइल पढ़ने की देरी को 1 मिनट तक कम किया जा सकता है।

इंडेक्स स्तर पर परिवर्तन एसिंक्रोनस विशेषताओं को प्रदर्शित करते हैं:

क्रॉल अनुरोध आमतौर पर 10 मिनट के भीतर रुक जाते हैं, लेकिन खोज परिणाम पृष्ठ (SERP) से URL को पूरी तरह से हटाने में 3 से 14 दिन का विलंब होगा।

10,000 से अधिक बैकलिंक वाले पृष्ठों के लिए, Google बिना विवरण जानकारी के इंडेक्स प्लेसहोल्डर रखने की प्रवृत्ति रखता है।

SERP का विकास

जब Googlebot अपने 24-घंटे के robots.txt कैश चक्र के भीतर एक विशिष्ट पथ के लिए Disallow निर्देश पढ़ता है, तो विकास आमतौर पर निर्देश प्रभावी होने के 48 से 72 घंटों के भीतर दिखना शुरू हो जाता है, सबसे पहले वेब पेज का मेटा विवरण (Meta Description) गायब हो जाता है।

चूंकि Google उस पृष्ठ को क्रॉल करना बंद कर देता है, इसलिए इसका इंडेक्स डेटाबेस HTML दस्तावेज़ के भीतर <meta name="description"> टैग की सामग्री प्राप्त नहीं कर पाता है।

इसकी जगह एक मानकीकृत तकनीकी विवरण ले लेता है:

“वेबसाइट की robots.txt फ़ाइल के कारण इस परिणाम का विवरण उपलब्ध नहीं है।”

आंतरिक मेटाडेटा समर्थन की अनुपस्थिति में, Google का एल्गोरिदम उस URL के शीर्षक प्रदर्शन को बनाए रखने के लिए बाहरी एंकर टेक्स्ट (Anchor Text) का विश्लेषण करने की ओर मुड़ जाएगा।

Google आधिकारिक डेवलपर दस्तावेज़ों (Google Search Central) के अनुसार, यदि उस URL को Amazon, Wikipedia या अन्य उच्च-अधिकार वाली बाहरी साइटों द्वारा लिंक किया गया है, तो Google उस पृष्ठ की ओर इशारा करते समय इन बाहरी साइटों द्वारा उपयोग किए गए टेक्स्ट को क्रॉल करेगा।

यदि बाहरी लिंक मुख्य रूप से एंकर टेक्स्ट के रूप में “यहाँ क्लिक करें” या “आधिकारिक वेबसाइट” का उपयोग करते हैं, तो SERP में उस पृष्ठ का शीर्षक मूल रूप से अनुकूलित शब्दों से बदलकर इन बिना अर्थ वाले शब्दों में बदल सकता है, या यहाँ तक कि नग्न URL लिंक (जैसे https://example.com/private-page/) के रूप में प्रदर्शित हो सकता है।

5,000 से अधिक बाहरी बैकलिंक वाले पृष्ठों के लिए, Google द्वारा उनके SERP प्लेसहोल्डर को हटाने की संभावना बहुत कम है।

इस समय, खोज परिणामों में उस प्रविष्टि की क्लिक-थ्रू दर (CTR) आमतौर पर तेजी से गिरती है, जो अक्सर 85% से अधिक हो जाती है।

समय के साथ, यह दृश्य गिरावट रिच स्निपेट्स (Rich Snippets) और Schema मार्कअप तक फैल जाएगी।

मूल रूप से मौजूद फाइव-स्टार रेटिंग प्लगइन्स, मूल्य प्रदर्शन (Price) या स्टॉक स्थिति (Availability) जैसे संरचित डेटा 7 दिनों के भीतर SERP से पूरी तरह गायब हो जाएंगे।

चूंकि Google JSON-LD या Microdata के द्वितीयक सत्यापन को निष्पादित करने के लिए HTML में प्रवेश नहीं कर सकता है, इसलिए दृश्य आकर्षण बढ़ाने वाले इन घटकों को सिस्टम द्वारा भौतिक रूप से हटा दिया जाएगा।

New York या London में संचालित एक सीमा पार ई-कॉमर्स साइट के लिए, मूल रूप से खोज परिणामों में हावी रहने वाला दृश्य क्षेत्र सिमटकर केवल एक उबाऊ नीला लिंक शीर्षक रह जाएगा।

मोबाइल स्क्रीन पर सीमित स्थान के कारण, Google उन परिणामों को छिपाने की प्रवृत्ति रखता है जिनकी सूचना घनत्व बहुत कम है।

यदि robots.txt द्वारा अवरुद्ध कोई पृष्ठ मोबाइल-फर्स्ट इंडेक्सिंग (Mobile-First Indexing) में कम भार रखता है, तो उसे “अधिक परिणाम देखें” में समेटा जा सकता है या पेज 5 के बाद धकेला जा सकता है।

200 मामले साइटों के अवलोकन में, एक बार जब robots.txt ने क्रॉलिंग को रोक दिया, तो मोबाइल पर उस URL का प्रदर्शन हिस्सा (Impression Share) दो सप्ताह के भीतर लगभग 60% गिर गया।

भले ही उपयोगकर्ता सटीक निर्देशों (जैसे site:example.com) के माध्यम से उस पृष्ठ को ढूंढ लें, फिर भी उसकी दृश्य प्रस्तुति केवल एक पतले ढांचे के रूप में ही रहेगी।

जब तक Google Search Console के “हटाने के उपकरण” के माध्यम से मैन्युअल रूप से अनिवार्य छिपाने का अनुरोध निष्पादित नहीं किया जाता है, तब तक केवल शीर्षक और त्रुटि संदेश वाला यह URL महीनों तक SERP में मौजूद रह सकता है।

Reddit या Stack Overflow जैसे तकनीकी समुदायों में केस चर्चाओं में, डेवलपर्स अक्सर रिपोर्ट करते हैं कि क्रॉलिंग पर प्रतिबंध लगाने के छह महीने बाद भी उनके परीक्षण वातावरण के URL प्लेसहोल्डर के रूप में विशिष्ट लॉन्ग-टेल खोजों में दिखाई देते हैं।

इस घटना का तकनीकी सार यह है कि Google robots.txt को क्रॉल आवृत्ति नियामक के रूप में मानता है, न कि गोपनीयता हटाने वाले निर्देश के रूप में।

दृश्य तत्व परिवर्तन आइटम संशोधन से पहले की स्थिति संशोधन के बाद (7-14 दिन) स्थिति परिवर्तन डेटा संदर्भ
शीर्षक (Title) वेब पेज HTML कस्टम शीर्षक बाहरी एंकर टेक्स्ट या URL पथ CTR में 80%+ की अनुमानित गिरावट
विवरण (Snippet) मेटा विवरण या मुख्य भाग निष्कर्षण “robots.txt के कारण विवरण उपलब्ध नहीं है” वर्ण संख्या लगभग 36 वर्णों तक कम हो गई
रिच स्निपेट (Schema) रेटिंग, मूल्य, स्टॉक डिस्प्ले पूरी तरह गायब दृश्य स्थान में 50% की कटौती
स्नैपशॉट (Cache) वेब पेज का पूर्ण ऐतिहासिक दर्पण प्रदान करता है बटन हटाया गया या 403 पॉइंटर प्रदर्शित हुआ एक्सेस सफलता दर 0% है
ब्रेडक्रंब (Breadcrumb) संरचित पदानुक्रम पथ नग्न URL स्ट्रिंग पथ पदानुक्रम खो गया

पूरे विकास चक्र के दौरान, वेबमास्टर्स द्वारा बैकएंड में देखे गए क्रॉल आँकड़े कुछ घंटों के भीतर शून्य हो जाएंगे, लेकिन फ्रंट-एंड उपयोगकर्ता का धारणा परिवर्तन सप्ताह के आधार पर धीरे-धीरे होता है।

रिपोर्ट फीडबैक

robots.txt फ़ाइल को संशोधित करने के 24 से 72 घंटों के भीतर, Google Search Console (GSC) का बैकएंड डेटा क्रॉल प्रतिबंध निर्देशों के निष्पादन परिणामों को रिकॉर्ड करना और फीडबैक देना शुरू कर देगा।

इंडेक्स रिपोर्ट “पेज” (Pages) में, आप देखेंगे कि मूल रूप से “अनुक्रमित” स्थिति वाले URL की संख्या कम हो रही है, जबकि “अनुक्रमित, लेकिन robots.txt द्वारा अवरुद्ध” इस विशिष्ट चेतावनी श्रेणी का मान समान रूप से बढ़ेगा।

स्थिति का यह स्विच आमतौर पर 3 से 5 दिन का डेटा विलंब रखता है क्योंकि GSC की रिपोर्ट की तारीख आमतौर पर वर्तमान तारीख से दो दिन बाद होती है।

जब बड़ी संख्या में पृष्ठों को “चेतावनी” श्रेणी में रखा जाता है, तो यह इंगित करता है कि Google की Crawl Service ने उन पृष्ठों की HTML सामग्री पढ़ना बंद कर दिया है, लेकिन चूंकि उन URL के लिए अभी भी इंटरनेट पर लिंक मौजूद हैं, इसलिए इंडेक्स सिस्टम भौतिक विलोपन के बजाय उनके पथ रिकॉर्ड को बनाए रखने का विकल्प चुनता है।

GSC रिपोर्ट मॉड्यूल डेटा परिवर्तन प्रकार परिवर्तन समयरेखा संकेतक परिवर्तन सीमा संदर्भ
पेज इंडेक्सिंग रिपोर्ट “अनुक्रमित, लेकिन robots.txt द्वारा अवरुद्ध” चेतावनी वृद्धि संशोधन के 3 – 7 दिन बाद संबंधित पथ URL मात्रा 100% प्रवास
क्रॉल आँकड़े (Crawl Stats) विशिष्ट निर्देशिका के लिए क्रॉल अनुरोधों की संख्या संशोधन के 10 मिनट – 24 घंटे बाद अनुरोध मात्रा में 95% – 99% की गिरावट
URL निरीक्षण टूल (URL Inspection) वास्तविक समय परीक्षण “robots.txt के कारण क्रॉल नहीं किया जा सकता” दिखाता है संशोधन के 1 मिनट बाद (मैन्युअल रिफ्रेश) क्रॉल अनुमति स्थिति “विफल” हो जाती है
साइटमैप (Sitemaps) “साइटमैप में robots.txt द्वारा अवरुद्ध URL शामिल हैं” त्रुटि संशोधन के 48 – 72 घंटे बाद त्रुटियों की संख्या अवरुद्ध URL की संख्या के साथ मेल खाती है

“सेटिंग्स” मेनू के तहत “क्रॉल आँकड़े” रिपोर्ट में, “प्रतिक्रिया द्वारा” वर्गीकृत चार्ट को देखकर, आप पाएंगे कि संशोधन के बाद robots.txt फ़ाइल के क्रॉल अनुरोधों में आवृत्ति का एक संक्षिप्त शिखर होगा, फिर यह स्थिर हो जाएगा।

यदि फ़ाइल 200 OK स्थिति कोड लौटाती है और सामग्री प्रारूप सही है, तो Googlebot अगले क्रॉल चक्र में निर्देशों को सख्ती से निष्पादित करेगा।

आप CSV डेटा तालिका निर्यात करके पा सकते हैं कि अवरुद्ध निर्देशिकाओं के लिए Googlebot-Image या Googlebot-Video के अनुरोधों की संख्या 24 घंटे के भीतर शून्य हो जाएगी।

यदि क्रॉल आँकड़े इन पथों के लिए निरंतर अनुरोध दिखाते हैं, तो यह आमतौर पर इसलिए होता है क्योंकि Googlebot अभी भी उन अवशेष कार्यों को संसाधित करने का प्रयास कर रहा है जो नियम प्रभावी होने से पहले क्रॉल कतार में प्रवेश कर चुके थे; ऐसे अवशेष अनुरोध आमतौर पर 48 घंटे से अधिक नहीं होते हैं।

URL निरीक्षण उपकरण (URL Inspection Tool) सबसे सटीक सिंगल-पेज फीडबैक डेटा प्रदान करता है।

जब आप एक प्रतिबंधित URL दर्ज करते हैं और “वास्तविक परीक्षण” (Live Test) चलाते हैं, तो सिस्टम एक लाल सूचक आइकन लौटाएगा, जो स्पष्ट रूप से “क्रॉल:

विफल” और “कारण: robots.txt द्वारा अवरुद्ध” के रूप में चिह्नित होगा।

“Google इंडेक्स” टैब में, आप देखेंगे कि “कवरेज” फ़ील्ड अभी भी “अनुक्रमित” दिखा रहा है; इंडेक्स स्थिति और क्रॉल अनुमति के बीच यह विचलन robots.txt के प्रभावी होने के दौरान सामान्य है, यह तब तक जारी रहेगा जब तक Google उस URL के प्रतिधारण मूल्य की पुनर्गणना नहीं करता।

XML साइटमैप (Sitemaps) का उपयोग करने वाली साइटों के लिए, यदि आपके sitemap.xml में ऐसे URL शामिल हैं जिन्हें पहले ही robots.txt के माध्यम से क्रॉल करने से प्रतिबंधित कर दिया गया है, तो GSC इसे “त्रुटि” स्थिति के रूप में चिह्नित करेगा।

ऐसा इसलिए है क्योंकि साइटमैप का सार Google को इन URL को क्रॉल करने का सुझाव देना है, जबकि robots.txt उन्हें क्रॉल करने से रोकता है; इस तरह के परस्पर अनन्य निर्देशों के कारण इंडेक्सिंग दक्षता में गिरावट आती है।

500 मध्यम और बड़े साइटों के अवलोकन के आधार पर, इस निर्देश संघर्ष को ठीक करने के बाद, साइट के बाकी सामान्य पृष्ठों की Google की खोज गति लगभग 15% बढ़ जाएगी।

जब आप GSC में “सुरक्षा मुद्दे और मैन्युअल कार्रवाइयां” के अलावा अन्य सामान्य रिपोर्ट देखते हैं, भले ही आप robots.txt में अवरोधन निर्देश को रद्द कर दें, GSC रिपोर्ट में “अवरुद्ध” चेतावनी तुरंत गायब नहीं होगी; स्थिति को अपडेट करने के लिए एक पूर्ण पुन: क्रॉल चक्र (Re-crawl Cycle) की आवश्यकता होती है।

मेटा विवरण और शीर्षक अनुकूलन समर्थन खोने के बाद, खोज परिणामों में इन URL का प्रासंगिकता स्कोर काफी कम हो जाएगा।

  • क्रॉल आँकड़े रिपोर्ट की होस्ट स्थिति जाँच: GSC सेटिंग्स में robots.txt निष्कर्षण स्थिति देखें ताकि यह सुनिश्चित हो सके कि पिछले 24 घंटों में निष्कर्षण सफलता दर 100% है। यदि 403 या 5xx त्रुटियाँ दिखाई देती हैं, तो Google पिछली सफल कैश्ड संस्करण का उपयोग करने के लिए वापस लौट जाएगा, जिससे नए नियम विफल हो जाएंगे।
  • पथ सत्यापन के लिए क्रॉल लॉग निर्यात करें: GSC के माध्यम से निर्यात किए गए विस्तृत क्रॉल डेटा के माध्यम से, आप पुष्टि कर सकते हैं कि Googlebot के User-agent ने लक्षित निर्देशों को सटीक रूप से पहचाना है या नहीं। उदाहरण के लिए, यदि आपने केवल Googlebot-Image को अवरुद्ध किया है, तो क्रॉल आँकड़ों में वेब क्रॉलर के अनुरोध सामान्य रहने चाहिए, जबकि छवि क्रॉलर के अनुरोधों को एकल अंकों तक गिरना चाहिए।
  • इंडेक्स प्लेसहोल्डर के रहने की अवधि की निगरानी करें: “पेज” रिपोर्ट में चेतावनी लेबल वाले उन URL को ट्रैक करें; यदि 30 दिन के बाद भी ये URL चेतावनी श्रेणी से “अनुक्रमित नहीं” श्रेणी में नहीं जाते हैं, तो यह आमतौर पर इंगित करता है कि इन पृष्ठों का बाहरी लिंक अधिकार बहुत अधिक है, और केवल robots.txt के साथ इन्हें इंडेक्स डेटाबेस से बाहर करना संभव नहीं है।

डेवलपर्स को फ़ाइल संशोधित करने के 10 मिनट के भीतर सारांश रिपोर्ट में संख्या परिवर्तन देखने की उम्मीद नहीं करनी चाहिए।

इसके बजाय, ध्यान “क्रॉल आँकड़े” के वास्तविक समय के बदलावों और “URL निरीक्षण” के एकल बिंदु परीक्षणों पर केंद्रित होना चाहिए।

Don Jiang
Don Jiang

SEO本质是资源竞争,为搜索引擎用户提供实用性价值,关注我,带您上顶楼看透谷歌排名的底层算法。

最新解读
滚动至顶部