साइटमैप जमा करने के बाद丨Google ने केवल कुछ पेजों को ही क्यों इंडेक्स किया

本文作者:Don jiang

जब वे Google Search Console के माध्यम से sitemap सबमिट करते हैं और देखते हैं कि वास्तव में इंडेक्स की गई पृष्ठों की संख्या अपेक्षित संख्या से काफी कम है, तो वेबसाइट मालिक अक्सर गलत तरीके से सबमिट करने की संख्या बढ़ाने या फाइल को बार-बार बदलने की गलती करते हैं।

2023 के आधिकारिक आंकड़ों के अनुसार, 67% से अधिक इंडेक्सिंग समस्याएं मुख्य रूप से तीन कारणों से होती हैं: sitemap की गलत सेटिंग, क्रॉलिंग पथों का अवरोध और पृष्ठों की गुणवत्ता में कमी।

sitemap सबमिट करने के बाद Google केवल कुछ पृष्ठों को क्यों इंडेक्स करता है?

Table of Contens

sitemap फ़ाइल में समस्याएँ

यदि सबमिट किया गया sitemap Google द्वारा पूरी तरह से क्रॉल नहीं किया गया है, तो 50% मामलों में इसका कारण फ़ाइल में तकनीकी समस्याएं होती हैं।

हमने एक ईकॉमर्स प्लेटफ़ॉर्म के द्वारा सबमिट किए गए sitemap.xml की जाँच की और पाया कि उत्पाद पृष्ठों के URL में गतिशील पैरामीटर फ़िल्टर नहीं किए गए थे, जिसके कारण 27,000 डुप्लिकेट लिंक फ़ाइल को प्रदूषित कर रहे थे, और परिणामस्वरूप, Google केवल होमपेज को इंडेक्स कर रहा था।

▍समस्या 1: स्वरूप त्रुटियाँ विश्लेषण को रोक देती हैं

आंकड़ों का स्रोत: Ahrefs 2023 वेबसाइट ऑडिट रिपोर्ट

विशिष्ट उदाहरण: एक मेडिकल वेबसाइट का sitemap Windows-1252 कोडिंग का उपयोग कर रहा था, जिसके कारण Google 3,200 पृष्ठों को क्रॉल नहीं कर सका, और केवल होमपेज को पहचाना (Google Search Console में “पढ़ने में असमर्थ” चेतावनी)

सामान्य त्रुटियाँ

✅ XML टैग बंद नहीं किए गए (स्वरूप त्रुटियों का 43%)
✅ विशेष प्रतीकों को एस्केप नहीं किया गया (जैसे & प्रतीक को सीधे उपयोग करना, इसे & में बदलने के बजाय)
✅ xmlns नामस्थान की घोषणा नहीं की गई (<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> गायब)

आपातकालीन समाधान

  • स्ट्रक्चर की जांच के लिए Sitemap Validator का उपयोग करें
  • VSCode में XML Tools प्लगइन स्थापित करें, ताकि वास्तविक समय में सिंटैक्स चेक किया जा सके

▍समस्या 2: मृत लिंक विश्वास संकट पैदा करते हैं

उद्योग सर्वेक्षण: Screaming Frog द्वारा 500,000 साइटों का डेटा संकलन

चौंकाने वाला आंकड़ा

✖️ औसतन, प्रत्येक sitemap में 4.7% 404/410 त्रुटि लिंक होते हैं
✖️ ऐसे sitemaps जिनमें 5% से अधिक मृत लिंक होते हैं, उनकी इंडेक्सिंग दर 62% कम हो जाती है

वास्तविक उदाहरण: एक यात्रा प्लेटफ़ॉर्म के sitemap में अवगंत उत्पाद पृष्ठ थे (302 रीडायरेक्ट होमपेज पर), जिसके कारण Google ने इसे जानबूझकर इंडेक्सिंग को प्रभावित करने के रूप में पहचाना, और मुख्य पृष्ठों की इंडेक्सिंग में 117 दिनों की देरी हुई

समाधान

  1. क्रॉलिंग टूल्स को “Googlebot” के रूप में सेट करें और sitemap में सभी URLs को क्रॉल करने का अनुकरण करें
  2. 200 के अलावा अन्य स्थिति कोड वाले लिंक को निर्यात करें और उन्हें <robots noindex> जोड़कर या sitemap से हटा दें

▍समस्या 3: फ़ाइल का आकार सीमा से अधिक होने पर ट्रंकिंग

Google का आधिकारिक चेतावनी सीमा

⚠️ एक sitemap जो 50 MB या 50,000 URLs से अधिक हो, उसका प्रोसेसिंग स्वचालित रूप से रुक जाएगा

आपदा का उदाहरण: एक समाचार साइट का sitemap.xml, जिसमें 82,000 लेखों के लिंक थे, Google ने केवल पहले 48,572 लिंक ही प्रोसेस किए (लॉग्स विश्लेषण द्वारा सत्यापित)

विभाजन की रणनीति
🔹 सामग्री प्रकार के आधार पर विभाजित करें: /sitemap-articles.xml, /sitemap-products.xml
🔹 तिथि के आधार पर विभाजित करें: /sitemap-2023-08.xml (उच्च अपडेट वाले साइटों के लिए आदर्श)

फ़ाइल आकार निगरानी

हर सप्ताह Python स्क्रिप्ट का उपयोग करके फ़ाइल की पंक्तियों की संख्या गिनें (wc -l sitemap.xml) और 45,000 लाइनें होने पर विभाजन के लिए चेतावनी सेट करें।

▍समस्या 4: अपडेट फ़्रीक्वेंसी को खोज इंजन को धोखा देना

क्रॉलिंग प्रतिरोध तंत्र

🚫 <lastmod> फ़ील्ड का गलत उपयोग (जैसे कि सभी पृष्ठों को उसी दिन की तारीख देना), जिससे इंडेक्सिंग गति 40% धीमी हो जाती है

सीख: एक फ़ोरम ने हर दिन sitemap की lastmod तारीख को अपडेट किया, और तीन सप्ताह बाद, इंडेक्सिंग कवरेज 89% से घटकर 17% हो गई

संपत्ति संचालन

✅ केवल वास्तविक अपडेट किए गए पृष्ठों के लिए <lastmod> को अपडेट करें (मिनट तक सटीक: 2023-08-20T15:03:22+00:00)
✅ पुराने पृष्ठों के लिए <changefreq>monthly</changefreq> सेट करें ताकि क्रॉलिंग का दबाव कम हो सके

वेबसाइट संरचना के कारण क्रॉलिंग मार्ग अवरुद्ध होना

भले ही sitemap सही हो, वेबसाइट संरचना अभी भी Googlebot के लिए “भूलभुलैया” हो सकती है।

यदि React फ्रेमवर्क के साथ पृष्ठों को पूर्व-रेंडर नहीं किया गया है, तो 60% सामग्री को Google “खाली पृष्ठ” के रूप में पहचान सकता है।

जब आंतरिक लिंक वितरण असंतुलित होता है (जैसे कि होमपेज में 150 से अधिक बाहरी लिंक होते हैं), तो क्रॉलिंग की गहराई 2 स्तरों तक सीमित हो जाएगी, और इसके परिणामस्वरूप गहरे उत्पाद पृष्ठ कभी इंडेक्स नहीं होंगे।

robots.txt मुख्य पृष्ठों को अवरुद्ध करता है

सामान्य परिदृश्य

  • WordPress साइट पर डिफ़ॉल्ट नियम Disallow: /wp-admin/ के कारण संबंधित लेख पृष्ठों को अवरुद्ध करना (जैसे कि /wp-admin/post.php?post=123)
  • Shopify से बनाए गए साइट्स में Disallow: /a/ स्वतः उत्पन्न होने से सदस्य केंद्र पृष्ठों को अवरुद्ध करना

डेटा प्रभाव

✖️ 19% वेबसाइटें robots.txt में गलती से किए गए कॉन्फ़िगरेशन के कारण 30% से अधिक इंडेक्स खो देती हैं
✖️ गूगल बॉट को Disallow नियम मिलने पर, उसे फिर से पथ जांचने में औसतन 14 दिन लगते हैं

सुधार समाधान

  1. रूल्स के प्रभाव को सत्यापित करने के लिए robots.txt परीक्षण उपकरण का उपयोग करें
  2. URL जो ?ref= जैसे गतिशील पैरामीटर शामिल करते हैं, उन्हें ब्लॉक न करें (जब तक कि आप सुनिश्चित नहीं हों कि इनमें कोई सामग्री नहीं है)
  3. गलती से बंद किए गए पृष्ठों के लिए, robots.txt में प्रतिबंध हटाने के बाद, URL Inspection उपकरण का उपयोग करके पुनः क्रॉल करने के लिए सबमिट करें

▍ JS रेंडरिंग के कारण सामग्री की कमी

फ्रेमवर्क जोखिम

  • React/Vue सिंगल पेज एप्लिकेशन (SPA): बिना प्री-रेंडरिंग के, गूगल केवल 23% DOM तत्वों को क्रॉल करता है
  • Lazy Load इमेजेज: मोबाइल पर 51% मामलों में लोडिंग मैकेनिज़म सही से ट्रिगर नहीं होता है

वास्तविक मामला

एक ईकॉमर्स प्लेटफ़ॉर्म ने Vue का उपयोग करके मूल्य और स्पेसिफिकेशन को गतिशील रूप से रेंडर किया, जिसके कारण गूगल द्वारा इंडेक्स किए गए पृष्ठों की औसत सामग्री केवल 87 वर्ण थी (जबकि सामान्यत: 1200+ वर्ण होने चाहिए थे), और कन्वर्जन दर में सीधे 64% की गिरावट आई

आपातकालीन उपाय

  1. रेंडरिंग की पूर्णता जांचने के लिए मोबाइल अनुकूलता परीक्षण उपकरण का उपयोग करें
  2. SEO के महत्वपूर्ण पृष्ठों पर सर्वर साइड रेंडरिंग (SSR) लागू करें, या Prerender.io का उपयोग करके स्थैतिक स्नैपशॉट बनवाएं
  3. <noscript> टैग के भीतर महत्वपूर्ण सामग्री डालें (कम से कम H1 + 3 पंक्तियाँ विवरण के साथ)

▍ आंतरिक लिंक वजन असंतुलित वितरण

क्रॉल गहराई सीमा

  • मुख्य पृष्ठ पर 150 से अधिक बाहरी लिंक: औसत क्रॉल गहराई 2.1 स्तर तक घट जाती है
  • यदि महत्वपूर्ण सामग्री की क्लिक गहराई 3 से अधिक हो, तो इंडेक्स होने की संभावना 38% तक घट जाती है

संरचना अनुकूलन रणनीति

✅ ब्रेडक्रंब नेविगेशन में श्रेणी स्तरों को अनिवार्य रूप से शामिल करें (जैसे: मुख्य पृष्ठ>इलेक्ट्रॉनिक्स>मोबाइल>Huawei P60)
✅ लिस्ट पृष्ठों पर “महत्वपूर्ण पृष्ठ” मॉड्यूल जोड़ें, ताकि लक्ष्य पृष्ठों के आंतरिक लिंक वजन को मैन्युअल रूप से बढ़ाया जा सके
Screaming Frog का उपयोग करके बिना इनबाउंड लिंक वाले अनाथ पृष्ठ (Orphan Pages) को पहचानें और उन्हें संबंधित लेखों के अंत में लिंक करें

▍ पेजिनेशन/canonical टैग का दुरुपयोग

आत्मघाती कदम

  • उत्पाद पृष्ठों पर rel="canonical" का उपयोग कर के इसे मुख्य पृष्ठ की ओर इंगीत करना: इससे 63% पृष्ठ मर्ज और हटा दिए जाते हैं
  • टिप्पणी पृष्ठों पर rel="next"/"prev" टैग नहीं जोड़ना: इससे मुख्य पृष्ठ का वजन पतला हो जाता है

कम गुणवत्ता वाली सामग्री के कारण फ़िल्टरिंग

गूगल के 2023 एल्गोरिदम रिपोर्ट ने पुष्टि की: 61% कम इंडेक्स वाली पृष्ठ सामग्री की गुणवत्ता की कमी के कारण नहीं इंडेक्स किए गए

जब एक जैसे मॉडल पृष्ठों का प्रतिशत 32% से अधिक हो जाता है, तो इंडेक्स दर 41% तक गिर जाती है। मोबाइल पर 2.5 सेकंड से अधिक लोड होने वाले पृष्ठों का क्रॉल प्राथमिकता भी घट जाती है।

डुप्लिकेट सामग्री से विश्वास टूटना

उद्योग ब्लैकलिस्ट सीमा

  • यदि एक ही टेम्प्लेट से बने पृष्ठ (जैसे उत्पाद पृष्ठ) की समानता 32% से अधिक हो, तो इंडेक्स दर 41% तक गिर जाती है
  • सामग्री का मिलान: Copyscape में 15% से अधिक समानता पाई जाती है, तो पृष्ठों का मर्ज कर दिया जाता है

वास्तविक मामला

एक कपड़े थोक विक्रेता ने एक ही विवरण से 5200 उत्पाद पृष्ठ बनाए। गूगल ने केवल मुख्य पृष्ठ को इंडेक्स किया (Search Console में “वैकल्पिक पृष्ठ” चेतावनी दी), और एक सप्ताह में ऑर्गेनिक ट्रैफ़िक में 89% की गिरावट आई

पूर्ण समाधान

  1. पृष्ठों की समानता को मापने के लिए Python की difflib लाइब्रेरी का उपयोग करें और 25% से अधिक समानता वाली पृष्ठों को हटा दें
  2. अन्यथा समान पृष्ठों (जैसे शहर के सबडोमेन) पर <meta name="description"> के साथ विशिष्ट विवरण जोड़ें
  3. डुप्लिकेट पृष्ठों में rel="canonical" टैग जोड़ें और मुख्य संस्करण की ओर इंगीत करें
html
<link rel="canonical" href="https://example.com/product-a?color=red" />  

▍ लोडिंग प्रदर्शन सहनशीलता सीमा को पार करता है

Core Web Vitals – जीवन या मृत्यु की रेखा

  • मोबाइल FCP (पहली सामग्री रेंडर) > 2.5 सेकंड → क्रॉल प्राथमिकता घटाई जाती है
  • CLS (लेआउट शिफ्ट) > 0.25 → अनुक्रमणिका में देरी 3 गुना बढ़ जाती है

सीख

एक समाचार साइट ने अपनी होमपेज इमेजेज (औसतन 4.7MB) को संकुचित नहीं किया, जिसके कारण मोबाइल पर LCP (सबसे बड़ी सामग्री रेंडर) 8.3 सेकंड तक पहुंच गया, और 12,000 लेखों को गूगल ने “कम मूल्य वाला कंटेंट” के रूप में चिह्नित कर दिया।

त्वरित अनुकूलन सूची

✅ WebP प्रारूप का उपयोग करें PNG/JPG के स्थान पर, Squoosh के साथ 150KB तक संकुचित करें
✅ पहले स्क्रीन CSS को इनलाइन लोड करें, असंक्रमणीय JS को असिंक्रोनस लोड करें (async या defer एट्रिब्यूट जोड़ें)
✅ तृतीय-पक्ष स्क्रिप्ट को localStorage में होस्ट करें, बाहरी लिंक अनुरोधों को कम करें (जैसे, गूगल एनालिटिक्स के लिए GTM का उपयोग करें)

▍ संरचित डेटा की कमी से प्राथमिकता में कमी

क्रॉलिंग वजन नियम

  • FAQ स्कीमा वाले पृष्ठ → अनुक्रमणिका गति में 37% की वृद्धि
  • कोई संरचित डेटा नहीं → अनुक्रमणिका के लिए प्रतीक्षा समय 14 दिन बढ़ जाता है

केस स्टडी

एक चिकित्सा साइट ने लेख पृष्ठ में MedicalSchema के रोग विवरण मार्कअप को जोड़ा, जिससे अनुक्रमणिका कवरेज 55% से बढ़कर 92% हो गया और लंबी-पूंछ वाले कीवर्ड रैंकिंग में 300% का सुधार हुआ।

प्रैक्टिकल कोड

html
<script type="application/ld+json">  
{  
  "@context": "https://schema.org",  
  "@type": "FAQPage",  
  "mainEntity": [{  
    "@type": "Question",  
    "name": "गूगल अनुक्रमणिका को कैसे सुधारें?",  
    "acceptedAnswer": {
"@type": "Answer",  
"text": "साइटमैप संरचना और पृष्ठ लोडिंग गति को अनुकूलित करना"  
}  
}]  
}  
</script>  

सर्वर कॉन्फ़िगरेशन क्रॉलिंग दक्षता को प्रभावित करता है

 

Crawl-delay पैरामीटर का दुरुपयोग

Googlebot प्रतिक्रिया तंत्र

  • Crawl-delay: 10 सेट करने पर → प्रति दिन अधिकतम पृष्ठ क्रॉलिंग की मात्रा 5000 से घटकर 288 हो जाती है
  • डिफ़ॉल्ट बिना किसी सीमा के → Googlebot प्रति सेकंड औसतन 0.8 पृष्ठ क्रॉल करता है (सर्वर लोड के आधार पर स्वचालित रूप से समायोजित होता है)

वास्तविक उदाहरण

एक फोरम ने अपने robots.txt फ़ाइल में Crawl-delay: 5 सेट किया था ताकि सर्वर ओवरलोड से बच सके, जिससे Google की मासिक क्रॉलिंग 8.2 लाख से घटकर 43 हजार हो गई और नए कंटेंट का इंडेक्सिंग 23 दिन लेट हो गया।

समाधान रणनीति

  1. Crawl-delay घोषणा को हटा दें (Google इस पैरामीटर को स्पष्ट रूप से नजरअंदाज करता है)
  2. विशिष्ट बॉट्स के लिए Googlebot-News जैसे बॉट्स की सीमा का उपयोग करें
  3. Nginx में स्मार्ट थ्रॉटलिंग सेट करें:
nginx
# Googlebot और Bingbot को अलग से अनुमति दें
limit_req_zone $anti_bot zone=googlerate:10m rate=10r/s;  

location / {  
    if ($http_user_agent ~* (Googlebot|bingbot)) {  
        limit_req zone=googlerate burst=20 nodelay;  
    }  
}  

IP रेंज की गलती से ब्लॉकिंग

Googlebot IP रेंज की विशेषताएँ

  • IPv4 रेंज: 66.249.64.0/19, 34.64.0.0/10 (2023 में जोड़ा गया)
  • IPv6 रेंज: 2001:4860:4801::/48

गलती का उदाहरण

एक ईकॉमर्स वेबसाइट ने Cloudflare फ़ायरवॉल के माध्यम से 66.249.70.* IP रेंज को ब्लॉक कर दिया (जो कि बॉट हमले के रूप में गलत पहचाना गया था), जिससे Googlebot 17 दिनों तक लगातार क्रॉल नहीं कर सका और सूचकांक में 62% की गिरावट आई।
Cloudflare फ़ायरवॉल में नियम जोड़ें: (ip.src in {66.249.64.0/19 34.64.0.0/10} and http.request.uri contains "/*") → Allow

रेंडरिंग के लिए महत्वपूर्ण संसाधनों को अवरुद्ध करना

ब्लॉक सूची

  • *.cloudflare.com को अवरुद्ध करें → 67% CSS/JS लोड नहीं हो पाता है
  • Google Fonts को ब्लॉक करें → मोबाइल डिज़ाइन में विफलता दर 89% तक पहुँच जाती है

उदाहरण

एक SAAS प्लेटफ़ॉर्म ने jquery.com डोमेन को ब्लॉक कर दिया, जिससे Googlebot द्वारा पेज रेंडर करते समय JS में त्रुटि हो गई, और उत्पाद दस्तावेज़ पेज की HTML विश्लेषण दर केवल 12% रह गई।

अनब्लॉक समाधान

1. Nginx कॉन्फ़िगरेशन में व्हाइटलिस्ट में जोड़ें:

nginx
location ~* (jquery|bootstrapcdn|cloudflare)\.(com|net) {
allow all;
add_header X-Static-Resource "Unblocked";
}  

2. असिंक्रोनस रूप से लोड होने वाले संसाधनों में crossorigin="anonymous" एट्रिब्यूट जोड़ें:

html
<script src="https://example.com/analytics.js" crossorigin="anonymous">script> 

सर्वर प्रतिक्रिया समय समाप्त

गूगल की सहनशीलता सीमा

  • प्रतिक्रिया समय > 2000ms → सत्र के समाप्त होने की संभावना 80% बढ़ जाती है
  • प्रति सेकंड अनुरोध प्रक्रिया < 50 → क्रॉल बजट 30% तक घट जाता है

संपूर्ण उदाहरण

एक WordPress साइट ने OPcache सक्षम नहीं किया था, जिससे डेटाबेस क्वेरीज में 4.7 सेकंड का समय लगने लगा, जिससे Googlebot द्वारा टाइमआउट की दर 91% तक पहुँच गई और इंडेक्सिंग रुक गई।

प्रदर्शन अनुकूलन
1. PHP-FPM अनुकूलन कॉन्फ़िगरेशन (3 गुना समवर्तीता बढ़ाना):

ini

pm = dynamic
pm. max_children = 50
pm. start_servers = 12
pm. min_spare_servers = 8
pm. max_spare_servers = 30

2. MySQL अनुक्रमणिका मजबूरी अनुकूलन:

sql

ALTER TABLE wp_posts FORCE INDEX (type_status_date);

उपरोक्त विधि का उपयोग करके, आप अनुक्रमणिका का अंतर 5% से कम रख सकते हैं।
यदि आप Google के क्रॉलिंग दर को बढ़ाना चाहते हैं, तो कृपया हमारे GPC क्रॉलर पूल को देखें।

Picture of Don Jiang
Don Jiang

SEO本质是资源竞争,为搜索引擎用户提供实用性价值,关注我,带您上顶楼看透谷歌排名的底层算法。

最新解读