بعد تقديم خريطة الموقع丨لماذا قام Google فقط بفهرسة بعض الصفحات

本文作者：Don jiang

2025-05-09

Home » 博客 » مقالات مختارة » بعد تقديم خريطة الموقع丨لماذا قام Google فقط بفهرسة بعض الصفحات

بعد أن قام مشرف الموقع بإرسال خريطة الموقع عبر Google Search Console واكتشف أن عدد الصفحات المؤرشفة فعلياً أقل بكثير من المتوقع، غالباً ما يقع في فخ زيادة عدد الإرسالات بشكل أعمى أو تعديل الملف بشكل متكرر.

وفقاً للبيانات الرسمية لعام 2023، فإن أكثر من 67% من مشاكل الفهرسة ترجع إلى ثلاثة أسباب رئيسية: تكوين خريطة الموقع بشكل غير صحيح، مسارات الزحف المحظورة، وضعف جودة الصفحات.

Table of Contens

أخطاء في ملف خريطة الموقع

إذا لم تتم معالجة خريطة الموقع المرسلة بشكل كامل من قبل جوجل، فإن السبب الرئيسي يكون في وجود أخطاء تقنية داخل الملف نفسه.

لقد قمنا بمراجعة خريطة الموقع لأحد مواقع التجارة الإلكترونية ووجدنا أنه بسبب عدم تأمين معلمات URL الديناميكية في صفحات المنتجات، فإن 27,000 رابط مكرر كان يلوث الملف، مما جعل جوجل يقوم بفهرسة الصفحة الرئيسية فقط.

▍الخطأ 1: أخطاء في التنسيق تؤدي إلى توقف التحليل

مصدر البيانات: تقرير تدقيق موقع Ahrefs لعام 2023

مثال واقعي: خريطة الموقع لأحد المواقع الطبية كانت مشفرة باستخدام Windows-1252، مما منع جوجل من معالجة 3,200 صفحة، وتم فهرسة الصفحة الرئيسية فقط (تم عرض التحذير “غير قابل للقراءة” في Google Search Console)

أخطاء شائعة：

✅ تم إغلاق العلامات XML بشكل غير صحيح (43% من الأخطاء في التنسيق)
✅ لم يتم تشفير الرموز الخاصة بشكل صحيح (على سبيل المثال، تم استخدام & مباشرة بدلاً من &)
✅ عدم وجود إعلان xmlns في XML (<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> مفقود)

الحلول الطارئة：

استخدم مصحح خريطة الموقع للتحقق من البنية
قم بتثبيت الإضافة XML Tools في VSCode للتحقق من صحة البنية في الوقت الفعلي

▍الخطأ 2: الروابط الميتة تسبب مشاكل في الثقة

دراسة قطاعية: البيانات التي تم جمعها من 500,000 موقع بواسطة Screaming Frog

البيانات المثيرة：

✖️ في المتوسط، تحتوي كل خريطة موقع على 4.7% من الروابط الميتة (404/410)
✖️ الخرائط التي تحتوي على أكثر من 5% من الروابط الميتة تؤدي إلى تقليل بنسبة 62% في معدل الفهرسة

مثال حقيقي: خريطة الموقع الخاصة بإحدى منصات السفر تحتوي على صفحات منتجات تم حذفها (إعادة توجيه 302 إلى الصفحة الرئيسية)، مما اعتبره جوجل محاولة للتلاعب بالفهرسة، مما أدى إلى تأخير فهرسة المحتوى الرئيسي لمدة 117 يوماً

الحل：

استخدم أداة الزحف مع تعيين “Googlebot” كـ User-Agent لمحاكاة زحف جميع الروابط في خريطة الموقع
قم بتصدير الروابط التي تحتوي على رمز حالة غير 200 وأضف <robots noindex> إليها أو قم بإزالتها من خريطة الموقع

▍الخطأ 3: الحجم الكبير للملف يؤدي إلى تقليص البيانات

الحدود التحذيرية من جوجل：

⚠️ إذا كانت خريطة الموقع أكبر من 50 ميجابايت أو تحتوي على أكثر من 50,000 رابط، فإن معالجتها تتوقف تلقائيًا

مثال كارثي: خريطة الموقع لأحد المواقع الإخبارية لم يتم تقسيمها وكانت تحتوي على 82,000 رابط مقال، وقام جوجل بمعالجة 48,572 رابط فقط (تم تأكيد ذلك من خلال تحليل السجلات)

استراتيجية التقسيم：
🔹 تقسيم حسب نوع المحتوى: /sitemap-articles.xml، /sitemap-products.xml
🔹 تقسيم حسب التاريخ: /sitemap-2023-08.xml (مناسب للمواقع التي يتم تحديثها بشكل متكرر)

مراقبة حجم الملف：

استخدم سكربت Python كل أسبوع لحساب عدد الأسطر في الملف (wc -l sitemap.xml) وتنبيهك عند الوصول إلى 45,000 سطر.

▍الخطأ 4: إساءة استخدام تردد التحديث يؤدي إلى تباطؤ الفهرسة

آليات الحماية من الزحف：

🚫 إساءة استخدام وسم <lastmod> (على سبيل المثال، تحديد التاريخ الحالي لجميع الصفحات) يؤدي إلى تباطؤ الفهرسة بنسبة 40%

الدرس المستفاد: قام أحد منتديات الإنترنت بتحديث تاريخ lastmod لجميع الصفحات يومياً، وبعد ثلاثة أسابيع انخفض معدل الفهرسة من 89% إلى 17%

الإجراء المتوافق：

✅ تحديث <lastmod> فقط للصفحات التي تم تحديثها فعلاً (بالتحديد حتى الدقيقة: 2023-08-20T15:03:22+00:00)
✅ تعيين <changefreq>monthly</changefreq> للصفحات القديمة لتقليل عبء الزحف

هيكل الموقع يمنع مسارات الزحف

حتى إذا كانت خريطة الموقع مثالية، يمكن أن تظل هيكلية الموقع “متاهة” لروبوت جوجل.

الصفحات التي تم إنشاؤها باستخدام React ولم يتم تصييرها مسبقاً ستعتبرها جوجل “صفحات فارغة” بنسبة 60%.

عندما تكون توزيع الروابط الداخلية غير متوازن (على سبيل المثال، إذا كانت الصفحة الرئيسية تحتوي على أكثر من 150 رابطاً خارجياً)، فإن عمق الزحف سيقتصر على مستويين، مما يعني أن الصفحات الأعمق مثل صفحات المنتجات لن يتم فهرستها أبداً.

▍

ملف robots.txt يحظر صفحات مهمة

السيناريوهات الشائعة：

القواعد الافتراضية في WordPress مثل Disallow: /wp-admin/ تحظر روابط المقالات المتصلة (مثل /wp-admin/post.php?post=123)
إنشاء Disallow: /a/ تلقائياً عند بناء موقع Shopify يحظر صفحات الأعضاء

صدمات البيانات：

✖️ 19% من المواقع تتعرض لفقدان أكثر من 30% من الفهرسة بسبب خطأ في تكوين ملف robots.txt
✖️ عندما يواجه روبوت جوجل قاعدة Disallow، يستغرق الأمر في المتوسط 14 يومًا لإعادة محاولة فحص المسار

حلول：

استخدام أداة اختبار robots.txt للتحقق من تأثير القاعدة
عدم حظر الروابط التي تحتوي على معلمات ديناميكية مثل ?ref= إلا إذا كنت متأكدًا من عدم وجود محتوى
لإلغاء حظر الصفحات التي تم حظرها عن طريق الخطأ، قم بإلغاء الحظر في robots.txt وطلب إعادة فحصها عبر أداة فحص URL

▍ مشكلة الرندر بواسطة JavaScript تؤدي إلى نقص المحتوى

مخاطر الأطر البرمجية：

تطبيقات React/Vue ذات الصفحة الواحدة (SPA): إذا لم يتم الرندر على الخادم، يمكن لجوجل فحص 23% فقط من عناصر DOM
تحميل الصور بشكل كسول (Lazy Load): 51% من الصور في الأجهزة المحمولة لا يتم تحميلها

حالة واقعية：

موقع تجارة إلكترونية يستخدم Vue لعرض الأسعار والمواصفات بشكل ديناميكي، مما جعل متوسط طول المحتوى المفهرس من قبل جوجل لا يتجاوز 87 حرفًا (بدلاً من 1200+ حرفًا بشكل طبيعي)، وانخفض معدل التحويل بنسبة 64%

إجراءات الطوارئ：

استخدام أداة اختبار التوافق مع الأجهزة المحمولة للتحقق من اكتمال العرض
استخدام الرندر على الخادم (SSR) أو إنشاء لقطة ثابتة للصفحات الأساسية لـ SEO باستخدام Prerender.io
إضافة النصوص الرئيسية في وسم <noscript> (على الأقل H1 + 3 أسطر من الوصف)

▍ توزيع غير متوازن للروابط الداخلية

حدود عمق الفحص：

إذا كانت الصفحة الرئيسية تحتوي على أكثر من 150 رابطًا صادرًا، ينخفض عمق الفحص المتوسط إلى 2.1 طبقات
إذا كان عمق النقر على المحتوى الأساسي أكبر من 3 طبقات، تنخفض احتمالية الفهرسة إلى 38%

استراتيجية تحسين الهيكل：

✅ استخدام التنقل المترابط (breadcrumb) مع التصنيف الكامل (مثل: الصفحة الرئيسية > الإلكترونيات > الهواتف > Huawei P60)
✅ إضافة وحدة “الصفحات الهامة” في صفحات القائمة لزيادة قوة الروابط الداخلية للصفحات المستهدفة
✅ استخدام Screaming Frog لاكتشاف الصفحات اليتيمة (Orphan Pages) التي ليس لها روابط واردة وربطها في أسفل المقالات ذات الصلة

▍ سوء استخدام علامات pagination/canonical

عملية انتحارية：

استخدام rel="canonical" في صفحات المنتجات تشير إلى الصفحة الرئيسية: يؤدي ذلك إلى دمج وحذف 63% من الصفحات
عدم إضافة علامات rel="next"/"prev" في صفحات التعليقات: يؤدي ذلك إلى تقليل وزن الصفحة الرئيسية

محتوى مرشح بسبب جودة منخفضة

أكد تقرير خوارزميات جوجل لعام 2023 أن 61% من الصفحات التي لم تُفهرس بشكل جيد كانت بسبب مشكلات في جودة المحتوى

عندما تتجاوز التشابهات في الصفحات 32%، تنخفض احتمالية الفهرسة إلى 41%، وتقل أولوية الفحص للصفحات التي تستغرق أكثر من 2.5 ثانية على الأجهزة المحمولة.

المحتوى المكرر يؤدي إلى تدمير الثقة

حدود القوائم السوداء في الصناعة：

إذا كانت التشابهات في الصفحات التي تم إنشاؤها من نفس القالب (مثل صفحات المنتجات) تتجاوز 32%، فإن احتمالية الفهرسة تنخفض إلى 41%
عند اكتشاف التشابه في الفقرات بنسبة تزيد عن 15% باستخدام Copyscape، يتم دمج الصفحات في الفهرس

حالة واقعية：

موقع لبيع الملابس بالجملة أنشأ 5200 صفحة منتج بنفس الوصف. لكن جوجل فهرس فقط الصفحة الرئيسية (مع تحذير “الصفحة البديلة” في Search Console)، وانخفضت حركة المرور العضوية بنسبة 89% في أسبوع واحد

الحل الأساسي：

استخدام مكتبة difflib في Python لحساب التشابه بين الصفحات وإزالة الصفحات التي تحتوي على أكثر من 25% من المحتوى المكرر
لإضافة صفحات مشابهة ضرورية (مثل الصفحات المخصصة للمدن)، أضف وصفًا مميزًا في وسم <meta name="description">
إضافة وسم rel="canonical" في الصفحات المكررة للإشارة إلى النسخة الرئيسية

html

<link rel="canonical" href="https://example.com/product-a?color=red" />

▍ أداء التحميل يتجاوز الحد المقبول

Core Web Vitals – الحد الحرج：

FCP (أول رسم محتوى) على الجوال ＞ 2.5 ثانية → تقليل أولوية جمع البيانات
CLS (التحول التراكمي للتخطيط) ＞ 0.25 → تأخير الفهرسة يزيد ثلاث مرات

الدرس المستفاد：

موقع إخباري لم يقم بضغط الصور في الشاشة الأولى (حجمها المتوسط 4.7 ميجابايت)، مما أدى إلى أن يكون LCP (أكبر رسم محتوى) على الجوال 8.3 ثانية، وتم تصنيف 12,000 مقال من قِبل Google على أنها “محتوى منخفض القيمة”.

قائمة تحسين سريع：

✅ استخدام تنسيق WebP بدلاً من PNG/JPG، وضغط الصور دفعة واحدة باستخدام Squoosh حتى ≤150KB
✅ تحميل CSS الخاص بالشاشة الأولى ضمنيًا، وتحميل JavaScript غير المهم بشكل غير متزامن (إضافة السمة async أو defer)
✅ استضافة السكربتات الخارجية في localStorage لتقليل الطلبات الخارجية (مثل استخدام GTM لاستضافة Google Analytics)

▍ غياب البيانات المنظمة يؤدي إلى انخفاض الأولوية

قواعد وزن الزحف：

الصفحات التي تحتوي على مخطط FAQ → سرعة الفهرسة تزيد بنسبة 37%
عدم وجود أي علامة منظمة → وقت الانتظار في قائمة الفهرسة يصل إلى 14 يومًا

حالة دراسية：

أضاف موقع طبي علامة تفاصيل المرض MedicalSchema على صفحة المقال، مما أدى إلى زيادة تغطية الفهرسة من 55% إلى 92% ورفع ترتيب الكلمات الرئيسية طويلة الذيل بنسبة 300%.

كود عملي：

html

<script type="application/ld+json">  
{  
  "@context": "https://schema.org",  
  "@type": "FAQPage",  
  "mainEntity": [{  
    "@type": "Question",  
    "name": "كيف يمكن تحسين الفهرسة في جوجل؟",  
    "acceptedAnswer": {
"@type": "Answer",  
"text": "تحسين هيكل الخريطة للموقع وسرعة تحميل الصفحة"  
}  
}]  
}  
</script>

إعدادات الخادم تؤثر على كفاءة الزحف

إساءة استخدام معلمة Crawl-delay

آلية الرد من Googlebot：

عند تعيين Crawl-delay: 10 → ينخفض الحد الأقصى لعدد الصفحات التي يتم الزحف إليها يوميًا من 5000 إلى 288 صفحة
في الحالة الافتراضية بدون أي قيود → يقوم Googlebot بالزحف بمعدل متوسط 0.8 صفحة في الثانية (يتم تعديله تلقائيًا بناءً على تحميل الخادم)

مثال حقيقي：

قام منتدى بتعيين Crawl-delay: 5 في ملف robots.txt لمنع التحميل الزائد على الخادم، مما أدى إلى انخفاض عدد الصفحات التي يقوم Google بالزحف إليها من 820,000 شهريًا إلى 43,000 فقط، مع تأخير في فهرسة المحتوى الجديد يصل إلى 23 يومًا.

استراتيجية الإصلاح：

حذف تعليمات Crawl-delay (Google يتجاهل هذا المعامل بشكل رسمي)
استخدام قيود الزحف لروبوتات محددة مثل Googlebot-News
إعداد تحديد معدل ذكي في Nginx:

nginx

# السماح فقط لـ Googlebot و Bingbot
limit_req_zone $anti_bot zone=googlerate:10m rate=10r/s;  

location / {  
    if ($http_user_agent ~* (Googlebot|bingbot)) {  
        limit_req zone=googlerate burst=20 nodelay;  
    }  
}

الحظر الخاطئ لنطاقات IP

ميزات نطاقات IP الخاصة بـ Googlebot：

نطاق IPv4: 66.249.64.0/19، 34.64.0.0/10 (تم إضافته في عام 2023)
نطاق IPv6: 2001:4860:4801::/48

مثال على خطأ：

قام أحد مواقع التجارة الإلكترونية بحظر نطاق IP 66.249.70.* عن طريق جدار الحماية الخاص بـ Cloudflare (تم تصنيفه بشكل خاطئ على أنه هجوم من روبوت)، مما أدى إلى أن Googlebot لم يتمكن من الزحف لمدة 17 يومًا متتالية، مما أدى إلى انخفاض فهرسة الصفحات بنسبة 62%.
إضافة قاعدة في جدار الحماية Cloudflare: (ip.src in {66.249.64.0/19 34.64.0.0/10} and http.request.uri contains "/*") → Allow

حظر الموارد الأساسية للتصيير

قائمة الحظر：

حظر *.cloudflare.com → يمنع تحميل 67% من CSS/JS
حظر Google Fonts → معدل فشل تصميم الجوال يصل إلى 89%

مثال：

قامت منصة SAAS بحظر نطاق jquery.com، مما تسبب في حدوث خطأ في JavaScript أثناء تصيير الصفحة بواسطة Googlebot، مما أدى إلى انخفاض معدل تحليل HTML لصفحة الوثائق إلى 12% فقط

حل فك الحظر：

1. إضافة إلى القائمة البيضاء في إعدادات Nginx:

nginx

location ~* (jquery|bootstrapcdn|cloudflare)\.(com|net) {
allow all;
add_header X-Static-Resource "Unblocked";
}

2. إضافة خاصية crossorigin="anonymous" للموارد المحملة بشكل غير متزامن:

html

<script src="https://example.com/analytics.js" crossorigin="anonymous">script>

نفاد الوقت لاستجابة الخادم

الحدود المسموح بها من Google：

وقت الاستجابة > 2000ms → تزيد احتمالية إنهاء الجلسة مبكرًا بنسبة 80%
عدد الطلبات المعالجة في الثانية < 50 → يتم تقليص ميزانية الزحف إلى 30%

مثال على الفشل：

موقع WordPress لم يقم بتفعيل OPcache، مما أدى إلى استغراق استعلامات قاعدة البيانات حتى 4.7 ثانية، مما رفع نسبة نفاد الوقت لـ Googlebot إلى 91% مما أدى إلى توقف الفهرسة.

تحسين الأداء：
1. تكوين تحسين PHP-FPM (زيادة التزامن 3 مرات):

ini

pm = dynamic
pm. max_children = 50
pm. start_servers = 12
pm. min_spare_servers = 8
pm. max_spare_servers = 30

2. إجبار تحسين فهرس MySQL:

sql

ALTER TABLE wp_posts FORCE INDEX (type_status_date);

باستخدام الطريقة الموضحة أعلاه، يمكنك الحفاظ على الفرق في الفهرس تحت 5% بشكل مستقر.
إذا كنت ترغب في زيادة معدل الزحف من جوجل، يمكنك الرجوع إلى GPC Crawler Pool.

Don Jiang

SEO本质是资源竞争，为搜索引擎用户提供实用性价值，关注我，带您上顶楼看透谷歌排名的底层算法。

بعد تقديم خريطة الموقع丨لماذا قام Google فقط بفهرسة بعض الصفحات

أخطاء في ملف خريطة الموقع

▍الخطأ 1: أخطاء في التنسيق تؤدي إلى توقف التحليل

▍الخطأ 2: الروابط الميتة تسبب مشاكل في الثقة

▍الخطأ 3: الحجم الكبير للملف يؤدي إلى تقليص البيانات

▍الخطأ 4: إساءة استخدام تردد التحديث يؤدي إلى تباطؤ الفهرسة

هيكل الموقع يمنع مسارات الزحف

▍

ملف robots.txt يحظر صفحات مهمة

▍ مشكلة الرندر بواسطة JavaScript تؤدي إلى نقص المحتوى

▍ توزيع غير متوازن للروابط الداخلية

▍ سوء استخدام علامات pagination/canonical

محتوى مرشح بسبب جودة منخفضة

المحتوى المكرر يؤدي إلى تدمير الثقة

▍ أداء التحميل يتجاوز الحد المقبول

▍ غياب البيانات المنظمة يؤدي إلى انخفاض الأولوية

إعدادات الخادم تؤثر على كفاءة الزحف

إساءة استخدام معلمة Crawl-delay

الحظر الخاطئ لنطاقات IP

حظر الموارد الأساسية للتصيير

نفاد الوقت لاستجابة الخادم

كيفية إصلاح موقع ويب تم وضع علامة “غير آمن” من قبل جوجل

GTM مشغّل إضافة إلى السلة丨دليل الإعداد والتحسين الكامل (أحدث إصدار 2025)

دليل تجنب أخطاء تحسين محركات البحث في Google 2025: كيف تكتشف الخوارزميات وتعاقب المواقع منخفضة الجودة

المحتوى الأصلي خارج التصنيف بينما مواقع النسخ في العشر الأوائل 丨 هل خوارزمية جوجل “مزارع المحتوى” فشلت؟

هل يمكن استخدام نفس الكلمة المفتاحية في كل مقال على موقع مستقل؟ [إصدار 2025]

هل تقوم برمجيات جوجل بالطلب في المواقع المستقلة丨كشف حقيقة الطلبات المزيفة

إنشاء موقع باستخدام ووردبريس丨أي الإضافات تبطئ السرعة وتؤثر على التصنيف

اختفاء تصنيفات الكلمات المفتاحية الأساسية بين عشية وضحاها | كيفية التعامل مع تحديث Phantom للمواقع غير المعاقبة

لماذا يحتاج SEO إلى الوقت丨تحليل متعمق لخوارزمية صندوق الرمل في جوجل + دليل الخروج في 3 أشهر

مصائد SEO في عرض JavaScript 丨 دليل إنقاذ المواقع بـVue/React عندما تتعرف العناكب على 90% من الصفحات كفارغة

服务时间