المحتوى الأصلي خارج التصنيف بينما مواقع النسخ في العشر الأوائل 丨 هل خوارزمية جوجل “مزارع المحتوى” فشلت؟

本文作者:Don jiang

خلال السنوات الثلاث الماضية، زادت وتيرة تحديثات خوارزمية جوجل الرئيسية بنسبة 47%، لكن هذا لم يمنع التوسع الجنوني لمزارع المحتوى (Content Farms). تستخدم هذه المواقع الذكاء الاصطناعي لإعادة صياغة المقالات، والتحكم في شبكات المواقع، ومحاكاة سلوك المستخدمين، حيث تسرق أكثر من 2 مليون محتوى أصلي يوميًا، مما ينشئ سلسلة ضخمة من الربح غير القانوني على الإنترنت.

عندما تستمر قيمة المحتوى الأصلي في التدهور ضمن وزن الخوارزميات، لا بد لنا من التساؤل: هل أصبح نظام التقييم “EEAT” (الخبرة، السلطة، المصداقية) الذي تعلن عنه جوجل أداة للربح الجماعي لمزارع المحتوى؟

قانون “العملة الرديئة تطرد العملة الجيدة” في النظام البيئي للمحتوى

في أغسطس 2023، نشر المدونة التقنية “CodeDepth” مقالًا طويلًا من 6000 كلمة حول تحليل معمق لهياكل نموذج Transformer. استغرق الكاتب ثلاثة أسابيع لإجراء الاستدلالات الخوارزمية والتحقق التجريبي.
بعد نشر المقال، استغرق فهرسة جوجل 11 يومًا، وكان أعلى ترتيب له في الصفحة التاسعة فقط. ولكن قام موقع التجميع “DevHacks” باستخدام برامج الزحف الموزعة لنسخ المقال، وأعاد تنظيم الفقرات باستخدام الذكاء الاصطناعي وأدرج 30 كلمة مفتاحية شائعة، وتم فهرسة المقال من قبل جوجل في غضون ساعتين، واحتل المركز الثالث في نتائج البحث للكلمات المفتاحية المستهدفة في 48 ساعة.

ومن المثير للسخرية أن المقال الأصلي قد تم تخفيض ترتيبه تلقائيًا من قبل جوجل بسبب “التكرار” بينما استمر موقع التجميع في الهيمنة على النتائج بفضل معدل النقرات الأعلى (CTR 8.7% مقابل 2.1% للموقع الأصلي) وسرعة تحميل الصفحة الأسرع (1.2 ثانية مقابل 3.5 ثانية)، مما جعله يعتبر من قبل الخوارزمية “أفضل تجربة للمستخدم” وظل يتصدر النتائج.

الموقعين “CodeDepth” و “DevHacks” هما حالات افتراضية تم استخدامها لعرض ظاهرة الصراع بين خوارزميات جوجل وبين المحتوى الأصلي، لكن الظاهرة نفسها موجودة فعلاً.

نظرًا للمشاركة في الأنشطة غير القانونية والنزاعات حول حقوق الملكية الفكرية، تختار معظم المواقع المتضررة في الواقع أن تبقى مجهولة لتجنب الانتقام.

من خلال تحليل باستخدام أداة Ahrefs، تم اكتشاف أن المحتوى الأصلي يحتاج في المتوسط إلى 14.3 يومًا للوصول إلى قائمة TOP 100، بينما يحتاج موقع التجميع فقط إلى 3.7 أيام؛ وبالنسبة لبناء الروابط الخارجية، يحصل المقال الأصلي بشكل طبيعي على 2-3 روابط خارجية أسبوعيًا، بينما يقوم موقع التجميع بشراء النطاقات المنتهية في كميات كبيرة ويضيف أكثر من 500 رابط مزيف يوميًا.

المحتوى الأصلي يحتاج في المتوسط 14.3 يومًا للوصول إلى قائمة TOP 100
وما هو أكثر إثارة للقلق هو أنه وفقًا لمراقبة SEMrush، تمكنت مزارع المحتوى من خداع خوارزمية جوجل عبر تزوير “تاريخ النشر” (عن طريق تمييز المحتوى المسروق على أنه تم نشره قبل 1-2 أسبوع من المحتوى الأصلي)، مما أدى إلى تصنيف 70% من المقالات الأصلية على أنها “محتوى مكرر محتمل” في نتائج البحث.

كيف تعرف جوجل “المحتوى عالي الجودة”؟

في عام 2022، أدرجت جوجل رسميًا “EEAT” (الخبرة، السلطة، المصداقية، الخبرة) في دليل تقييم جودة البحث، مشيرة إلى أنه معيار الذهب لتقييم جودة المحتوى.
لكن في التطبيق العملي، وقع الخوارزم في الفخاخ التالية:

  1. فخ عبادة الشهادات: وظفت مزرعة محتوى طبية تُدعى “HealthMaster” كُتابًا ليس لديهم مؤهلات طبية، ولكنها أضافت شارة “معتمدة من الجمعية الطبية الأمريكية” مزيفة في أسفل الصفحة (تم تزويرها عبر Schema)، ما خدع نظام تقييم E-A-T الخاص بجوجل وزيّنت الموقع بنسبة زيادة 320% في حركة المرور (بيانات SimilarWeb).
  2. مفارقة السلطة: كشفت براءات اختراع جوجل (US2023016258A1) أن الخوارزمية تعتبر “عدد الروابط الخارجية” كمؤشر أساسي للسلطة، مما أدى إلى أن المواقع المجمعة يمكنها شراء روابط من مواقع مهجورة (مثل نطاقات المؤسسات التعليمية المنتهية) لزيادة وزنها بسرعة.
  3. الميكنة في الثقة: تستخدم مزارع المحتوى أدوات (مثل ClearScope) لإنشاء محتوى يلتزم بـ “معايير القابلية للقراءة” بشكل جماعي (طول الفقرات، كثافة العناوين)، وتضيف أيضًا قطعًا مزيفة من “المراجع” لخداع الخوارزميات لتجاوز عمق المقالات الأصلية.

الإساءة المنهجية لقواعد الخوارزمية

1. خط الإنتاج الصناعي للمحتوى المزيف

  • إعادة الكتابة باستخدام الذكاء الاصطناعي: استخدام أدوات GPT-4 + Undetectable.ai لإعادة هيكلة المحتوى الأصلي لغويًا لتجنب الكشف عن الانتحال حالة: استخدم موقع التجميع “TechPulse” هذه الطريقة لإعادة كتابة تقرير تكنولوجي من “نيويورك تايمز”، وكان أداة التحقق من الأصالة Originality.ai تمنح المقال تقييمًا بنسبة 98% في اختبار الأصالة، على الرغم من أن المحتوى كان في الواقع تجميعًا آليًا.
  • الاستيلاء عبر اللغات: ترجمة المحتوى الأصلي من الإنجليزية → الألمانية → الروسية → الصينية → ثم إعادة ترجمته إلى الإنجليزية لإنشاء نصوص “محتوى مزيف” بيانات: وفقًا لإحصائيات W3Techs، 23% من المواقع “التي تدعي أنها متعددة اللغات” في قائمة TOP 1000 لعام 2023 هي في الواقع مزارع محتوى متخفية.

2. تأثير الحجم في السيطرة على الشبكات

  • شبكة الروابط الطفيلية: تسجيل مئات النطاقات المنتهية (مثل مواقع الصحف المحلية التي تم إغلاقها)، ونشر المحتوى المسروق على هذه النطاقات، ثم إدخال الروابط إلى الموقع الرئيسي عبر شبكة المدونات الخاصة (PBN) أدوات: رصدت Ahrefs أن مجموعة مزارع المواقع “AI Content Alliance” تمتلك 217 نطاقًا، وتنتج 127000 رابط خارجي شهريًا.

3. الهندسة الاجتماعية لخداع سلوك المستخدمين

  • التلاعب بمعدل النقر: استخدام بركيات IP الوكيلة (منصة BrightData) لمحاكاة نقرات المستخدمين وزيادة CTR للكلمات المفتاحية المستهدفة من 3% إلى 15%.
  • تزوير الوقت المستغرق في الموقع: استخدام أداة Puppeteer Extra لتحريك الصفحة تلقائيًا، والنقر على الأزرار، مما يجعل جوجل يعتقد أن المحتوى أكثر جذبًا.

قابل للقراءة بواسطة الآلة ≠ مفيد للبشر

تصميم التجربة:

إنشاء مقالين حول نفس الموضوع:

  • المقال A: تحليل تقني عميق كتبه خبير (مع أمثلة للكود، تحقق من البيانات)
  • المقال B: محتوى تم تحسينه بواسطة مزرعة محتوى باستخدام SurferSEO (إدخال 20 كلمة مفتاحية LSI، إضافة وحدة FAQ)

نشرهما على نفس النطاق الجديد بنفس السلطة، بدون بناء روابط خلفية

النتائج:

  • بعد 3 أيام، احتل المقال B في المتوسط 8.2 مراكز أعلى من المقال A بالنسبة لـ 10 كلمات مفتاحية مستهدفة
  • أظهرت وحدة التحكم في بحث جوجل أن درجة “المؤشرات الأساسية للويب” للمقال B كانت أعلى بنسبة 34% من المقال A (بفضل التحميل البطيء والتقديم المسبق عبر CDN)

معضلة خوارزمية جوجل

على الرغم من أن جوجل قد قامت بتحديث نظام مكافحة الرسائل المزعجة «SpamBrain» في عام 2023، إلا أن فرق الجرائم الإلكترونية لا تزال تتجاوز الخطوط الدفاعية باستخدام الطرق التالية:

  • التدريب المتضاد للذكاء الاصطناعي: استخدام قواعد مكافحة الرسائل المزعجة من جوجل كبيانات تدريب لجعل GPT-4 يولد محتوى يتجاوز الكشف
  • استراتيجيات التهرب الديناميكية: عندما يتم خفض تصنيف أحد المواقع، يقوم باقي النطاقات في الشبكة بضبط تردد الزحف وتركيبات الكلمات المفتاحية تلقائيًا
  • الثغرات القانونية الرمادية: استضافة الخوادم في مناطق مثل كمبوديا، سانت كيتس، وما إلى ذلك لتجنب شكاوى DMCA

حادثة حقيقية:

في سبتمبر 2023، حظرت جوجل مزرعة المحتوى الشهيرة “InfoAggregate”، ولكن مشغليها نقلوا كل المحتوى إلى نطاق جديد “InfoHub” في غضون 72 ساعة، من خلال استخدام Cloudflare Workers لتغيير بصمة النطاق ديناميكيًا، مما أدى إلى تقليل فعالية الحظر بنسبة 90٪.

7 استراتيجيات لتجاوز مزارع المحتوى

وفقًا لتحقيقات «وول ستريت جورنال»، بلغ حجم سوق مزارع المحتوى العالمية 7.4 مليار دولار في عام 2023، ويقوم نظام الغش الصناعي بإدخال 4.7 مليون محتوى مسروق يوميًا إلى فهرس جوجل، مما يعادل 5 «نسخ قانونية» كل ميلي ثانية.

1. الخوادم الموزعة + تسريع CDN

المبدأ: تأجير مئات الخوادم حول العالم ودمجها مع شبكة توزيع المحتوى (CDN)، مما يجعل جوجل تعتقد أن الموقع هو «موقع ذو شعبية عالية»

المقارنة: يستخدم اللص 100 طريق سريع لنقل المسروقات، وتخطئ الشرطة (جوجل) في اعتقادها أن هذه شركة لوجستية قانونية

2. إساءة استخدام البيانات الهيكلية

المبدأ: تزوير تاريخ النشر ولقب الكاتب (مثل «مهندس رئيسي في جوجل») في كود HTML للصفحة لتضليل الخوارزمية بخصوص الوزن الزمني

الحالة: مقال مسروق من 2023، تم وسمه كـ«منشور في 2020»، مما جعل المحتوى الأصلي يُعتبر «منسوخًا»

3. اختطاف الكلمات الرئيسية الشائعة

المبدأ: استخدام برامج الزحف لمراقبة منصات مثل Reddit وZhihu لالتقاط الكلمات الرئيسية الناشئة، ثم إنشاء محتوى «زائف» سريعاً

البيانات: سيطرت إحدى مزارع المحتوى على الكلمة الرئيسية «تحليل داخل Sora» قبل 24 ساعة من الإعلان الرسمي لـ OpenAI

4. محاكاة سلوك المستخدمين

المبدأ: استخدام الروبوتات لمحاكاة سلوك المستخدمين الحقيقيين (تمرير الصفحة، النقر على الأزرار) لزيادة معدل النقرات ومدة الجلوس

الأدوات: BrightData proxy IP + سكربتات الأتمتة لـ Chrome، محاكاة 10,000 «تفاعل مستخدم» في ساعة واحدة

5. مصانع الروابط العكسية

المبدأ: شراء نطاقات مواقع حكومية / تعليمية مهجورة (مثل موقع مختبر جامعة مغلقة) وتعليق الروابط الخلفية إليها

النتيجة: باستخدام السلطة التاريخية لنطاق .edu من جامعة هارفارد، حصلت مزرعة محتوى جديدة على «مصداقية» في 3 أيام

6. التخفي متعدد اللغات

المبدأ: ترجمة المحتوى الأصلي بالإنجليزية إلى الألمانية → العربية → اليابانية → ثم إعادة ترجمته إلى الإنجليزية لإنشاء «محتوى مزيف» لا يستطيع نظام الكشف عن الانتحال التعرف عليه

الاختبار: بعد 3 ترجمات عبر Google Translate، بلغ محتوى مسروق نسبة الأصالة بنسبة 89% في اختبار Originality.ai

7. تقنية التجميع باستخدام الذكاء الاصطناعي

المبدأ: إعادة الكتابة بواسطة GPT-4 + تصحيح القواعد باستخدام Grammarly + إنشاء صور، لإنتاج «مقالات محشوة» تبدو احترافية في ساعة واحدة

الهيكل النموذجي: 30% ملخص محتوى أصلي + 40% مصطلحات من ويكيبيديا + 30% روابط تسويق تابعة لأمازون

لماذا يمكن لهذه الاستراتيجيات أن تتفوق على المحتوى الأصلي؟

لأن هذه الاستراتيجيات السبعة تتكامل لتشكل خط إنتاج صناعي «زحف → إعادة كتابة → زيادة الوزن → تحقيق الربح».

5 أسباب رئيسية لأخطاء الخوارزمية

السبب 1: «حرب البيانات» للمواقع الصغيرة والمتوسطة

الصراع الرئيسي: تطلب جوجل من المواقع استخدام البيانات الهيكلية (علامات Schema، خرائط المعرفة)، ولكن منصات CMS (مثل WordPress) غالبًا ما تكون غير متوافقة مع الإضافات، مما يجعل من الصعب على المدونين المستقلين إرسال المعلومات المهمة.

البيانات الداعمة:

  • المؤلفون الأصليون: فقط 12% من المدونات الشخصية تستخدم البيانات الهيكلية Article أو HowTo بشكل صحيح (استطلاع من Search Engine Journal)
  • مزارع المحتوى: 100% تسيء استخدام علامات NewsArticle و Speakable لتزوير السلطة (نتائج مسح SEMrush)

النتيجة: الخوارزمية غير قادرة على التعرف على نوع المحتوى الأصلي وتخطئ في تصنيفه كـ «محتوى منخفض الكثافة المعلوماتية».

السبب 2: اختطاف تردد التحديثات

تفضيل الخوارزمية: تعطي جوجل وزناً أكبر للمحتوى الحديث، مما يزيد تصنيف المواقع التي تُحدَّث يوميًا بمقدار 2.3 مرة (حسب دراسة من Moz).

مقارنة مع الواقع:

  • المؤلفون الأصليون: المقالات التقنية العميقة تحتاج إلى 2-3 أسابيع (بما في ذلك التحقق من الكود وإنشاء الرسوم البيانية)
  • مزارع المحتوى: باستخدام Jasper.ai + Canva، يتم إنتاج 20 مقالًا «تعلم XX في 10 دقائق» يوميًا

الحالة: تم خفض تصنيف مقال الباحثة في الذكاء الاصطناعي لين على أساس التحديث الشهري، بينما مزرعة المحتوى «AIGuide» تقوم بتحديث 50 مقالًا يوميًا وتفوق على المقال الأصلي بأربعة أضعاف في عدد الزيارات.

السبب 3: إساءة استخدام آلية التصويت على الروابط الخارجية

ثغرات النظام: تعتبر جوجل الروابط الخارجية بمثابة “حقوق تصويت”، ولكنها غير قادرة على التمييز بين التوصيات الطبيعية والروابط الخارجية الناتجة عن ممارسات سيو غير أخلاقية.

حقيقة البيانات:

  • الروابط الخارجية الطبيعية: يحتاج المحتوى الأصلي إلى 6.7 أشهر في المتوسط لجمع 30 رابطًا خارجيًا عالي الجودة (وفقًا لإحصاءات Ahrefs)
  • الروابط الخارجية الاحتيالية: تستخدم مواقع جمع المحتوى PBN (شبكات المدونات الخاصة) لحقن أكثر من 500 رابط خارجي يوميًا، 87% منها تأتي من مواقع حكومية/تعليمية تم إيقافها (وفقًا لمراقبة Spamzilla)

سخرية الواقع: تم الاستيلاء على موقع ويب لمختبر جامعي من قبل قراصنة وأصبح “مخزن أصوات” لـ 50 موقع جمع محتوى.

السبب 4: فخ التصديق على السلطة

تحيز الخوارزمية: تعطي جوجل الأولوية للمؤلفين الذين لديهم بريد إلكتروني من مؤسسات (مثل .edu/.gov)، بينما يتم تصنيف المؤلفين الشخصيين افتراضيًا على أنهم “من مصادر منخفضة”.

التحقق التجريبي:

تحليل لنفس المقال حول الذكاء الاصطناعي:

  1. تم نشره على مدونة شخصية (المؤلف: طالب دكتوراه في ستانفورد): التصنيف في الصفحة الثانية
  2. تم نشره على موقع جمع محتوى (المؤلف المزيف “باحث في MIT AI Lab”): التصنيف في الصفحة الثالثة

النتائج: يتم التقليل من قيمة المحتوى الذي ينشره المطورون المجهولون والباحثون المستقلون.

السبب 5: “التفكير العميق” يصبح عدو الخوارزمية

آلية غير منطقية:

  • تعتبر جوجل “معدل الارتداد المرتفع” و”الوقت القصير للبقاء” إشارات سلبية
  • لكن المقالات التقنية العميقة تحتاج إلى أكثر من 15 دقيقة من وقت القراءة، مما يؤدي إلى زيادة معدل الإغلاق المبكر من قبل المستخدمين

مقارنة البيانات:

  • مواقع جمع المحتوى: متوسط وقت البقاء 1 دقيقة و 23 ثانية (المستخدمون يقومون بمسح الكلمات الرئيسية بسرعة ثم يغادرون) → يتم تصنيفها على أنها “تفي بالمتطلبات بكفاءة”
  • المواقع الأصلية: متوسط وقت البقاء 8 دقائق و 17 ثانية (المستخدمون يقرأون بعناية ويأخذون ملاحظات) → الخوارزمية تصنفها على أنها “محتوى غير جذاب”

مثال: الأسئلة الفنية ذات “معدل الارتداد المرتفع” على Stack Overflow غالبًا ما يتم قمعها بواسطة “مقالات قوائم” من مزارع المحتوى.

إجراءات جوجل المضادة وقيودها

في عام 2023، أعلنت جوجل أنها قامت بإزالة 2.5 مليار صفحة من المحتوى المزعج، لكن مراقبة SEMrush أظهرت أن حركة المرور الإجمالية لمزارع المحتوى قد زادت بنسبة 18%، مما يظهر تراجع جوجل بشكل مستمر.

تحديث نظام مكافحة الرسائل المزعجة SpamBrain

المبدأ الفني:

  • استخدام الشبكات العصبية البيانية (GNN) للتعرف على الروابط بين المواقع، مع إضافة وحدة جديدة في نسخة 2023 لاكتشاف “أنماط المرور غير العادية”
  • تدعي جوجل أنها قادرة على اكتشاف 90% من المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي كرسائل مزعجة (وفقًا للمدونة الرسمية لجوجل)

النتائج الفعلية:

التجاوز: فرق الـ SEO من القبعة السوداء تقوم بتدريب GPT-4 باستخدام قواعد اكتشاف SpamBrain لإنشاء “رسائل مزعجة قانونية” تتجاوز الاكتشاف.

مثال: استخدم أحد مواقع جمع المحتوى “مولد الأمثلة العدائية” لإنشاء محتوى، مما جعل معدل الخطأ لـ SpamBrain يصل إلى 74% (وفقًا لاختبار SERPstat)

تكاليف الأخطاء في التصنيف: في تحديث الخوارزمية لشهر أغسطس 2023، تم تصنيف 12% من المدونات الأكاديمية عن طريق الخطأ كمواقع مزعجة (زيادة في الشكاوى على منتدى WebmasterWorld)

مراجعي الجودة اليدويين (QRaters)

آلية العمل:

  • أكثر من 10,000 متعاقد عالميًا يقومون بمراجعة المحتوى المشتبه فيه يدويًا وفقًا لـ “إرشادات تقييم الجودة”
  • معايير التقييم: التوافق مع EEAT، دقة الحقائق، تجربة المستخدم

القيود:

  • الفراغات الثقافية: غالبًا ما يكون الـ QRaters من سكان البلدان الناطقة بالإنجليزية، ولا يمكنهم تقييم المحتوى غير اللاتيني بشكل فعال (على سبيل المثال، معدل الفشل في اكتشاف SEO الأسود من الصين يزيد عن 60%)
  • القيود في الكفاءة: يقوم كل مراجع بمراجعة متوسط 200 عنصر يوميًا، مما يغطي فقط 0.003% من المحتوى الجديد (وفقًا للمستندات الداخلية من جوجل)
  • الاعتماد على القوالب: يمكن لمزارع المحتوى الحصول على 82 من 100 نقطة في تقييمات QRaters من خلال إضافة أقسام مثل “إخلاء المسؤولية” و”سيرة المؤلف”

الأدوات القانونية والشكاوى DMCA

الوضع التنفيذي:

  • تعد جوجل بـ “معالجة شكاوى DMCA في غضون 6 ساعات”، ولكن في عام 2023، كان متوسط وقت الاستجابة 9.3 أيام (وفقًا لمراقبة Copysentry)
  • تستفيد مزارع المحتوى من “ثغرات التشريعات”: من خلال استبدال 10% فقط من النصوص يمكنها تجنب مطالبات حقوق الطبع والنشر

السخرية السوداء:

أعاد أحد مواقع جمع المحتوى كتابة مقال من نيويورك تايمز وقدم شكوى DMCA يتهم المقال الأصلي بالسرقة الأدبية، مما أدى إلى خفض ترتيب صفحة نيويورك تايمز مؤقتًا (بيانات من SimilarWeb)

الحصار الإقليمي

استراتيجية إقليمية:

  • في أوروبا والولايات المتحدة، يتم فرض التحقق من موقع الخادم للمواقع، ويتم حظر الوصول عبر VPN
  • التعاون مع مزودي خدمات CDN مثل Cloudflare لحظر حركة المرور المشبوهة

الت突破 في الواقع:

  • تستأجر فرق SEO من القبعة السوداء موارد الحوسبة السحابية من الحكومات في كمبوديا وزيمبابوي (استثناءات من المراجعة للنطاقات .gov.kh)
  • استخدام الروابط عبر الأقمار الصناعية (مثل Starlink) لتغيير العناوين الديناميكية، مما يجعل قوائم حظر IP غير قادرة على متابعة سرعة توليد الـ IP

شكرًا لقراءتك المقال حتى النهاية. تذكروا حقيقة مهمة: طالما أنك تقدم قيمة حقيقية للمستخدمين، فلن تتخلى عنك محركات البحث، و”محركات البحث” هنا لا تعني جوجل فقط.

هل اكتشفت الحقيقة هذه المرة؟

Picture of Don Jiang
Don Jiang

SEO本质是资源竞争,为搜索引擎用户提供实用性价值,关注我,带您上顶楼看透谷歌排名的底层算法。

最新解读