เนื้อหาต้นฉบับไม่ติดอันดับ แต่ว็บขโมยข้อมูลกลับติด TOP10 丨 อัลกอริทึมฟาร์มเนื้อหาของGoogleล้มเหลวแล้วหรือ

本文作者:Don jiang

ในช่วงสามปีที่ผ่านมา ความถี่ของการอัปเดตอัลกอริธึมหลักของ Google เพิ่มขึ้น 47% แต่ก็ไม่สามารถยับยั้งการขยายตัวอย่างบ้าคลั่งของฟาร์มเนื้อหา (Content Farm) ได้—เว็บไซต์เหล่านี้ใช้ AI ในการเขียนบทความใหม่ การควบคุมกลุ่มเว็บไซต์ และเทคโนโลยีจำลองพฤติกรรมผู้ใช้ เพื่อปล้นเนื้อหาดั้งเดิมวันละมากกว่า 2 ล้านบทความ สร้างห่วงโซ่การค้าที่มืดใหญ่โตขึ้น

เมื่อมูลค่าของเนื้อหาดั้งเดิมลดลงเรื่อยๆ ในการให้คะแนนของอัลกอริธึม เราจำเป็นต้องตั้งคำถาม: ระบบการประเมิน “EEAT (ความเชี่ยวชาญ, ความน่าเชื่อถือ, ความไว้วางใจ)” ที่ Google ประกาศนั้น กลายเป็นเครื่องมือสำหรับการหารายได้จำนวนมากของฟาร์มเนื้อหาหรือไม่?

ระบบนิเวศของเนื้อหาที่ “เงินไม่ดีขับไล่เงินดี”

ในเดือนสิงหาคม 2023 บล็อกเทคโนโลยี “CodeDepth” ได้เผยแพร่บทความยาว 6000 คำเกี่ยวกับการวิเคราะห์เชิงลึกของสถาปัตยกรรมโมเดล Transformer ซึ่งผู้เขียนใช้เวลา 3 สัปดาห์ในการคำนวณและทดสอบอัลกอริธึม
หลังจากที่บทความถูกเผยแพร่ การทำดัชนีของ Google ใช้เวลานานถึง 11 วัน และอันดับสูงสุดอยู่ที่หน้า 9 ขณะที่เว็บไซต์รวม “DevHacks” ใช้ครอว์เลอร์กระจายไปดึงบทความนี้ จากนั้นใช้ AI ในการจัดเรียงย่อหน้าใหม่และใส่คำค้นที่ร้อนแรง 30 คำ ภายในเวลา 2 ชั่วโมงก็ถูกรวบรวมโดย Google และภายใน 48 ชั่วโมงได้ติดอันดับที่ 3 ของผลการค้นหาคำหลักเป้าหมาย

ที่น่าขันยิ่งกว่านั้นคือ เมื่อบทความดั้งเดิมถูกลดอันดับโดยอัตโนมัติจาก Google เพราะ “เนื้อหาซ้ำ” แต่เว็บไซต์รวบรวมกลับได้รับการจัดอันดับว่าเป็น “ประสบการณ์ผู้ใช้ที่ดีกว่า” จากอัลกอริธึม เนื่องจากอัตราการคลิก (CTR 8.7% vs. เว็บไซต์ดั้งเดิม 2.1%) และความเร็วในการโหลดหน้าเว็บที่เร็วกว่า (1.2 วินาที vs. 3.5 วินาที)

ทั้ง “CodeDepth” และ “DevHacks” ที่กล่าวถึงข้างต้นเป็นกรณีสมมติที่ใช้เพื่อแสดงภาพปัญหาของการต่อสู้ในอัลกอริธึมระหว่างฟาร์มเนื้อหากับผู้เขียนดั้งเดิม แต่ ปรากฏการณ์นี้มีอยู่จริง

เนื่องจากเกี่ยวข้องกับอุตสาหกรรมมืดและข้อพิพาทลิขสิทธิ์ เว็บไซต์ที่เป็นเหยื่อจริงหลายแห่งจึงเลือกที่จะไม่เปิดเผยชื่อเพื่อลดความเสี่ยงในการถูกโจมตี

จากการวิเคราะห์ด้วยเครื่องมือ Ahrefs
สิ่งที่น่าสะพรึงกลัวมากกว่านั้นคือ ตามการติดตามของ
SEMrush ฟาร์มเนื้อหาหลอกลวงอัลกอริธึม “น้ำหนักความทันท่วงที” ของ Google ด้วยการปลอมแปลง “วันเผยแพร่” (ทำเครื่องหมายเนื้อหาที่ขโมยมาว่าเผยแพร่ก่อนเนื้อหาดั้งเดิม 1-2 สัปดาห์) ทำให้บทความดั้งเดิมกว่า 70% ถูกแสดงในผลการค้นหาว่าเป็น “เนื้อหาซ้ำที่น่าสงสัย”

Google กำหนด “เนื้อหาคุณภาพ” อย่างไร?

Google ได้รวม “EEAT” (ความเชี่ยวชาญ, ความน่าเชื่อถือ, ความไว้วางใจ, ประสบการณ์) ลงใน คู่มือการประเมินคุณภาพการค้นหา อย่างเป็นทางการในปี 2022 และประกาศว่านี่คือมาตรฐานทองคำในการประเมินคุณภาพของเนื้อหา
แต่ในทางปฏิบัติ อัลกอริธึมกลับเผชิญกับปัญหาดังต่อไปนี้:

  1. กับดักการบูชาหลักสูตร: ฟาร์มเนื้อหาด้านการแพทย์ “HealthMaster” จ้างนักเขียนที่ไม่มีใบอนุญาตแพทย์ แต่เพิ่มตราสัญลักษณ์ “การรับรองจากสมาคมการแพทย์อเมริกัน” ปลอมที่ด้านล่างของหน้า (ใช้ Schema Markup ในการปลอมแปลง) เพื่อหลอกลวงระบบการประเมิน E-A-T ของ Google ทำให้ปริมาณการเข้าชมเพิ่มขึ้น 320% (ข้อมูลจาก SimilarWeb)
  2. อำนาจที่เป็นปริศนา: เอกสารสิทธิบัตรของ Google (US2023016258A1) ระบุว่า อัลกอริธึมพิจารณา “จำนวนลิงก์ภายนอก” เป็นตัวชี้วัดอำนาจหลัก ส่งผลให้เว็บไซต์รวบรวมสามารถซื้อลิงก์จากเว็บไซต์ที่ไม่มีชีวิตแล้ว (เช่น โดเมนสถาบันการศึกษาที่หมดอายุ) เพื่อเพิ่มคะแนนได้อย่างรวดเร็ว
  3. ความเชื่อมั่นที่เป็นเครื่องจักร: ฟาร์มเนื้อหามีการใช้เครื่องมือ (เช่น ClearScope) ในการสร้างเนื้อหาที่符合“มาตรฐานความสามารถในการอ่าน” (ความยาวย่อหน้า ความหนาแน่นของหัวข้อ) ปรับเนื้อหาให้ตรงตามเครื่องมือประเมินอย่างเต็มที่ ทำให้คะแนนของเครื่องยนต์เกินกว่าบทความที่มีลึกซึ้งของเนื้อหาดั้งเดิม

การใช้ประโยชน์จากกฎอัลกอริธึมในเชิงระบบ

1. การผลิตเนื้อหาที่เลียนแบบอย่างเป็นอุตสาหกรรม

  • การล้างเนื้อหาโดย AI: ใช้ GPT-4 + Undetectable.ai ในการปรับโครงสร้างความหมายของเนื้อหาดั้งเดิม เพื่อหลีกเลี่ยงการตรวจจับความซ้ำ ตัวอย่าง: เว็บไซต์รวม “TechPulse” ใช้วิธีนี้ในการเขียนใหม่บทความจาก “The New York Times” โดยเครื่องมือทดสอบเนื้อหาดั้งเดิม Originality.ai ให้คะแนนถึง 98% แม้เนื้อหาจะเป็นการประสานงานจากเครื่องจักร
  • การปล้นข้ามภาษา: แปลเนื้อหาดั้งเดิมจากภาษาอังกฤษ → เยอรมัน → รัสเซีย → จีน → แปลกลับเป็นภาษาอังกฤษ เพื่อสร้างข้อความ “เลียนแบบดั้งเดิม” ข้อมูล: ตามการสำรวจของ W3Techs พบว่าในปี 2023 จากเว็บไซต์ TOP1000 23% เป็นเว็บไซต์หลายภาษาแต่แท้จริงแล้วเป็นฟาร์มเนื้อหาที่ซ่อนตัวอยู่

2. ผลกระทบจากการควบคุมกลุ่มเว็บไซต์

  • เครือข่ายลิงก์ภายนอกแบบแพร่พันธุ์: ลงทะเบียนโดเมนหมดอายุจำนวนหลายร้อยโดเมน (เช่น เว็บไซต์ข่าวท้องถิ่นที่ปิดตัวแล้ว) แล้วโพสต์เนื้อหาจากเว็บไซต์รวบรวมไปยังโดเมนเหล่านั้น ก่อนที่จะใช้ Private Blog Network (PBN) เพื่อสร้างลิงก์ภายนอกให้กับเว็บไซต์หลัก เครื่องมือ: Ahrefs พบว่าเว็บไซต์รวบรวมบางแห่ง “AI Content Alliance” มีโดเมนมากถึง 217 แห่ง และสร้างลิงก์ภายนอกได้ 127,000 ลิงก์ในหนึ่งเดือน

3. โครงการหลอกลวงพฤติกรรมผู้ใช้

  • การควบคุมอัตราคลิก: ใช้พร็อกซี่ IP pool (BrightData platform) เพื่อจำลองการคลิกของผู้ใช้ และเพิ่ม CTR ของคำค้นเป้าหมายจาก 3% เป็น 15%
  • การปลอมแปลงเวลาอยู่บนหน้า: ใช้เครื่องมือ Puppeteer Extra เพื่อเลื่อนหน้าจออัตโนมัติ และคลิกปุ่มที่ต้องการ เพื่อทำให้ Google เข้าใจผิดว่าคอนเทนต์นั้นน่าสนใจ

อ่านได้โดยเครื่องจักร ≠ มีประโยชน์สำหรับมนุษย์

การออกแบบการทดลอง

สร้างบทความ 2 บทความในหัวข้อเดียวกัน:

  • บทความ A: การวิเคราะห์เทคนิคเชิงลึกโดยผู้เชี่ยวชาญ (รวมตัวอย่างโค้ดและการตรวจสอบข้อมูล)
  • บทความ B: เนื้อหาที่ได้รับการปรับแต่งโดย SurferSEO จากฟาร์มเนื้อหา (ใส่คำหลัก LSI 20 คำและเพิ่มโมดูล FAQ)

เผยแพร่ในโดเมนใหม่ที่มีอำนาจเดียวกัน โดยไม่สร้างลิงก์ภายนอก

ผลลัพธ์

  • หลังจาก 3 วัน บทความ B ได้อันดับเฉลี่ยสูงกว่าบทความ A โดย 8.2 อันดับใน 10 คำหลักที่กำหนด
  • Google Search Console แสดงว่า บทความ B มีคะแนน “Core Web Vitals” สูงกว่าบทความ A ถึง 34% (เนื่องจากการใช้การโหลดช้าและการแสดงผลด้วย CDN)

ปัญหาของอัลกอริธึมของ Google

แม้ว่า Google จะอัปเดตระบบป้องกันสแปม “SpamBrain” ในปี 2023 แต่ทีมงานที่ใช้วิธีการที่ไม่ถูกต้องยังคงหาทางเจาะระบบได้ด้วยวิธีการดังต่อไปนี้:

  • การฝึกอบรม AI แบบต่อต้าน: ใช้กฎป้องกันสแปมของ Google เป็นข้อมูลในการฝึกอบรม เพื่อให้ GPT-4 สร้างเนื้อหาที่หลีกเลี่ยงการตรวจจับ
  • กลยุทธ์การหลีกเลี่ยงที่ปรับตัวได้: เมื่อเว็บไซต์ใดเว็บไซต์หนึ่งถูกลดอันดับ เว็บไซต์ในเครือจะปรับความถี่การเก็บข้อมูลและการเลือกคำหลักโดยอัตโนมัติ
  • พื้นที่สีเทาทางกฎหมาย: การตั้งเซิร์ฟเวอร์ในเขตอำนาจศาลเช่น กัมพูชาและเซนต์คิตส์ เพื่อหลีกเลี่ยงการร้องเรียน DMCA

เหตุการณ์จริง:

ในเดือนกันยายน 2023 Google ได้แบนฟาร์มเนื้อหาชื่อดัง “InfoAggregate” แต่ผู้ดำเนินการย้ายเนื้อหาทั้งหมดไปยังโดเมนใหม่ “InfoHub” ภายใน 72 ชั่วโมง และใช้ Cloudflare Workers เปลี่ยนลายนิ้วมือของโดเมนแบบไดนามิก ทำให้การแบนมีประสิทธิภาพลดลงถึง 90%。

กลยุทธ์ 7 ข้อในการหลีกเลี่ยงของฟาร์มเนื้อหา

จากการสำรวจของ The Wall Street Journal ในปี 2023 ขนาดตลาดฟาร์มเนื้อหาทั่วโลกได้ถึง 7.4 พันล้านดอลลาร์ ระบบการโกงเชิงอุตสาหกรรมของฟาร์มเนื้อหาจะส่งเนื้อหาลอกเลียนแบบ 4.7 ล้านชิ้นต่อวันไปยังดัชนีของ Google ซึ่งเท่ากับว่ามีการ “ลอกเลียนแบบที่ได้รับการรับรอง” เกิดขึ้นทุก 1 มิลลิวินาที

1. เซิร์ฟเวอร์กระจาย + การเร่งความเร็ว CDN

หลักการ: เช่าบริการเซิร์ฟเวอร์หลายร้อยเครื่องทั่วโลก และใช้เครือข่ายการกระจายเนื้อหาหรือ CDN เพื่อทำให้ Google Crawler เข้าใจว่าเป็น “เว็บไซต์ที่มีความนิยมสูง”

เปรียบเทียบ: ขโมยใช้ทางด่วน 100 เส้นในการขนส่งของโจร และตำรวจ (Google) เข้าใจผิดว่าเป็นบริษัทขนส่งที่ถูกกฎหมาย

2. การใช้ข้อมูลที่มีโครงสร้างอย่างผิดๆ

หลักการ: ปลอมแปลงวันที่เผยแพร่หรือชื่อยศของผู้เขียน (เช่น “วิศวกรอาวุโสของ Google”) ในรหัสเว็บเพื่อหลอกลวงอัลกอริธึมให้ให้ค่าน้ำหนักตามความทันสมัย

ตัวอย่าง: บทความที่ถูกลอกเลียนในปี 2023 ถูกระบุว่า “เผยแพร่ในปี 2020” ทำให้เนื้อหาของต้นฉบับถูกตีความว่าเป็น “ผู้ลอกเลียน”

3. การยึดคำหลักที่เป็นที่นิยม

หลักการ: ใช้บอทเก็บข้อมูลจาก Reddit หรือ Zhihu เพื่อติดตามคำหลักที่กำลังเป็นที่นิยมและสร้างเนื้อหาปลอมที่กำลังได้รับความนิยมจำนวนมากอย่างรวดเร็ว

ข้อมูล: ฟาร์มเนื้อหาหนึ่งได้ใช้คำหลัก “Sora Insider Analysis” เพื่อครองอันดับในผลการค้นหาก่อนการประกาศของ OpenAI ถึง 24 ชั่วโมง

4. การจำลองพฤติกรรมผู้ใช้

หลักการ: ใช้บอทจำลองพฤติกรรมของผู้ใช้จริง (เลื่อนหน้าจอ คลิกปุ่ม) เพื่อเพิ่มอัตราการคลิกและเวลาที่อยู่ในหน้า

เครื่องมือ: ใช้ IP Proxy จาก BrightData + สคริปต์อัตโนมัติใน Chrome สร้าง “การโต้ตอบของผู้ใช้” จำนวน 10,000 ครั้งภายใน 1 ชั่วโมง

5. โรงงานลิงก์ย้อนกลับ

หลักการ: ซื้อโดเมนจากเว็บไซต์ของรัฐบาลหรือสถาบันการศึกษาที่เลิกใช้งานแล้ว (เช่น เว็บไซต์ของห้องทดลองในมหาวิทยาลัยที่ปิดตัว) และใช้ลิงก์ย้อนกลับสำหรับฟาร์มเนื้อหา

ผลลัพธ์: ใช้น้ำหนักทางประวัติศาสตร์จากโดเมน .edu ของมหาวิทยาลัยฮาร์วาร์ด สร้างความเชื่อถือให้กับเว็บไซต์ใหม่ในฟาร์มเนื้อหาในเวลาเพียง 3 วัน

6. การปลอมแปลงหลายภาษา

หลักการ: แปลเนื้อหาภาษาอังกฤษเป็นภาษาเยอรมัน → อารบิก → ญี่ปุ่น → กลับมาเป็นภาษาอังกฤษ เพื่อสร้าง “เนื้อหาที่ไม่สามารถตรวจจับได้” จากระบบตรวจจับการลอกเลียน

ผลการทดสอบ: ใช้ Google Translate เพื่อแปล 3 ครั้ง ผลลัพธ์ที่ตรวจสอบโดย Originality.ai ระบุว่าเนื้อหามีความเป็นต้นฉบับ 89%

7. เทคนิคการเย็บผ้า AI

หลักการ: การเขียนใหม่โดย GPT-4 + การแก้ไขไวยากรณ์โดย Grammarly + การสร้างภาพ เพื่อผลิต “บทความเย็บผ้าที่ดูเหมือนมืออาชีพ” ภายใน 1 ชั่วโมง

โครงสร้างที่พบบ่อย: 30% สรุปเนื้อหาต้นฉบับ + 40% คำศัพท์จาก Wikipedia + 30% ลิงก์ผลิตภัณฑ์จาก Amazon

ทำไมกลยุทธ์เหล่านี้จึงสามารถบดขยี้เนื้อหาต้นฉบับได้?

เนื่องจากการใช้ 7 วิธีเหล่านี้ร่วมกันจะสร้าง “การดึงข้อมูล → การรีไรท์ → การเพิ่มน้ำหนัก → การทำเงิน” เป็นสายการผลิตในรูปแบบอุตสาหกรรม

5 สาเหตุหลักที่ทำให้การตัดสินใจของอัลกอริธึมผิดพลาด

สาเหตุที่ 1: “สงครามข้อมูลเปลือย” ของเว็บไซต์ขนาดกลางและเล็ก

ความขัดแย้งหลัก: Google ต้องการให้ติดตั้งข้อมูลที่มีโครงสร้าง (Schema Markup, กราฟความรู้) แต่แพลตฟอร์ม CMS (เช่น WordPress) มีความเข้ากันได้ของปลั๊กอินที่ต่ำ ทำให้บล็อกเกอร์อิสระไม่สามารถส่งข้อมูลที่สำคัญได้อย่างถูกต้อง

ข้อมูลยืนยัน

  • ผู้สร้างเนื้อหาต้นฉบับ: เพียง 12% ของบล็อกส่วนตัวที่ใช้โครงสร้าง Article หรือ HowTo ได้ถูกต้อง (Search Engine Journal วิจัย)
  • ฟาร์มเนื้อหา: 100% ใช้โครงสร้าง NewsArticle และ Speakable อย่างผิดๆ เพื่อปลอมแปลงความน่าเชื่อถือ (ผลการสแกนจาก SEMrush)

ผลลัพธ์:อัลกอริธึมไม่สามารถตรวจจับประเภทของเนื้อหาของผู้สร้างต้นฉบับและเข้าใจผิดว่าเป็น “ข้อมูลที่มีความหนาแน่นต่ำ”

สาเหตุที่ 2: การบังคับความถี่ในการอัปเดต

การ偏好ของอัลกอริธึม: Google ให้การเพิ่มน้ำหนักในการจัดอันดับ 2.3 เท่าสำหรับเว็บไซต์ที่อัปเดตเนื้อหาทุกวัน (“เนื้อหาที่สดใหม่” ที่มีการอัปเดตบ่อย)

การเปรียบเทียบจริง

  • ผู้สร้างเนื้อหาต้นฉบับ: การเขียนบทความวิเคราะห์เทคนิคต้องใช้เวลา 2-3 สัปดาห์ (รวมการตรวจสอบโค้ดและสร้างกราฟ)
  • ฟาร์มเนื้อหา: ใช้ Jasper.ai + Canva เพื่อผลิตบทความ “เรียนรู้ XX ใน 10 นาที” 20 บทความใน 1 วัน

กรณีศึกษา: งานวิจัยจาก Lynn เกี่ยวกับ “หลักการทางคณิตศาสตร์ของโมเดลการแพร่กระจาย” ถูกลงโทษจากการอัปเดตทุกเดือน ขณะที่ฟาร์มเนื้อหา “AIGuide” อัปเดตบทความ 50 บทความทุกวันและการเข้าถึงได้สูงถึง 4 เท่า

ตัวกระตุ้นที่ 3: การละเมิดกลไกการลงคะแนนของลิงก์ภายนอก

ข้อบกพร่องของกลไก: Google มองว่าลิงก์ภายนอกเป็น “สิทธิ์ในการลงคะแนน” แต่ไม่สามารถแยกแยะระหว่างคำแนะนำตามธรรมชาติและลิงก์ภายนอกจากการทำ SEO แบบไม่ถูกต้องได้

ความจริงของข้อมูล:

  • ลิงก์ภายนอกตามธรรมชาติ: เนื้อหาต้นฉบับต้องใช้เวลาเฉลี่ย 6.7 เดือนในการสะสมลิงก์ภายนอกคุณภาพสูง 30 ลิงก์ (ข้อมูลจาก Ahrefs)
  • ลิงก์ภายนอกที่โกง: เว็บไซต์เก็บข้อมูลใช้ PBN (เครือข่ายบล็อกส่วนตัว) ป้อนลิงก์ภายนอกกว่า 500 ลิงก์ในหนึ่งวัน ซึ่ง 87% มาจากเว็บไซต์รัฐบาล/การศึกษาที่ปิดไปแล้ว (ข้อมูลจาก Spamzilla)

ความเป็นจริงที่ขบขัน: เว็บไซต์ทางการของห้องทดลองมหาวิทยาลัยแห่งหนึ่งถูกแฮกเกอร์ซื้อกิจการและกลายเป็น “คลังการลงคะแนนที่มีอำนาจ” ของเว็บไซต์เก็บข้อมูล 50 เว็บไซต์

ตัวกระตุ้นที่ 4: ข้อผิดพลาดในการรับรองอำนาจ

อคติของอัลกอริธึม: Google ให้ความสำคัญกับผู้เขียนที่มีอีเมลจากองค์กร (.edu/.gov) โดยอัตโนมัติ ในขณะที่ผู้สร้างเนื้อหาส่วนตัวจะถูกมองว่าเป็น “แหล่งข้อมูลที่เชื่อถือได้น้อย”

การทดสอบการทดลอง:

การตีความบทความ AI เดียวกัน:

  1. เผยแพร่บนบล็อกส่วนตัว (ผู้เขียน: นักศึกษาปริญญาเอกจากสแตนฟอร์ด): ติดอันดับหน้าที่ 2
  2. เผยแพร่บนเว็บไซต์เก็บข้อมูล (ผู้เขียนปลอม “นักวิจัยจาก MIT AI Lab”): ติดอันดับที่ 3

ผลลัพธ์: เนื้อหาของนักพัฒนาที่ไม่เปิดเผยตัวและนักวิจัยอิสระจะถูกประเมินค่าต่ำกว่าความเป็นจริง

ตัวกระตุ้นที่ 5: “การคิดลึก” กลายเป็นศัตรูกับอัลกอริธึม

กลไกที่ขัดกับสามัญสำนึก:

  • Google มองว่า “อัตราการออกจากหน้าเว็บสูง” และ “ระยะเวลาเข้าชมสั้น” เป็นสัญญาณลบ
  • แต่บทความเทคนิคที่ลึกซึ้งต้องใช้เวลาอ่านมากกว่า 15 นาที ซึ่งทำให้มีการปิดหน้าต่างกลางทางมากขึ้น

เปรียบเทียบข้อมูล:

  • เว็บไซต์เก็บข้อมูล: เวลาเฉลี่ยที่ผู้ใช้อยู่ในหน้า 1 นาที 23 วินาที (ผู้ใช้สแกนคำสำคัญอย่างรวดเร็วแล้วออกจากเว็บไซต์) → ถูกตัดสินว่า “ตอบสนองความต้องการได้อย่างมีประสิทธิภาพ”
  • เว็บไซต์ต้นฉบับ: เวลาเฉลี่ยที่ผู้ใช้อยู่ในหน้า 8 นาที 17 วินาที (ผู้ใช้อ่านอย่างละเอียดและจดบันทึก) → อัลกอริธึมตัดสินว่า “เนื้อหาดึงดูดไม่เพียงพอ”

กรณีศึกษา: คำถามเชิงเทคนิคจาก Stack Overflow ที่มี “อัตราการออกจากหน้าเว็บสูง” มักจะถูกบดบังโดย “บทความแบบรายการ” ของฟาร์มเนื้อหา

การตอบโต้ของ Google และข้อจำกัด

ในปี 2023, Google อ้างว่าได้ลบหน้าสแปมไป 2.5 พันล้านหน้า แต่การติดตามของ SEMrush แสดงให้เห็นว่า การจราจรโดยรวมจากฟาร์มเนื้อหากลับเพิ่มขึ้น 18% ซึ่งแสดงให้เห็นถึงความล้มเหลวของ Google

การอัปเกรดระบบป้องกันสแปม SpamBrain

หลักการทางเทคนิค:

  • ใช้กราฟเน็ตเวิร์กประสาท (GNN) ในการระบุความสัมพันธ์ของกลุ่มเว็บไซต์ และในเวอร์ชัน 2023 เพิ่มโมดูล “การตรวจจับรูปแบบการจราจรผิดปกติ”
  • อ้างว่าสามารถระบุเนื้อหาสแปมที่สร้างโดย AI ได้ 90% (บล็อกอย่างเป็นทางการของ Google)

ผลลัพธ์จริง:

การหลบหลีก: ทีมงานด้าน SEO ที่ผิดกฎหมายใช้กฎการตรวจจับของ SpamBrain เพื่อฝึก GPT-4 ให้สร้าง “สแปมที่ถูกกฎหมาย” ที่สามารถหลบหลีกการตรวจจับได้

กรณีศึกษา: เว็บไซต์เก็บข้อมูลแห่งหนึ่งใช้ “เครื่องมือสร้างตัวอย่างศัตรู” เพื่อสร้างเนื้อหาทำให้ SpamBrain ผิดพลาดถึง 74% (การทดสอบจาก SERPstat)

ต้นทุนจากการตัดสินใจผิด: ในการอัปเดตอัลกอริธึมเดือนสิงหาคม 2023, 12% ของบล็อกวิชาการถูกตัดสินว่าเป็นเว็บไซต์สแปม (มีการร้องเรียนเพิ่มขึ้นในฟอรัม WebmasterWorld)

ผู้ประเมินคุณภาพด้วยมือ (QRaters)

กลไกการทำงาน:

  • พนักงานสัญญาจ้างมากกว่า 10,000 คนทั่วโลกตรวจสอบเนื้อหาที่น่าสงสัยตาม “คู่มือการประเมินคุณภาพ”
  • เกณฑ์การประเมิน: ความสอดคล้องกับ EEAT, ความถูกต้องของข้อเท็จจริง, ประสบการณ์ผู้ใช้

ข้อจำกัด:

  • ช่องว่างทางวัฒนธรรม: QRaters ส่วนใหญ่เป็นคนที่อาศัยอยู่ในประเทศที่ใช้ภาษาอังกฤษ ทำให้ไม่สามารถประเมินเนื้อหาที่ไม่ใช่ภาษาลาตินได้อย่างมีประสิทธิภาพ (เช่น อัตราการมองข้าม SEO แบล็กแฮทของจีนสูงถึง 60%)
  • ข้อจำกัดทางประสิทธิภาพ: ผู้ประเมินแต่ละคนตรวจสอบได้เฉลี่ย 200 รายการต่อวัน ทำให้สามารถตรวจสอบเนื้อหาที่เพิ่มเข้ามาใหม่ได้เพียง 0.003% (ข้อมูลจากเอกสารภายในของ Google)
  • การพึ่งพารูปแบบ: ฟาร์มเนื้อหาสามารถได้คะแนน 82 จาก 100 (เต็มคะแนน) ในการประเมินของ QRater โดยการใส่โมดูล “คำชี้แจงการปฏิเสธความรับผิด” หรือ “ข้อมูลเกี่ยวกับผู้เขียน”

เครื่องมือทางกฎหมายและการร้องเรียน DMCA

สถานการณ์การบังคับใช้:

  • Google รับปากที่จะ “ดำเนินการร้องเรียน DMCA ภายใน 6 ชั่วโมง” แต่ในปี 2023 เวลาตอบกลับเฉลี่ยยืดไปถึง 9.3 วัน (ข้อมูลจาก Copysentry)
  • ฟาร์มเนื้อหามีการใช้ “ช่องโหว่ทางกฎหมาย”: การแทนที่ข้อความเพียง 10% ก็สามารถหลีกเลี่ยงการเรียกร้องลิขสิทธิ์ได้

อารมณ์ขันดำ:

เว็บไซต์เก็บข้อมูลแห่งหนึ่งได้เขียนใหม่บทความจาก The New York Times และส่งการร้องเรียน DMCA กลับไปโดยกล่าวหาว่าบทความต้นฉบับเป็นการลอกเลียนแบบ ส่งผลให้หน้าเว็บของ The New York Times ถูกลดระดับชั่วคราว (บันทึกการเปลี่ยนแปลงการจราจรจาก SimilarWeb)

การบล็อกตามภูมิภาค

กลยุทธ์ภูมิภาค:

  • ในยุโรปและอเมริกา จะบังคับให้ตรวจสอบที่ตั้งของเซิร์ฟเวอร์เว็บไซต์และบล็อกการเข้าถึงจาก VPN
  • ทำงานร่วมกับบริการ CDN อย่าง Cloudflare เพื่อบล็อกการเข้าชมที่น่าสงสัย

การฝ่าวงล้อมในโลกแห่งความจริง:

  • ทีมงานด้าน SEO ที่ผิดกฎหมายเช่าใช้ทรัพยากรคอมพิวเตอร์จากรัฐบาลในกัมพูชาและซิมบับเว (.gov.kh อ้างว่าได้รับการยกเว้นการตรวจสอบ)
  • ใช้การเชื่อมต่อดาวเทียม (เช่น Starlink) เปลี่ยนแปลง IP แบบไดนามิก ทำให้รายการ IP ที่ถูกบล็อกตามไม่ทันความเร็วในการสร้าง IP ใหม่

ขอขอบคุณที่อ่านมาถึงตอนนี้ จำไว้ว่าหลักการสำคัญคือ ถ้าคุณสามารถให้คุณค่าแก่ผู้ใช้ได้อย่างต่อเนื่อง เครื่องมือค้นหาจะไม่ทิ้งคุณไป ที่นี่หมายถึง “เครื่องมือค้นหา” ไม่ใช่แค่ Google เท่านั้น

ครั้งนี้, คุณเห็นภาพทั้งหมดหรือยัง?

Picture of Don Jiang
Don Jiang

SEO本质是资源竞争,为搜索引擎用户提供实用性价值,关注我,带您上顶楼看透谷歌排名的底层算法。

最新解读