ในช่วงสามปีที่ผ่านมา ความถี่ของการอัปเดตอัลกอริธึมหลักของ Google เพิ่มขึ้น 47% แต่ก็ไม่สามารถยับยั้งการขยายตัวอย่างบ้าคลั่งของฟาร์มเนื้อหา (Content Farm) ได้—เว็บไซต์เหล่านี้ใช้ AI ในการเขียนบทความใหม่ การควบคุมกลุ่มเว็บไซต์ และเทคโนโลยีจำลองพฤติกรรมผู้ใช้ เพื่อปล้นเนื้อหาดั้งเดิมวันละมากกว่า 2 ล้านบทความ สร้างห่วงโซ่การค้าที่มืดใหญ่โตขึ้น
เมื่อมูลค่าของเนื้อหาดั้งเดิมลดลงเรื่อยๆ ในการให้คะแนนของอัลกอริธึม เราจำเป็นต้องตั้งคำถาม: ระบบการประเมิน “EEAT (ความเชี่ยวชาญ, ความน่าเชื่อถือ, ความไว้วางใจ)” ที่ Google ประกาศนั้น กลายเป็นเครื่องมือสำหรับการหารายได้จำนวนมากของฟาร์มเนื้อหาหรือไม่?
ระบบนิเวศของเนื้อหาที่ “เงินไม่ดีขับไล่เงินดี”
ในเดือนสิงหาคม 2023 บล็อกเทคโนโลยี “CodeDepth” ได้เผยแพร่บทความยาว 6000 คำเกี่ยวกับการวิเคราะห์เชิงลึกของสถาปัตยกรรมโมเดล Transformer ซึ่งผู้เขียนใช้เวลา 3 สัปดาห์ในการคำนวณและทดสอบอัลกอริธึม
หลังจากที่บทความถูกเผยแพร่ การทำดัชนีของ Google ใช้เวลานานถึง 11 วัน และอันดับสูงสุดอยู่ที่หน้า 9 ขณะที่เว็บไซต์รวม “DevHacks” ใช้ครอว์เลอร์กระจายไปดึงบทความนี้ จากนั้นใช้ AI ในการจัดเรียงย่อหน้าใหม่และใส่คำค้นที่ร้อนแรง 30 คำ ภายในเวลา 2 ชั่วโมงก็ถูกรวบรวมโดย Google และภายใน 48 ชั่วโมงได้ติดอันดับที่ 3 ของผลการค้นหาคำหลักเป้าหมาย
ที่น่าขันยิ่งกว่านั้นคือ เมื่อบทความดั้งเดิมถูกลดอันดับโดยอัตโนมัติจาก Google เพราะ “เนื้อหาซ้ำ” แต่เว็บไซต์รวบรวมกลับได้รับการจัดอันดับว่าเป็น “ประสบการณ์ผู้ใช้ที่ดีกว่า” จากอัลกอริธึม เนื่องจากอัตราการคลิก (CTR 8.7% vs. เว็บไซต์ดั้งเดิม 2.1%) และความเร็วในการโหลดหน้าเว็บที่เร็วกว่า (1.2 วินาที vs. 3.5 วินาที)
ทั้ง “CodeDepth” และ “DevHacks” ที่กล่าวถึงข้างต้นเป็นกรณีสมมติที่ใช้เพื่อแสดงภาพปัญหาของการต่อสู้ในอัลกอริธึมระหว่างฟาร์มเนื้อหากับผู้เขียนดั้งเดิม แต่ ปรากฏการณ์นี้มีอยู่จริง
เนื่องจากเกี่ยวข้องกับอุตสาหกรรมมืดและข้อพิพาทลิขสิทธิ์ เว็บไซต์ที่เป็นเหยื่อจริงหลายแห่งจึงเลือกที่จะไม่เปิดเผยชื่อเพื่อลดความเสี่ยงในการถูกโจมตี
จากการวิเคราะห์ด้วยเครื่องมือ Ahrefs
สิ่งที่น่าสะพรึงกลัวมากกว่านั้นคือ ตามการติดตามของ SEMrush ฟาร์มเนื้อหาหลอกลวงอัลกอริธึม “น้ำหนักความทันท่วงที” ของ Google ด้วยการปลอมแปลง “วันเผยแพร่” (ทำเครื่องหมายเนื้อหาที่ขโมยมาว่าเผยแพร่ก่อนเนื้อหาดั้งเดิม 1-2 สัปดาห์) ทำให้บทความดั้งเดิมกว่า 70% ถูกแสดงในผลการค้นหาว่าเป็น “เนื้อหาซ้ำที่น่าสงสัย”
Google กำหนด “เนื้อหาคุณภาพ” อย่างไร?
Google ได้รวม “EEAT” (ความเชี่ยวชาญ, ความน่าเชื่อถือ, ความไว้วางใจ, ประสบการณ์) ลงใน คู่มือการประเมินคุณภาพการค้นหา อย่างเป็นทางการในปี 2022 และประกาศว่านี่คือมาตรฐานทองคำในการประเมินคุณภาพของเนื้อหา
แต่ในทางปฏิบัติ อัลกอริธึมกลับเผชิญกับปัญหาดังต่อไปนี้:
- กับดักการบูชาหลักสูตร: ฟาร์มเนื้อหาด้านการแพทย์ “HealthMaster” จ้างนักเขียนที่ไม่มีใบอนุญาตแพทย์ แต่เพิ่มตราสัญลักษณ์ “การรับรองจากสมาคมการแพทย์อเมริกัน” ปลอมที่ด้านล่างของหน้า (ใช้ Schema Markup ในการปลอมแปลง) เพื่อหลอกลวงระบบการประเมิน E-A-T ของ Google ทำให้ปริมาณการเข้าชมเพิ่มขึ้น 320% (ข้อมูลจาก SimilarWeb)
- อำนาจที่เป็นปริศนา: เอกสารสิทธิบัตรของ Google (US2023016258A1) ระบุว่า อัลกอริธึมพิจารณา “จำนวนลิงก์ภายนอก” เป็นตัวชี้วัดอำนาจหลัก ส่งผลให้เว็บไซต์รวบรวมสามารถซื้อลิงก์จากเว็บไซต์ที่ไม่มีชีวิตแล้ว (เช่น โดเมนสถาบันการศึกษาที่หมดอายุ) เพื่อเพิ่มคะแนนได้อย่างรวดเร็ว
- ความเชื่อมั่นที่เป็นเครื่องจักร: ฟาร์มเนื้อหามีการใช้เครื่องมือ (เช่น ClearScope) ในการสร้างเนื้อหาที่符合“มาตรฐานความสามารถในการอ่าน” (ความยาวย่อหน้า ความหนาแน่นของหัวข้อ) ปรับเนื้อหาให้ตรงตามเครื่องมือประเมินอย่างเต็มที่ ทำให้คะแนนของเครื่องยนต์เกินกว่าบทความที่มีลึกซึ้งของเนื้อหาดั้งเดิม
การใช้ประโยชน์จากกฎอัลกอริธึมในเชิงระบบ
1. การผลิตเนื้อหาที่เลียนแบบอย่างเป็นอุตสาหกรรม
- การล้างเนื้อหาโดย AI: ใช้ GPT-4 + Undetectable.ai ในการปรับโครงสร้างความหมายของเนื้อหาดั้งเดิม เพื่อหลีกเลี่ยงการตรวจจับความซ้ำ ตัวอย่าง: เว็บไซต์รวม “TechPulse” ใช้วิธีนี้ในการเขียนใหม่บทความจาก “The New York Times” โดยเครื่องมือทดสอบเนื้อหาดั้งเดิม Originality.ai ให้คะแนนถึง 98% แม้เนื้อหาจะเป็นการประสานงานจากเครื่องจักร
- การปล้นข้ามภาษา: แปลเนื้อหาดั้งเดิมจากภาษาอังกฤษ → เยอรมัน → รัสเซีย → จีน → แปลกลับเป็นภาษาอังกฤษ เพื่อสร้างข้อความ “เลียนแบบดั้งเดิม” ข้อมูล: ตามการสำรวจของ W3Techs พบว่าในปี 2023 จากเว็บไซต์ TOP1000 23% เป็นเว็บไซต์หลายภาษาแต่แท้จริงแล้วเป็นฟาร์มเนื้อหาที่ซ่อนตัวอยู่
2. ผลกระทบจากการควบคุมกลุ่มเว็บไซต์
- เครือข่ายลิงก์ภายนอกแบบแพร่พันธุ์: ลงทะเบียนโดเมนหมดอายุจำนวนหลายร้อยโดเมน (เช่น เว็บไซต์ข่าวท้องถิ่นที่ปิดตัวแล้ว) แล้วโพสต์เนื้อหาจากเว็บไซต์รวบรวมไปยังโดเมนเหล่านั้น ก่อนที่จะใช้ Private Blog Network (PBN) เพื่อสร้างลิงก์ภายนอกให้กับเว็บไซต์หลัก เครื่องมือ: Ahrefs พบว่าเว็บไซต์รวบรวมบางแห่ง “AI Content Alliance” มีโดเมนมากถึง 217 แห่ง และสร้างลิงก์ภายนอกได้ 127,000 ลิงก์ในหนึ่งเดือน
3. โครงการหลอกลวงพฤติกรรมผู้ใช้
- การควบคุมอัตราคลิก: ใช้พร็อกซี่ IP pool (BrightData platform) เพื่อจำลองการคลิกของผู้ใช้ และเพิ่ม CTR ของคำค้นเป้าหมายจาก 3% เป็น 15%
- การปลอมแปลงเวลาอยู่บนหน้า: ใช้เครื่องมือ Puppeteer Extra เพื่อเลื่อนหน้าจออัตโนมัติ และคลิกปุ่มที่ต้องการ เพื่อทำให้ Google เข้าใจผิดว่าคอนเทนต์นั้นน่าสนใจ
อ่านได้โดยเครื่องจักร ≠ มีประโยชน์สำหรับมนุษย์
การออกแบบการทดลอง:
สร้างบทความ 2 บทความในหัวข้อเดียวกัน:
- บทความ A: การวิเคราะห์เทคนิคเชิงลึกโดยผู้เชี่ยวชาญ (รวมตัวอย่างโค้ดและการตรวจสอบข้อมูล)
- บทความ B: เนื้อหาที่ได้รับการปรับแต่งโดย SurferSEO จากฟาร์มเนื้อหา (ใส่คำหลัก LSI 20 คำและเพิ่มโมดูล FAQ)
เผยแพร่ในโดเมนใหม่ที่มีอำนาจเดียวกัน โดยไม่สร้างลิงก์ภายนอก
ผลลัพธ์:
- หลังจาก 3 วัน บทความ B ได้อันดับเฉลี่ยสูงกว่าบทความ A โดย 8.2 อันดับใน 10 คำหลักที่กำหนด
- Google Search Console แสดงว่า บทความ B มีคะแนน “Core Web Vitals” สูงกว่าบทความ A ถึง 34% (เนื่องจากการใช้การโหลดช้าและการแสดงผลด้วย CDN)
ปัญหาของอัลกอริธึมของ Google
แม้ว่า Google จะอัปเดตระบบป้องกันสแปม “SpamBrain” ในปี 2023 แต่ทีมงานที่ใช้วิธีการที่ไม่ถูกต้องยังคงหาทางเจาะระบบได้ด้วยวิธีการดังต่อไปนี้:
- การฝึกอบรม AI แบบต่อต้าน: ใช้กฎป้องกันสแปมของ Google เป็นข้อมูลในการฝึกอบรม เพื่อให้ GPT-4 สร้างเนื้อหาที่หลีกเลี่ยงการตรวจจับ
- กลยุทธ์การหลีกเลี่ยงที่ปรับตัวได้: เมื่อเว็บไซต์ใดเว็บไซต์หนึ่งถูกลดอันดับ เว็บไซต์ในเครือจะปรับความถี่การเก็บข้อมูลและการเลือกคำหลักโดยอัตโนมัติ
- พื้นที่สีเทาทางกฎหมาย: การตั้งเซิร์ฟเวอร์ในเขตอำนาจศาลเช่น กัมพูชาและเซนต์คิตส์ เพื่อหลีกเลี่ยงการร้องเรียน DMCA
เหตุการณ์จริง:
ในเดือนกันยายน 2023 Google ได้แบนฟาร์มเนื้อหาชื่อดัง “InfoAggregate” แต่ผู้ดำเนินการย้ายเนื้อหาทั้งหมดไปยังโดเมนใหม่ “InfoHub” ภายใน 72 ชั่วโมง และใช้ Cloudflare Workers เปลี่ยนลายนิ้วมือของโดเมนแบบไดนามิก ทำให้การแบนมีประสิทธิภาพลดลงถึง 90%。
กลยุทธ์ 7 ข้อในการหลีกเลี่ยงของฟาร์มเนื้อหา
จากการสำรวจของ The Wall Street Journal ในปี 2023 ขนาดตลาดฟาร์มเนื้อหาทั่วโลกได้ถึง 7.4 พันล้านดอลลาร์ ระบบการโกงเชิงอุตสาหกรรมของฟาร์มเนื้อหาจะส่งเนื้อหาลอกเลียนแบบ 4.7 ล้านชิ้นต่อวันไปยังดัชนีของ Google ซึ่งเท่ากับว่ามีการ “ลอกเลียนแบบที่ได้รับการรับรอง” เกิดขึ้นทุก 1 มิลลิวินาที
1. เซิร์ฟเวอร์กระจาย + การเร่งความเร็ว CDN
หลักการ: เช่าบริการเซิร์ฟเวอร์หลายร้อยเครื่องทั่วโลก และใช้เครือข่ายการกระจายเนื้อหาหรือ CDN เพื่อทำให้ Google Crawler เข้าใจว่าเป็น “เว็บไซต์ที่มีความนิยมสูง”
เปรียบเทียบ: ขโมยใช้ทางด่วน 100 เส้นในการขนส่งของโจร และตำรวจ (Google) เข้าใจผิดว่าเป็นบริษัทขนส่งที่ถูกกฎหมาย
2. การใช้ข้อมูลที่มีโครงสร้างอย่างผิดๆ
หลักการ: ปลอมแปลงวันที่เผยแพร่หรือชื่อยศของผู้เขียน (เช่น “วิศวกรอาวุโสของ Google”) ในรหัสเว็บเพื่อหลอกลวงอัลกอริธึมให้ให้ค่าน้ำหนักตามความทันสมัย
ตัวอย่าง: บทความที่ถูกลอกเลียนในปี 2023 ถูกระบุว่า “เผยแพร่ในปี 2020” ทำให้เนื้อหาของต้นฉบับถูกตีความว่าเป็น “ผู้ลอกเลียน”
3. การยึดคำหลักที่เป็นที่นิยม
หลักการ: ใช้บอทเก็บข้อมูลจาก Reddit หรือ Zhihu เพื่อติดตามคำหลักที่กำลังเป็นที่นิยมและสร้างเนื้อหาปลอมที่กำลังได้รับความนิยมจำนวนมากอย่างรวดเร็ว
ข้อมูล: ฟาร์มเนื้อหาหนึ่งได้ใช้คำหลัก “Sora Insider Analysis” เพื่อครองอันดับในผลการค้นหาก่อนการประกาศของ OpenAI ถึง 24 ชั่วโมง
4. การจำลองพฤติกรรมผู้ใช้
หลักการ: ใช้บอทจำลองพฤติกรรมของผู้ใช้จริง (เลื่อนหน้าจอ คลิกปุ่ม) เพื่อเพิ่มอัตราการคลิกและเวลาที่อยู่ในหน้า
เครื่องมือ: ใช้ IP Proxy จาก BrightData + สคริปต์อัตโนมัติใน Chrome สร้าง “การโต้ตอบของผู้ใช้” จำนวน 10,000 ครั้งภายใน 1 ชั่วโมง
5. โรงงานลิงก์ย้อนกลับ
หลักการ: ซื้อโดเมนจากเว็บไซต์ของรัฐบาลหรือสถาบันการศึกษาที่เลิกใช้งานแล้ว (เช่น เว็บไซต์ของห้องทดลองในมหาวิทยาลัยที่ปิดตัว) และใช้ลิงก์ย้อนกลับสำหรับฟาร์มเนื้อหา
ผลลัพธ์: ใช้น้ำหนักทางประวัติศาสตร์จากโดเมน .edu ของมหาวิทยาลัยฮาร์วาร์ด สร้างความเชื่อถือให้กับเว็บไซต์ใหม่ในฟาร์มเนื้อหาในเวลาเพียง 3 วัน
6. การปลอมแปลงหลายภาษา
หลักการ: แปลเนื้อหาภาษาอังกฤษเป็นภาษาเยอรมัน → อารบิก → ญี่ปุ่น → กลับมาเป็นภาษาอังกฤษ เพื่อสร้าง “เนื้อหาที่ไม่สามารถตรวจจับได้” จากระบบตรวจจับการลอกเลียน
ผลการทดสอบ: ใช้ Google Translate เพื่อแปล 3 ครั้ง ผลลัพธ์ที่ตรวจสอบโดย Originality.ai ระบุว่าเนื้อหามีความเป็นต้นฉบับ 89%
7. เทคนิคการเย็บผ้า AI
หลักการ: การเขียนใหม่โดย GPT-4 + การแก้ไขไวยากรณ์โดย Grammarly + การสร้างภาพ เพื่อผลิต “บทความเย็บผ้าที่ดูเหมือนมืออาชีพ” ภายใน 1 ชั่วโมง
โครงสร้างที่พบบ่อย: 30% สรุปเนื้อหาต้นฉบับ + 40% คำศัพท์จาก Wikipedia + 30% ลิงก์ผลิตภัณฑ์จาก Amazon
ทำไมกลยุทธ์เหล่านี้จึงสามารถบดขยี้เนื้อหาต้นฉบับได้?
เนื่องจากการใช้ 7 วิธีเหล่านี้ร่วมกันจะสร้าง “การดึงข้อมูล → การรีไรท์ → การเพิ่มน้ำหนัก → การทำเงิน” เป็นสายการผลิตในรูปแบบอุตสาหกรรม
5 สาเหตุหลักที่ทำให้การตัดสินใจของอัลกอริธึมผิดพลาด
สาเหตุที่ 1: “สงครามข้อมูลเปลือย” ของเว็บไซต์ขนาดกลางและเล็ก
ความขัดแย้งหลัก: Google ต้องการให้ติดตั้งข้อมูลที่มีโครงสร้าง (Schema Markup, กราฟความรู้) แต่แพลตฟอร์ม CMS (เช่น WordPress) มีความเข้ากันได้ของปลั๊กอินที่ต่ำ ทำให้บล็อกเกอร์อิสระไม่สามารถส่งข้อมูลที่สำคัญได้อย่างถูกต้อง
ข้อมูลยืนยัน:
- ผู้สร้างเนื้อหาต้นฉบับ: เพียง 12% ของบล็อกส่วนตัวที่ใช้โครงสร้าง
Article
หรือHowTo
ได้ถูกต้อง (Search Engine Journal วิจัย) - ฟาร์มเนื้อหา: 100% ใช้โครงสร้าง
NewsArticle
และSpeakable
อย่างผิดๆ เพื่อปลอมแปลงความน่าเชื่อถือ (ผลการสแกนจาก SEMrush)
ผลลัพธ์:อัลกอริธึมไม่สามารถตรวจจับประเภทของเนื้อหาของผู้สร้างต้นฉบับและเข้าใจผิดว่าเป็น “ข้อมูลที่มีความหนาแน่นต่ำ”
สาเหตุที่ 2: การบังคับความถี่ในการอัปเดต
การ偏好ของอัลกอริธึม: Google ให้การเพิ่มน้ำหนักในการจัดอันดับ 2.3 เท่าสำหรับเว็บไซต์ที่อัปเดตเนื้อหาทุกวัน (“เนื้อหาที่สดใหม่” ที่มีการอัปเดตบ่อย)
การเปรียบเทียบจริง:
- ผู้สร้างเนื้อหาต้นฉบับ: การเขียนบทความวิเคราะห์เทคนิคต้องใช้เวลา 2-3 สัปดาห์ (รวมการตรวจสอบโค้ดและสร้างกราฟ)
- ฟาร์มเนื้อหา: ใช้ Jasper.ai + Canva เพื่อผลิตบทความ “เรียนรู้ XX ใน 10 นาที” 20 บทความใน 1 วัน
กรณีศึกษา: งานวิจัยจาก Lynn เกี่ยวกับ “หลักการทางคณิตศาสตร์ของโมเดลการแพร่กระจาย” ถูกลงโทษจากการอัปเดตทุกเดือน ขณะที่ฟาร์มเนื้อหา “AIGuide” อัปเดตบทความ 50 บทความทุกวันและการเข้าถึงได้สูงถึง 4 เท่า
ตัวกระตุ้นที่ 3: การละเมิดกลไกการลงคะแนนของลิงก์ภายนอก
ข้อบกพร่องของกลไก: Google มองว่าลิงก์ภายนอกเป็น “สิทธิ์ในการลงคะแนน” แต่ไม่สามารถแยกแยะระหว่างคำแนะนำตามธรรมชาติและลิงก์ภายนอกจากการทำ SEO แบบไม่ถูกต้องได้
ความจริงของข้อมูล:
- ลิงก์ภายนอกตามธรรมชาติ: เนื้อหาต้นฉบับต้องใช้เวลาเฉลี่ย 6.7 เดือนในการสะสมลิงก์ภายนอกคุณภาพสูง 30 ลิงก์ (ข้อมูลจาก Ahrefs)
- ลิงก์ภายนอกที่โกง: เว็บไซต์เก็บข้อมูลใช้ PBN (เครือข่ายบล็อกส่วนตัว) ป้อนลิงก์ภายนอกกว่า 500 ลิงก์ในหนึ่งวัน ซึ่ง 87% มาจากเว็บไซต์รัฐบาล/การศึกษาที่ปิดไปแล้ว (ข้อมูลจาก Spamzilla)
ความเป็นจริงที่ขบขัน: เว็บไซต์ทางการของห้องทดลองมหาวิทยาลัยแห่งหนึ่งถูกแฮกเกอร์ซื้อกิจการและกลายเป็น “คลังการลงคะแนนที่มีอำนาจ” ของเว็บไซต์เก็บข้อมูล 50 เว็บไซต์
ตัวกระตุ้นที่ 4: ข้อผิดพลาดในการรับรองอำนาจ
อคติของอัลกอริธึม: Google ให้ความสำคัญกับผู้เขียนที่มีอีเมลจากองค์กร (.edu/.gov) โดยอัตโนมัติ ในขณะที่ผู้สร้างเนื้อหาส่วนตัวจะถูกมองว่าเป็น “แหล่งข้อมูลที่เชื่อถือได้น้อย”
การทดสอบการทดลอง:
การตีความบทความ AI เดียวกัน:
- เผยแพร่บนบล็อกส่วนตัว (ผู้เขียน: นักศึกษาปริญญาเอกจากสแตนฟอร์ด): ติดอันดับหน้าที่ 2
- เผยแพร่บนเว็บไซต์เก็บข้อมูล (ผู้เขียนปลอม “นักวิจัยจาก MIT AI Lab”): ติดอันดับที่ 3
ผลลัพธ์: เนื้อหาของนักพัฒนาที่ไม่เปิดเผยตัวและนักวิจัยอิสระจะถูกประเมินค่าต่ำกว่าความเป็นจริง
ตัวกระตุ้นที่ 5: “การคิดลึก” กลายเป็นศัตรูกับอัลกอริธึม
กลไกที่ขัดกับสามัญสำนึก:
- Google มองว่า “อัตราการออกจากหน้าเว็บสูง” และ “ระยะเวลาเข้าชมสั้น” เป็นสัญญาณลบ
- แต่บทความเทคนิคที่ลึกซึ้งต้องใช้เวลาอ่านมากกว่า 15 นาที ซึ่งทำให้มีการปิดหน้าต่างกลางทางมากขึ้น
เปรียบเทียบข้อมูล:
- เว็บไซต์เก็บข้อมูล: เวลาเฉลี่ยที่ผู้ใช้อยู่ในหน้า 1 นาที 23 วินาที (ผู้ใช้สแกนคำสำคัญอย่างรวดเร็วแล้วออกจากเว็บไซต์) → ถูกตัดสินว่า “ตอบสนองความต้องการได้อย่างมีประสิทธิภาพ”
- เว็บไซต์ต้นฉบับ: เวลาเฉลี่ยที่ผู้ใช้อยู่ในหน้า 8 นาที 17 วินาที (ผู้ใช้อ่านอย่างละเอียดและจดบันทึก) → อัลกอริธึมตัดสินว่า “เนื้อหาดึงดูดไม่เพียงพอ”
กรณีศึกษา: คำถามเชิงเทคนิคจาก Stack Overflow ที่มี “อัตราการออกจากหน้าเว็บสูง” มักจะถูกบดบังโดย “บทความแบบรายการ” ของฟาร์มเนื้อหา
การตอบโต้ของ Google และข้อจำกัด
ในปี 2023, Google อ้างว่าได้ลบหน้าสแปมไป 2.5 พันล้านหน้า แต่การติดตามของ SEMrush แสดงให้เห็นว่า การจราจรโดยรวมจากฟาร์มเนื้อหากลับเพิ่มขึ้น 18% ซึ่งแสดงให้เห็นถึงความล้มเหลวของ Google
การอัปเกรดระบบป้องกันสแปม SpamBrain
หลักการทางเทคนิค:
- ใช้กราฟเน็ตเวิร์กประสาท (GNN) ในการระบุความสัมพันธ์ของกลุ่มเว็บไซต์ และในเวอร์ชัน 2023 เพิ่มโมดูล “การตรวจจับรูปแบบการจราจรผิดปกติ”
- อ้างว่าสามารถระบุเนื้อหาสแปมที่สร้างโดย AI ได้ 90% (บล็อกอย่างเป็นทางการของ Google)
ผลลัพธ์จริง:
การหลบหลีก: ทีมงานด้าน SEO ที่ผิดกฎหมายใช้กฎการตรวจจับของ SpamBrain เพื่อฝึก GPT-4 ให้สร้าง “สแปมที่ถูกกฎหมาย” ที่สามารถหลบหลีกการตรวจจับได้
กรณีศึกษา: เว็บไซต์เก็บข้อมูลแห่งหนึ่งใช้ “เครื่องมือสร้างตัวอย่างศัตรู” เพื่อสร้างเนื้อหาทำให้ SpamBrain ผิดพลาดถึง 74% (การทดสอบจาก SERPstat)
ต้นทุนจากการตัดสินใจผิด: ในการอัปเดตอัลกอริธึมเดือนสิงหาคม 2023, 12% ของบล็อกวิชาการถูกตัดสินว่าเป็นเว็บไซต์สแปม (มีการร้องเรียนเพิ่มขึ้นในฟอรัม WebmasterWorld)
ผู้ประเมินคุณภาพด้วยมือ (QRaters)
กลไกการทำงาน:
- พนักงานสัญญาจ้างมากกว่า 10,000 คนทั่วโลกตรวจสอบเนื้อหาที่น่าสงสัยตาม “คู่มือการประเมินคุณภาพ”
- เกณฑ์การประเมิน: ความสอดคล้องกับ EEAT, ความถูกต้องของข้อเท็จจริง, ประสบการณ์ผู้ใช้
ข้อจำกัด:
- ช่องว่างทางวัฒนธรรม: QRaters ส่วนใหญ่เป็นคนที่อาศัยอยู่ในประเทศที่ใช้ภาษาอังกฤษ ทำให้ไม่สามารถประเมินเนื้อหาที่ไม่ใช่ภาษาลาตินได้อย่างมีประสิทธิภาพ (เช่น อัตราการมองข้าม SEO แบล็กแฮทของจีนสูงถึง 60%)
- ข้อจำกัดทางประสิทธิภาพ: ผู้ประเมินแต่ละคนตรวจสอบได้เฉลี่ย 200 รายการต่อวัน ทำให้สามารถตรวจสอบเนื้อหาที่เพิ่มเข้ามาใหม่ได้เพียง 0.003% (ข้อมูลจากเอกสารภายในของ Google)
- การพึ่งพารูปแบบ: ฟาร์มเนื้อหาสามารถได้คะแนน 82 จาก 100 (เต็มคะแนน) ในการประเมินของ QRater โดยการใส่โมดูล “คำชี้แจงการปฏิเสธความรับผิด” หรือ “ข้อมูลเกี่ยวกับผู้เขียน”
เครื่องมือทางกฎหมายและการร้องเรียน DMCA
สถานการณ์การบังคับใช้:
- Google รับปากที่จะ “ดำเนินการร้องเรียน DMCA ภายใน 6 ชั่วโมง” แต่ในปี 2023 เวลาตอบกลับเฉลี่ยยืดไปถึง 9.3 วัน (ข้อมูลจาก Copysentry)
- ฟาร์มเนื้อหามีการใช้ “ช่องโหว่ทางกฎหมาย”: การแทนที่ข้อความเพียง 10% ก็สามารถหลีกเลี่ยงการเรียกร้องลิขสิทธิ์ได้
อารมณ์ขันดำ:
เว็บไซต์เก็บข้อมูลแห่งหนึ่งได้เขียนใหม่บทความจาก The New York Times และส่งการร้องเรียน DMCA กลับไปโดยกล่าวหาว่าบทความต้นฉบับเป็นการลอกเลียนแบบ ส่งผลให้หน้าเว็บของ The New York Times ถูกลดระดับชั่วคราว (บันทึกการเปลี่ยนแปลงการจราจรจาก SimilarWeb)
การบล็อกตามภูมิภาค
กลยุทธ์ภูมิภาค:
- ในยุโรปและอเมริกา จะบังคับให้ตรวจสอบที่ตั้งของเซิร์ฟเวอร์เว็บไซต์และบล็อกการเข้าถึงจาก VPN
- ทำงานร่วมกับบริการ CDN อย่าง Cloudflare เพื่อบล็อกการเข้าชมที่น่าสงสัย
การฝ่าวงล้อมในโลกแห่งความจริง:
- ทีมงานด้าน SEO ที่ผิดกฎหมายเช่าใช้ทรัพยากรคอมพิวเตอร์จากรัฐบาลในกัมพูชาและซิมบับเว (.gov.kh อ้างว่าได้รับการยกเว้นการตรวจสอบ)
- ใช้การเชื่อมต่อดาวเทียม (เช่น Starlink) เปลี่ยนแปลง IP แบบไดนามิก ทำให้รายการ IP ที่ถูกบล็อกตามไม่ทันความเร็วในการสร้าง IP ใหม่
ขอขอบคุณที่อ่านมาถึงตอนนี้ จำไว้ว่าหลักการสำคัญคือ ถ้าคุณสามารถให้คุณค่าแก่ผู้ใช้ได้อย่างต่อเนื่อง เครื่องมือค้นหาจะไม่ทิ้งคุณไป ที่นี่หมายถึง “เครื่องมือค้นหา” ไม่ใช่แค่ Google เท่านั้น
ครั้งนี้, คุณเห็นภาพทั้งหมดหรือยัง?