微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:[email protected]

ทำไมหน้าที่ถูกลบแล้วยังปรากฏในผลการค้นหา Google

本文作者:Don jiang

การอัปเดตดัชนีของ Google โดยปกติจะใช้เวลา 3-10 วัน

แม้จะลบหน้าเว็บไปแล้วแต่แคชอาจยังคงอยู่ ขอแนะนำให้ส่งคำขอ “นำ URL ออก” ผ่าน Google Search Console ซึ่งจะเห็นผลเร็วที่สุดภายใน 24 ชั่วโมง นี่คือวิธีที่เป็นมืออาชีพและมีประสิทธิภาพที่สุดในการล้างผลลัพธ์ที่ตกค้าง

บอททิ้งช่วงการกลับมาเยือน (Crawling Lag)

Googlebot กำหนดความถี่ในการกลับมาเยือนตามดัชนี PageRank และงบประมาณการรวบรวมข้อมูล (Crawl Budget)

สำหรับหน้าเว็บส่วนใหญ่ที่ไม่ได้อยู่หน้าแรก รอบการกลับมาเยือนเฉลี่ยของ Googlebot จะอยู่ที่ 3 ถึง 30 วัน

รายงานสถิติการรวบรวมข้อมูลของ Google Search Console (GSC) แสดงให้เห็นว่า หลังจากเซิร์ฟเวอร์ตอบกลับด้วยรหัสสถานะ 404 ดัชนีจะไม่ถูกลบทันที

ระบบต้องการการรวบรวมข้อมูลซ้ำ 1 ถึง 3 ครั้งเพื่อยืนยันว่าหน้าเว็บไม่สามารถเข้าถึงได้เนื่องจากข้อผิดพลาดชั่วคราวของเซิร์ฟเวอร์

ในเว็บไซต์ขนาดใหญ่ อัตราความล่าช้าในการซิงโครไนซ์ระหว่างคลังดัชนีและเซิร์ฟเวอร์แบบเรียลไทม์มักจะอยู่ระหว่าง 15% ถึง 20% ส่งผลให้หน้าเว็บที่ลบไปแล้วยังคงค้างอยู่ในผลลัพธ์

การตรวจสอบ 404

เมื่อ Googlebot เข้าถึง URL เฉพาะและได้รับรหัสตอบกลับ 404 Not Found ตรรกะการจัดตารางเวลาภายในระบบการค้นหาจะไม่ลบรายการนั้นออกจากคลังดัชนีในทันที

ตามบันทึกพื้นฐานของกลไกการรวบรวมข้อมูลของเครื่องมือค้นหา การตรวจพบสัญญาณ 404 ครั้งแรกมักจะถูกมองว่าเป็น “การสั่นไหวของเซิร์ฟเวอร์ที่อาจเกิดขึ้น” หรือ “การเชื่อมต่อเครือข่ายขัดข้องชั่วคราว”

เพื่อรับประกันความเสถียรของผลการค้นหา ระบบจัดตารางเวลาของ Google จะทำเครื่องหมาย URL นั้นว่า “สถานะลองใหม่” และผลักเข้าสู่คิวการสังเกตการณ์เฉพาะ

สำหรับเว็บไซต์ขนาดกลางที่มีการเข้าถึงเฉลี่ยประมาณ 10,000 ครั้งต่อวัน โดยปกติ Googlebot จะทำการตรวจสอบซ้ำครั้งที่สองภายใน 24 ถึง 48 ชั่วโมง หลังจากตรวจพบ 404 ครั้งแรก

หากการรวบรวมข้อมูลครั้งที่สองยังคงส่งคืนรหัสสถานะ 404 ระบบจะลดลำดับความสำคัญในการรวบรวมข้อมูล (Crawl Priority) ของหน้านั้นให้ต่ำที่สุด แต่บันทึกดัชนียังคงอยู่

ภายใน Google มีตัวนับตรรกะที่เรียกว่า “เกณฑ์การยืนยัน” ซึ่งโดยปกติจะต้องมีการยืนยัน 404 ติดต่อกัน 3 ถึง 5 ครั้ง และช่วงเวลาครอบคลุมอย่างน้อย 7 ถึง 14 วัน ระบบจึงจะส่งคำสั่งลบอย่างเป็นทางการไปยังส่วนย่อยของดัชนี (Index Shards)

หากผู้ดูแลเว็บใช้รหัสสถานะ 410 Gone ความเร็วในการเข้าสู่กระบวนการลบจะเร็วกว่าหน้า 404 ประมาณ 25% ถึง 40%

หลังจากได้รับสัญญาณ 410 Googlebot มักจะข้ามรอบการตรวจสอบบางส่วนและนำออกจากคิวการรวบรวมข้อมูลหลัก

อย่างไรก็ตาม เพื่อป้องกันการแก้ไขโดยเจตนาร้ายหรือความผิดพลาด ระบบจะยังคงรักษาช่วงเวลาคูลดาวน์ 24 ชั่วโมง เพื่อให้แน่ใจว่ารหัสสถานะมีความเสถียร

อีกปัจจัยหนึ่งที่ทำให้เกิดการตกค้างในระยะยาวคือความล่าช้าในการตัดสิน Soft 404 (ซอฟต์ 404)

หากเซิร์ฟเวอร์กำหนดค่าผิดพลาด โดยยังคงส่งคืนรหัสสถานะ 200 OK เมื่อไม่มีหน้าเว็บอยู่ แต่เนื้อหาหน้าเว็บแสดงข้อความแจ้งเตือนว่า “ไม่พบหน้าเว็บ” บริการแสดงผลหน้าเว็บของ Google (WRS) จะต้องเข้ามาดำเนินการ

WRS จำเป็นต้องใช้ทรัพยากรการคำนวณจำนวนมากเพื่อแยกวิเคราะห์โครงสร้าง DOM และใช้โมเดลแมชชีนเลิร์นนิงเพื่อตัดสินลักษณะทางความหมายของหน้าเว็บ

เมื่อตัดสินว่าเป็น Soft 404 หน้านั้นจะถูกย้ายออกจากเส้นทางดัชนีปกติ แต่กระบวนการนี้ช้ากว่าการตรวจสอบ 404 มาตรฐานประมาณ 5 ถึง 10 วันทำการ

ในสถาปัตยกรรมการจัดเก็บข้อมูลแบบกระจาย ความเร็วในการซิงโครไนซ์ของศูนย์ข้อมูลแต่ละแห่งทั่วโลกก็ไม่เท่ากัน

แม้ว่าคลังดัชนีหลักที่สำนักงานใหญ่ในสหรัฐฯ จะยืนยันการลบบันทึกบางอย่างแล้ว แต่เนื่องจากนโยบายการรีเฟรชแคชของ Edge Nodes (โหนดขอบ) ทั่วโลกแตกต่างกัน ผู้ใช้ในลอนดอนหรือแฟรงก์เฟิร์ตอาจยังคงค้นหาเนื้อหาที่ลบไปแล้วได้ภายใน 6 ถึง 12 ชั่วโมง

เมื่อ งบประมาณการรวบรวมข้อมูล (Crawl Budget) ของไซต์หมดลง Googlebot อาจถึงขั้นระงับการตรวจสอบลิงก์ 404 ที่ทราบแล้ว และเปลี่ยนไปรวบรวมเนื้อหาใหม่ที่มีน้ำหนักสูงกว่าแทน

การจัดสรรลำดับความสำคัญแบบนี้ส่งผลให้หน้าเว็บเก่าที่อยู่ในไดเรกทอรีลึกและมีความลึกของลิงก์เกิน 5 ชั้น อาจยังคงค้างอยู่ในผลการค้นหาเป็นเวลาหลายเดือนแม้ว่าจะส่งคืน 404 มานานแล้วก็ตาม

“Googlebot ไม่ใช่เครื่องตรวจสอบแบบเรียลไทม์ มันเป็นระบบจัดตารางเวลาตามความน่าจะเป็นและน้ำหนัก การยืนยันสัญญาณ 404 แต่ละครั้งต้องใช้แบนด์วิดท์และต้นทุนการคำนวณที่แท้จริง”

ในการย้ายไซต์ขนาดใหญ่หรือการลบเส้นทางขนานใหญ่ หากเกิดสัดส่วนข้อผิดพลาด 404 เกิน 20% ในช่วงเวลาสั้นๆ ระบบอาจเปิดใช้งานกลไกการป้องกัน

ในกรณีนี้ กระบวนการตรวจสอบ 404 ตามปกติจะถูกยืดออกไป และอัลกอริทึมจะต้องการ “เวลาพิสูจน์” มากขึ้นเพื่อยืนยันว่าการลบเหล่านี้เป็นความตั้งใจจริงของผู้จัดการเว็บไซต์

พารามิเตอร์ที่มีผลกระทบ

เมื่อ Googlebot ปฏิบัติงานรวบรวมข้อมูลบนอินเทอร์เน็ต ความเร็วในการกลับไปเยือน URL เก่าหรือการตรวจพบรหัสสถานะใหม่ไม่ได้เกิดขึ้นแบบสุ่ม พารามิเตอร์พื้นฐานที่สุดคือ ความหน่วงของเซิร์ฟเวอร์ (Server Latency) ซึ่งแสดงออกในรูปแบบของเวลาถึงไบต์แรก (TTFB)

หาก TTFB ของเซิร์ฟเวอร์รักษาไว้ที่ต่ำกว่า 200 มิลลิวินาที เป็นเวลานาน Googlebot จะถือว่าเซิร์ฟเวอร์นั้นมีความสามารถในการรองรับเพียงพอ จึงปรับเพดานการรวบรวมข้อมูลให้สูงขึ้น

ในทางกลับกัน เมื่อเวลาตอบสนองเกิน 1,000 มิลลิวินาที เพื่อป้องกันไม่ให้เซิร์ฟเวอร์เป้าหมายล่มเนื่องจากการเข้าถึงความถี่สูง บอทจะเปิดใช้งานกลไกจำกัดอัตราการรวบรวมข้อมูล (Crawl Rate Limit) โดยอัตโนมัติ

ในระดับโครงสร้างเว็บไซต์ ความลึกของลิงก์ (Link Depth) คือตาชั่งทางกายภาพที่ปรับความถี่ในการรวบรวมข้อมูล

URL ที่อยู่ภายใต้ไดเรกทอรีรากหรือห่างจากหน้าแรกเพียง 1 ถึง 2 คลิก จะได้รับน้ำหนัก PageRank สูงสุด บันทึกการเข้าถึงของ Googlebot แสดงให้เห็นว่าความถี่ในการตรวจจับการอัปเดตของหน้าประเภทนี้มักจะเป็น 24 ชั่วโมง ต่อครั้ง

อย่างไรก็ตาม เมื่อหน้าเว็บอยู่ในชั้นที่ 5 หรือลึกกว่าในโครงสร้างไดเรกทอรี แม้เนื้อหาจะเปลี่ยนเป็นสถานะ 404 แล้ว รอบการกลับมาเยือนของบอทจะยืดออกไปแบบทวีคูณ บางครั้งอาจต้องใช้เวลา 30 ถึง 60 วัน จึงจะมีการตรวจสอบตามปกติหนึ่งครั้ง

  • ความต้องการการรวบรวมข้อมูล (Crawl Demand): ขึ้นอยู่กับความนิยมของหน้าเว็บ หาก URL ที่ถูกลบไปแล้วยังมีลิงก์ย้อนกลับ (Backlinks) จำนวนมากจากภายนอก หรือถูกกล่าวถึงบ่อยครั้งบนแพลตฟอร์มโซเชียลมีเดีย อัลกอริทึมของ Google จะถือว่าทรัพยากรนั้นยังคงมีความเคลื่อนไหว แม้จะส่งคืน 404 แต่อัลกอริทึมจะจัดตารางเวลาให้บอทกลับมาเยือนบ่อยครั้งเพื่อยืนยันสถานะ การประเมินซ้ำที่มีความถี่สูงนี้จะทำให้ระบบทำการวนซ้ำการตรวจสอบมากขึ้นก่อนที่จะยืนยันว่า “หายไปอย่างถาวร”
  • สุขภาพของไซต์ (Site Health): หากเซิร์ฟเวอร์เกิดข้อผิดพลาดในซีรีส์ 5xx บ่อยครั้ง (เช่น 503 Service Unavailable) Googlebot จะลดงบประมาณการรวบรวมข้อมูล (Crawl Budget) โดยรวมของไซต์นั้นอย่างรวดเร็ว เมื่ออัตราข้อผิดพลาดเกิน 10% ของยอดการรวบรวมข้อมูลทั้งหมด บอทจะเข้าสู่โหมดป้องกันและหยุดตรวจหา URL ที่ไม่จำเป็น ในกรณีนี้ หน้า 404 ที่ควรจะถูกล้างจะค้างอยู่ในคลังดัชนีเป็นเวลานานเนื่องจากงบประมาณการรวบรวมข้อมูลถูกระงับ
  • ความถี่ในการอัปเดตเนื้อหา (Change Frequency): เครื่องมือค้นหาจะบันทึกประวัติการเปลี่ยนแปลงของ URL ในช่วงหลายเดือนที่ผ่านมา หากหน้าเว็บไม่เคยมีการอัปเดตเลยในช่วง 365 วัน ที่ผ่านมา Googlebot จะทำเครื่องหมายว่าเป็น “ข้อมูลเย็น” และน้ำหนักการกลับมาเยือนจะถูกปรับให้ต่ำที่สุด เมื่อคุณลบหน้าเว็บที่ไม่เคลื่อนไหวเป็นเวลานานอย่างกะทันหัน บอทอาจจะไม่ผ่านเส้นทางนั้นโดยสมัครใจในไตรมาสหน้า ส่งผลให้เกิดความล่าช้าในการลบที่มองเห็นได้

Sitemap เป็นไฟล์แนะนำไม่ใช่คำสั่งบังคับ แต่ความถูกต้องของแท็ก <lastmod> ในนั้นมีผลต่อประสิทธิภาพการรวบรวมข้อมูลของบอท

หากแผนผังไซต์ยังคงลิงก์ที่ส่งคืน 404 ไว้ หรือการประทับเวลา lastmod ไม่ได้รับการอัปเดตตามการลบหน้าเว็บ Googlebot อาจถือว่าไฟล์นั้นไม่น่าเชื่อถือ และเปลี่ยนไปใช้โหมดการตรวจหาด้วยตนเองที่ไม่มีประสิทธิภาพแทน

ในการทดลองกับไซต์ข่าวขนาดใหญ่ในอเมริกาเหนือ การส่ง Sitemap ที่มีวันที่ lastmod ล่าสุดไปยัง Google ควบคู่ไปกับการใช้โปรโตคอล WebSub (เดิมคือ PubSubHubbub) เพื่อพุชข้อมูลเชิงรุก สามารถลดเวลาที่บอทจะรับรู้ถึงการเปลี่ยนแปลงหน้าเว็บได้มากกว่า 70%

เว็บไซต์ที่ใช้โปรโตคอล HTTP/2 หรือ HTTP/3 (QUIC) รองรับการทำ Multiplexing ซึ่ง Googlebot สามารถส่งคำขอสถานะของ URL หลายสิบรายการพร้อมกันในหน้าต่างการเชื่อมต่อ TCP เดียวกัน

ในทางตรงกันข้าม โปรโตคอล HTTP/1.1 แบบดั้งเดิมถูกจำกัดด้วยจำนวนการเชื่อมต่อ บอทต้องเข้าคิวรอเมื่อต้องจัดการกับสัญญาณ 404 นับพันรายการ

“ในระบบรวบรวมข้อมูลแบบกระจาย ทุกการกระทำในการรวบรวม URL จะผ่านการคำนวณต้นทุน URL 404 ที่มีน้ำหนักต่ำมักจะอยู่ท้ายสุดของคิวการรวบรวมข้อมูล เว้นแต่จะมีสัญญาณภายนอกมาเพิ่มลำดับความสำคัญของมัน”

เนื่องจาก Google ได้เปลี่ยนไปใช้การทำดัชนีแบบเน้นมือถือเป็นหลัก (Mobile-First Indexing) กิจกรรมของบอทฝั่งมือถือจึงมักสูงกว่าฝั่งเดสก์ท็อป 2 ถึง 3 เท่า

หากหน้าเว็บเวอร์ชันมือถือถูกลบไปแล้วแต่เวอร์ชันเดสก์ท็อปยังคงส่งคืน 200 เนื่องจากข้อผิดพลาดในการกำหนดค่า หรือในทางกลับกัน ความไม่สอดคล้องกันนี้จะทำให้เกิดความขัดแย้งทางตรรกะในระบบดัชนี ส่งผลให้ผลการค้นหาบนอุปกรณ์ที่ต่างกันแสดงข้อมูลที่ล้าสมัยต่างกัน

แคชหน้าเว็บ (Cache)

แคชหน้าเว็บคือภาพสแนปช็อตที่ Googlebot จัดเก็บรหัส HTML และทรัพยากรคงที่บางส่วนของหน้าเว็บไว้ในเซิร์ฟเวอร์แบบกระจายทั่วโลกของ Google (เช่น Google Data Centers) ในระหว่างกระบวนการรวบรวมข้อมูล

แม้ว่าเซิร์ฟเวอร์ต้นทางจะลบหน้าเว็บออกไปทางกายภาพแล้ว ฐานข้อมูลดัชนีของ Google จะยังคงเก็บสแนปช็อตนั้นไว้จนกว่ารอบการรวบรวมข้อมูลครั้งต่อไปจะรีเฟรช

โดยปกติ ไซต์ที่มีน้ำหนักสูงจะมีความถี่ในการรวบรวมข้อมูลเป็นรายชั่วโมง ในขณะที่ไซต์ทั่วไปอาจต้องใช้เวลา 3 ถึง 28 วัน

เนื่องจาก Google ใช้โหนดการคำนวณขอบเพื่อซิงโครไนซ์ข้อมูล การอัปเดตดัชนีหลักและการซิงโครไนซ์ผลการค้นหาในภูมิภาคต่างๆ ทั่วโลกมักจะมีความล่าช้า 24 ถึง 72 ชั่วโมง

เหตุผลที่แสดงผล

Google ดูแลฐานข้อมูลแบบกระจายขนาดใหญ่ที่มีหน้าเว็บหลายแสนล้านหน้า ซึ่งคลังนี้เรียกว่า ดัชนี (Index)

เมื่อคุณลบหน้าเว็บผ่านระบบจัดการเนื้อหา (เช่น WordPress หรือ Ghost) คุณเพียงแค่ย้ายข้อมูลออกจากเว็บเซิร์ฟเวอร์ของคุณเองเท่านั้น

ในตอนนี้ กลุ่มเซิร์ฟเวอร์ของ Google ยังคงเก็บบันทึกสแนปช็อตล่าสุดของ URL นั้นไว้

  • การจัดลำดับชั้นของรอบการรวบรวมข้อมูล Googlebot: Google จะจัดสรรโควตาการรวบรวมข้อมูล (Crawl Budget) ที่แตกต่างกันตามความน่าเชื่อถือของเว็บไซต์ (Domain Authority) และความถี่ในการอัปเดต
    • ไซต์ข่าวที่มีทราฟฟิกสูงระดับ 1% แรก (เช่น The New York Times หรือ Reuters) ความถี่ในการรวบรวมข้อมูลซ้ำของหน้ายอดนิยมจะนับเป็นนาทีหรือชั่วโมง
    • รอบการรวบรวมข้อมูลของเว็บไซต์ธุรกิจทั่วไปหรือบล็อกส่วนตัวมักจะอยู่ระหว่าง 7 วันถึง 28 วัน และช่วงเวลาการรวบรวมข้อมูลซ้ำของเส้นทางที่ไม่ยอดนิยมอาจยาวนานหลายเดือน
    • หากหน้าเว็บถูกลบในวันที่ 1 มกราคม และ Googlebot วางแผนที่จะเข้าชมเส้นทางนั้นอีกครั้งในวันที่ 25 มกราคม ในช่วงส่วนต่างเวลา 24 วันนี้ ผลการค้นหาจะแสดงเนื้อหาที่หมดอายุอยู่เสมอ

ระบบดัชนี “Caffeine” ภายในของ Google ใช้กลไกการอัปเดตแบบเรียลไทม์ แต่มุ่งเน้นไปที่การค้นพบเนื้อหาใหม่เป็นหลัก

เมื่อ Googlebot เข้าถึง URL ที่ถูกลบไปแล้ว รหัสสถานะ HTTP ที่เซิร์ฟเวอร์ตอบกลับจะเป็นตัวกำหนดความเร็วในการนำออกจากดัชนี

หากเซิร์ฟเวอร์ตอบกลับเป็น 404 (Not Found) โดยปกติ Googlebot จะไม่ลบหน้านั้นออกจากดัชนีทันที เนื่องจากอัลกอริทึมจะพิจารณาถึงความเป็นไปได้ของข้อผิดพลาดชั่วคราวของเซิร์ฟเวอร์หรือการกำหนดค่าที่ผิดพลาด

ระบบจะบันทึกความล้มเหลวครั้งนี้ และกำหนดการลองใหม่อีกครั้งภายใน 48 ถึง 72 ชั่วโมง

เฉพาะเมื่อการรวบรวมข้อมูลติดต่อกันหลายครั้งส่งคืนสถานะ 404 หรือสถานะนั้นคงอยู่เกินเกณฑ์การสังเกตเฉพาะ (โดยปกติคือหลายสัปดาห์) ระบบจึงจะเริ่มกระบวนการนำออกจากดัชนี

  • การวัดผลกระทบของรหัสสถานะ HTTP ต่อความเร็วในการนำออก:

    | ประเภทของรหัสสถานะ | การดำเนินการถัดไปของ Googlebot | ระยะเวลาประมาณการคงอยู่ในดัชนี |

    |—|—|—|

    | 404 (Not Found) | ทำเครื่องหมายเป็น “อาจขาดหายไป” และพยายามรวบรวมซ้ำภายใน 3-5 วัน | 14 ถึง 45 วัน |

    | 410 (Gone) | รับรู้ว่าเป็น “การนำออกอย่างถาวร” และลดลำดับความสำคัญในคิวการรวบรวม | เริ่มนำออกภายใน 3 ถึง 7 วัน |

    | 301 (Redirect) | ย้ายน้ำหนักของ URL เก่าไปยังเส้นทางใหม่ คงดัชนีไว้แต่อัปเดตการชี้ | คงอยู่ถาวร (ชี้ไปยังหน้าใหม่) |

    | Soft 404 | หน้าแสดงผลว่าลบแล้วแต่ส่งคืนรหัส 200 ระบบจะถือว่าเป็นหน้าคุณภาพต่ำ | นำออกโดยอัตโนมัติได้ยากมาก อาจค้างอยู่หลายเดือน |

Google ดำเนินการศูนย์ข้อมูลขนาดใหญ่กว่า 20 แห่งและโหนดแคชขอบ (Edge Nodes) นับพันแห่งทั่วโลก

เมื่อเซิร์ฟเวอร์ดัชนีหลักในรัฐออริกอน สหรัฐอเมริกา อัปเดตสถานะการลบของหน้าเว็บ ข้อมูลนี้จำเป็นต้องได้รับการแจกจ่ายผ่านเครือข่ายแกนหลักทั่วโลกของ Google ไปยังคลังดัชนีระดับภูมิภาคต่างๆ เช่น ไอร์แลนด์ ฟินแลนด์ สิงคโปร์ เป็นต้น

กระบวนการบรรลุความสอดคล้องของข้อมูล (Eventual Consistency) นี้มักจะมีความล่าช้าในการแพร่กระจาย 24 ถึง 72 ชั่วโมง

คำขอค้นหาที่ส่งมาจากลอนดอนอาจไปแตะที่เซิร์ฟเวอร์ขอบที่ยังไม่ได้รับการซิงโครไนซ์อัปเดต จึงยังเห็นลิงก์แคชที่มีอยู่

  • ปัจจัยรบกวนจากลิงก์ภายนอกและแผนผังไซต์:
    • ลิงก์ภายในที่ยังเหลืออยู่: หากหน้าอื่นๆ ภายในเว็บไซต์หรือไซต์อื่นๆ ยังคงมีไฮเปอร์ลิงก์ที่ชี้ไปยัง URL ที่ลบไปแล้ว Googlebot จะพยายามเข้าถึงผ่านทางเข้าเหล่านี้อย่างต่อเนื่อง ส่งผลให้เส้นทางนั้นยังดูเหมือนมีตัวตนอยู่ในแผนการรวบรวมข้อมูล
    • ความล่าช้าของแผนผังไซต์ XML (Sitemap): เว็บไซต์จำนวนมากไม่ได้ซิงโครไนซ์การอัปเดตไฟล์แผนผังไซต์หลังจากลบหน้าเว็บ หาก sitemap.xml ยังคงมี URL ที่ลบไปแล้ว Google จะใช้สิ่งนี้เป็นเกณฑ์ในการตรวจสอบหน้าเว็บเป็นระยะ ทำให้คลังดัชนีรีเฟรชบันทึกของเส้นทางนั้นอย่างต่อเนื่องแม้ว่าจะส่งรหัสข้อผิดพลาดมาแล้วก็ตาม
    • สัญญาณโซเชียลและทราฟฟิกตกค้าง: หาก URL ที่ถูกลบไปแล้วยังคงได้รับทราฟฟิกคลิกจากแพลตฟอร์มภายนอก เช่น Reddit หรือ X (เดิมชื่อ Twitter) กลไกการตรวจสอบของ Google จะถือว่า URL นั้นยังมีคุณค่าในการคงอยู่ จึงให้ระยะเวลาสังเกตการณ์ที่นานขึ้นในตรรกะการล้างข้อมูลอัตโนมัติ

ดัชนีของ Google แบ่งออกเป็น ดัชนีหลัก (Main Index) และ ดัชนีเสริม (Supplementary Index)

ดัชนีหลักประกอบด้วยเนื้อหาที่มีคุณภาพสูงและอัปเดตบ่อยครั้ง ในขณะที่ดัชนีเสริมจะเก็บหน้าเว็บแบบ Long-tail และเนื้อหาที่ซ้ำซ้อนจำนวนมาก

หากเนื้อหาที่ถูกลบอยู่ในดัชนีเสริม ลำดับความสำคัญในการตรวจสอบซ้ำโดย Googlebot จะต่ำมาก

ในหลายกรณี หน้าที่ถูกลบอาจหายไปจากผลการค้นหาหลักแล้ว แต่เมื่อคลิก “ดูผลลัพธ์เพิ่มเติม” หรือค้นหาผ่านคำสั่ง site: เฉพาะเจาะจง ก็ยังสามารถพบได้ในแคชของดัชนีเสริม

เกณฑ์การนำออก

เส้นทางการดำเนินการที่แนะนำสำหรับการแทรกแซงด้วยตนเองคือการใช้เครื่องมือ “การนำออก” ใน Google Search Console (GSC) ซึ่งอยู่ในโมดูล “ดัชนี” ในเมนูทางด้านซ้ายของคอนโซล

ในแท็บ “การนำออกชั่วคราว” คลิก “คำขอใหม่” และป้อน URL ที่สมบูรณ์ที่ต้องการล้าง ระบบมีสองตัวเลือก:

“นำ URL ออกชั่วคราว” และ “ล้างแคช URL เท่านั้น”

แบบแรกจะบล็อกเส้นทางนั้นจากผลการค้นหาอย่างสมบูรณ์ภายในเวลาประมาณ 24 ชั่วโมง โดยมีอายุการใช้งานนานถึง 180 วัน

แบบหลังจะยังคงรายการค้นหาไว้ แต่จะลบลิงก์ที่ชี้ไปยังสแนปช็อตเก่าและคำอธิบายข้อความในตัวอย่างข้อมูลการค้นหาทันที

หากภายในระยะเวลาการบล็อก 180 วัน Googlebot ยังไม่สามารถตรวจพบสัญญาณที่ฝั่งเซิร์ฟเวอร์ว่าหน้าเว็บหายไปแล้ว รายการนั้นจะปรากฏขึ้นอีกครั้งในผลการค้นหาหลังจากสิ้นสุดระยะเวลาการบล็อก

สำหรับบุคลากรทางเทคนิคที่มีสิทธิ์จัดการเซิร์ฟเวอร์ การกำหนดค่า รหัสสถานะการตอบกลับ HTTP ที่ถูกต้องเป็นโซลูชันระยะยาวที่สอดคล้องกับตรรกะการเพิ่มประสิทธิภาพเครื่องมือค้นหา (SEO) มากที่สุด

เมื่อ Googlebot เข้าถึงเส้นทางที่ถูกลบไปแล้ว เซิร์ฟเวอร์ควรตอบกลับด้วยรหัสสถานะ 410 (Gone) แทนที่จะเป็น 404 (Not Found) ทั่วไป

ตามบันทึกเอกสารทางเทคนิคอย่างเป็นทางการของ Google รหัสสถานะ 410 จะส่งคำสั่งลบถาวรที่ชัดเจนไปยังบอท ซึ่งจะกระตุ้นให้ระบบนำ URL นั้นออกจากคิวการรวบรวมข้อมูลด้วยลำดับความสำคัญที่สูงขึ้น

รหัสสถานะ 404 มักถูกมองว่าเป็นความขัดข้องของเครือข่ายชั่วคราวหรือความผิดพลาดในการกำหนดค่า Googlebot มักจะคงดัชนีนั้นไว้และพยายามตรวจสอบความถูกต้องซ้ำภายใน 48 ถึง 96 ชั่วโมงข้างหน้า

สำหรับความต้องการในการล้างแคชขนานใหญ่ สามารถตั้งค่าการตอบกลับ 410 ให้เป็นมาตรฐานสำหรับไดเรกทอรีหรือนามสกุลไฟล์ที่เฉพาะเจาะจงในไฟล์กำหนดค่าของเว็บเซิร์ฟเวอร์ (เช่น Nginx หรือ Apache) เพื่อนำทางเครื่องมือค้นหาให้เร่งการล้างข้อมูลที่ล้าสมัยในคลังดัชนีทั่วโลก

ชื่อเครื่องมือ/วิธี สถานการณ์ที่เหมาะสม ความเร็วในการตอบสนอง สถานะการคงอยู่ของดัชนี ระยะเวลาที่มีผล
เครื่องมือการนำออกชั่วคราว GSC ต้องการบล็อกข้อมูลที่ละเอียดอ่อนหรือหน้าที่ลบทันที เห็นผลภายใน 24 ชม. ดัชนีถูกซ่อนชั่วคราว 180 วัน (ยกเลิกเองได้)
รหัสสถานะ HTTP 410 ลบหน้าถาวร ต้องการให้บอทล้างข้อมูล อัปเดตพร้อมการรวบรวมครั้งหน้า นำออกจากฐานข้อมูลโดยสมบูรณ์ มีผลถาวร
รหัสสถานะ HTTP 404 ไม่มีหน้าเว็บอยู่ แต่ไม่มีการทำเครื่องหมายพิเศษ อัปเดตหลังระยะเวลาสังเกตการณ์ การนำออกล่าช้า มีผลถาวร
เครื่องมือตรวจสอบ URL หน้าเว็บจำนวนน้อยที่ต้องการบังคับให้รวบรวมใหม่ 12 ชม. ถึง 3 วัน กระตุ้นการอัปเดตสถานะ มีผลเฉพาะคำขอครั้งเดียว

เมื่อไม่สามารถแก้ปัญหาความล่าช้าของแคชผ่านการรวบรวมข้อมูลตามปกติได้ การเพิ่ม X-Robots-Tag: noarchive ในส่วนหัวการตอบกลับ HTTP ของเซิร์ฟเวอร์ จะสามารถป้องกันไม่ให้ Google จัดเก็บภาพสแนปช็อตใดๆ ของหน้านั้นบนเซิร์ฟเวอร์ของตนได้

หากต้องการควบคุมระยะเวลาการคงอยู่ของเนื้อหาอย่างละเอียดมากขึ้น สามารถใช้แท็ก unavailable_after: [RFC 850 date/time] ซึ่งจะแจ้งให้ Googlebot หยุดแสดงหน้าเว็บนั้นในผลการค้นหาหลังจากวันที่และเวลาที่ระบุ

ชื่อแท็ก/คำสั่ง คำอธิบายหน้าที่เฉพาะเจาะจง พฤติกรรมของเครื่องมือค้นหา
noarchive ปิดการใช้งานภาพสแนปช็อตแคช ทำดัชนีหน้าเว็บแต่ไม่แสดงลิงก์ “แคช”
nosnippet ปิดการใช้งานตัวอย่างข้อความ ผลการค้นหาไม่แสดงตัวอย่างเนื้อหาหน้าเว็บ
noindex ห้ามทำดัชนีโดยสิ้นเชิง นำหน้าเว็บออกจากผลการค้นหาทั้งหมด
unavailable_after ตั้งค่าเวลาหมดอายุอัตโนมัติ เมื่อถึงกำหนดจะดำเนินการตรรกะ noindex โดยอัตโนมัติ

ไซต์จำนวนมากหลังจากลบหน้าเว็บแล้ว ยังคงเก็บบันทึกของ URL นั้นไว้ในแผนผังไซต์ ส่งผลให้ Googlebot ตรวจสอบตามรายการเส้นทางเดิมเป็นประจำ

ขั้นตอนการดำเนินงานมาตรฐานควรเป็นการนำ URL นั้นออกจาก sitemap.xml พร้อมๆ กับการลบหน้าเว็บ และอัปเดตแท็ก <lastmod> (เวลาแก้ไขล่าสุด) ของแผนผังไซต์

จากนั้นไปที่หน้า “แผนผังไซต์” ใน Google Search Console เพื่อส่งไฟล์นั้นใหม่อีกครั้ง

ข้อผิดพลาดในการกำหนดค่า (Soft 404)

เมื่อหน้าเว็บของคุณถูกลบออกไปทางกายภาพแล้ว แต่เซิร์ฟเวอร์ยังคงตอบกลับ Googlebot ด้วยรหัสสถานะ 200 OK จะทำให้เกิดข้อผิดพลาดซอฟต์ 404

ตามข้อมูลการรวบรวมข้อมูลของ Google Search Console หน้าประเภทนี้จะถูกระบบดัชนีมองว่าเป็นหน้าเว็บปกติเนื่องจากไม่ได้รับคำสั่ง 404 หรือ 410

โดยปกติ หากพื้นที่เนื้อหาหลักของหน้ามีค่าน้อยกว่า 200 ไบต์ หรือมีการเปลี่ยนเส้นทางไปยังหน้าแรกของไซต์ Googlebot จะทำเครื่องหมายว่าเป็นซอฟต์ 404 หลังจากการพยายามรวบรวม 2-3 ครั้ง ซึ่งจะส่งผลให้ URL นั้นค้างอยู่ในผลการค้นหาเพิ่มขึ้นอีก 14-30 วัน

รหัสสถานะที่ทำให้เข้าใจผิด

เมื่อ Googlebot เข้าถึงเซิร์ฟเวอร์ ขั้นตอนแรกคือการอ่านรหัสสถานะสามหลักในส่วนหัวการตอบกลับ HTTP

หากคุณลบไฟล์หน้าเว็บทางกายภาพแล้ว แต่การกำหนดค่าเซิร์ฟเวอร์มีความคลาดเคลื่อนทำให้ยังคงตอบกลับเป็น 200 OK สำหรับคำขอนั้น Googlebot จะตัดสินว่าหน้านั้นยังคงอยู่และเนื้อหามีผล

หลังจากระบบดัชนีของ Google ได้รับรหัส 200 แล้ว จะส่งข้อความ HTML ที่รวบรวมได้ (แม้ว่าในหน้าจะเขียนแค่ว่า “ไม่พบเนื้อหา”) เข้าสู่ Indexing Pipeline เพื่อประมวลผล

หาก URL ที่ควรจะหายไปนี้ยังคงให้สัญญาณ 200 อย่างต่อเนื่อง ระยะเวลาที่มันจะคงอยู่ในคลังดัชนีของ Google จะยืดออกไปอย่างมาก

ในไซต์ขนาดใหญ่ หากสัดส่วนของ URL ที่ใช้งานไม่ได้ดังกล่าวเกิน 10% จะส่งผลให้ Crawl Budget กระจัดกระจายอย่างชัดเจน ทำให้ความถี่ในการอัปเดตหน้าปกติลดลง

รหัสสถานะ HTTP คำจำกัดความทางเทคนิคของ Googlebot การดำเนินการของคลังดัชนี ผลกระทบที่คาดหวังต่ออันดับการค้นหา
200 OK คำขอหน้าเว็บสำเร็จ เนื้อหาครบถ้วน รวบรวมและจัดเก็บสแนปช็อตหน้าเว็บอย่างต่อเนื่อง คงอันดับไว้และแสดงตัวอย่างข้อความ
404 Not Found ไม่พบทรัพยากร อาจเป็นชั่วคราว ทำเครื่องหมายเพื่อรอการนำออก ยืนยันแล้วจึงยกเลิก อันดับค่อยๆ ตกลงจนหายไป
410 Gone ลบทรัพยากรถาวร ไม่ต้องยืนยันอีก เริ่มกระบวนการยกเลิกดัชนีทันที นำออกจากผลการค้นหาอย่างรวดเร็ว
301 Permanent ทรัพยากรย้ายไปยังตำแหน่งใหม่ถาวร ย้ายน้ำหนัก URL เดิมไปยังเส้นทางใหม่ เส้นทางเดิมหายไป เส้นทางใหม่เข้าแทนที่
302 Found ทรัพยากรย้ายชั่วคราว คงดัชนี URL เดิมไว้ ไม่ย้ายน้ำหนัก URL เดิมยังคงปรากฏในผลการค้นหา

การที่เซิร์ฟเวอร์ตอบกลับรหัส 200 จะทำให้ Google เริ่มใช้อัลกอริทึมฮิวริสติกที่เรียกว่า การตรวจหา Soft 404

กลไกการแสดงผลของ Google จะวิเคราะห์การนำเสนอด้วยสายตาและลักษณะข้อความของหน้า เช่น ตรวจสอบว่าหน้าเว็บมีคำว่า “404”, “Not Found” หรือ “ขออภัย” หรือไม่ และเนื้อหาหลักที่มีผลของหน้านั้นน้อยกว่า 200 ไบต์ หรือไม่

หากระบบพบว่าหน้าที่มีรหัสสถานะ 200 จริงๆ แล้วไม่มีเนื้อหาที่เป็นสาระสำคัญ มันจะพยายามจัดประเภทเป็นซอฟต์ 404

การตัดสินตามอัลกอริทึมนี้มีความล่าช้าอย่างชัดเจน โดยปกติจะต้องมีการรวบรวมข้อมูลซ้ำ 3 ถึง 5 ครั้ง จึงจะเห็นผล

สำหรับไซต์ที่พึ่งพาสภาพแวดล้อม Nginx หรือ Apache หากมีการกำหนดค่าหน้าข้อผิดพลาด 404 ผ่าน 302 redirect ให้นำทางไปยังหน้าแรกอย่างไม่ถูกต้อง สถานะ 200 ของหน้าแรกจะครอบคลุมสัญญาณข้อผิดพลาดเดิม

Google จะคิดว่า URL เดิมตอนนี้เปลี่ยนเนื้อหาเป็นหน้าแรกแล้ว ส่งผลให้เกิดความขัดแย้งของเนื้อหาที่ซ้ำกัน ทำให้ลิงก์เดิมค้างอยู่ใน SERP เป็นเวลานาน

หากฟิลด์ Content-Length ในส่วนหัวการตอบกลับแสดงค่าคงที่ขนาดเล็ก (เช่น ต่ำกว่า 1024 ไบต์) ในขณะที่รหัสสถานะเป็น 200 มักจะกระตุ้นให้ Google ตรวจสอบความเบาบางของเนื้อหาในหน้านั้นอย่างละเอียด

ในการจัดการไซต์ระดับสากลที่มี URL นับล้านรายการ X-Robots-Tag ในส่วนหัวการตอบกลับของเซิร์ฟเวอร์ก็เป็นสัญญาณเสริมอย่างหนึ่ง

หากคุณลบหน้าเว็บแต่ไม่สามารถแก้ไขรหัสสถานะได้ทันที สามารถเพิ่มคำสั่ง noindex ในส่วนหัวการตอบกลับ

เมื่อ Googlebot อ่านรหัส 200 พร้อมกับเห็น noindex มันจะนำออกในรอบการอัปเดตดัชนีครั้งต่อไป

ในสถาปัตยกรรมเซิร์ฟเวอร์แบบกระจายทั่วไป หาก CDN (เช่น Cloudflare หรือ Fastly) ฝั่งหน้าแคชการตอบกลับ 200 เดิมไว้ แม้ว่าต้นทางฝั่งหลังจะแก้ไขเป็น 404 แล้ว สิ่งที่บอทเห็นก็ยังคงเป็นสถานะเก่าในแคช

ความไม่สอดคล้องของแคชนี้จะทำให้ข้อมูลดัชนีของ Google ไม่ตรงกับข้อมูลในสภาพแวดล้อมการใช้งานจริง

ประเภทฟิลด์ส่วนหัว ตัวอย่างพารามิเตอร์ พฤติกรรมการตอบสนองของบอท Google คำแนะนำการแก้ไข
Status Line HTTP/1.1 404 Not Found หยุดจัดสรรงบประมาณรวบรวมข้อมูลให้ URL นี้ ตรวจสอบให้แน่ใจว่าการลบมาพร้อมสถานะนี้
Cache-Control max-age=0, no-cache บังคับให้บอทตรวจสอบแบบเรียลไทม์ทุกครั้งที่เข้าถึง หลีกเลี่ยงการที่ CDN แคชรหัส 200 ที่ผิดพลาด
X-Robots-Tag noindex, nofollow ไม่อนุญาตให้เข้าสู่ดัชนีแม้จะส่งรหัส 200 ใช้เป็นมาตรการแก้ไขชั่วคราว
Content-Type text/html; charset=UTF-8 แยกวิเคราะห์เนื้อหาตามรูปแบบเว็บเพจ ยืนยันว่าหน้าข้อผิดพลาดไม่ถูกระบุว่าเป็นไฟล์ดาวน์โหลด

หากเซิร์ฟเวอร์กำหนดค่าตรรกะ If-Modified-Since ซับซ้อนเกินไป และยังคงตอบกลับเป็น 304 Not Modified หลังจากลบหน้าเว็บแล้ว Googlebot จะไม่รวบรวมเนื้อหาใหม่เลย แต่จะใช้สแนปช็อตเก่าจากเมื่อหลายเดือนก่อนในคลังดัชนีต่อไป

อัลกอริทึมการจัดสรรความถี่ในการรวบรวมของ Google จะเข้าชมโดเมนที่มีน้ำหนักสูงหลายครั้งต่อวัน ในขณะที่โดเมนที่มีน้ำหนักต่ำอาจเข้าชมเพียงครั้งเดียวในทุกๆ 14 ถึง 21 วัน

หากเซิร์ฟเวอร์ให้สัญญาณ 200 หรือ 304 ที่ทำให้เข้าใจผิดอย่างต่อเนื่องในช่วงเวลาการเข้าชมเหล่านี้ หน้าที่ถูกลบจะกลายเป็นแขกประจำในผลการค้นหา

เพื่อแก้ปัญหานี้อย่างถาวร จำเป็นต้องเริ่มจากไฟล์กำหนดค่าเซิร์ฟเวอร์ นำกฎการเขียนใหม่ทั่วโลกที่เปลี่ยนคำขอ 404 เป็น 200 อย่างเงียบๆ ออก และใช้ เครื่องมือตรวจสอบ Headers เพื่อยืนยันว่าบรรทัดแรกของสตรีมข้อมูลดิบที่ส่งออกมานั้นมีข้อความ 404 หรือ 410 จริงๆ

การระบุและการจัดการ

เปิดเมนูทางด้านซ้ายของ Google Search Console ค้นหารายงานหน้าเว็บ (Pages) ภายใต้หมวดหมู่การทำดัชนี (Indexing)

ในตารางด้านล่าง มองหารายการที่มีสถานะ “URL ที่ส่งมีข้อผิดพลาดซอฟต์ 404”

เมื่อคลิกเข้าไป ระบบจะแสดงรายการ URL ที่ได้รับผลกระทบโดยละเอียด พร้อมบันทึกวันที่พยายามรวบรวมข้อมูลล่าสุด

ใช้เครื่องมือตรวจสอบ URL (URL Inspection Tool) ป้อนเส้นทางที่เฉพาะเจาะจง คลิก “ทดสอบ URL จริง” (Test Live URL)

หากผลการทดสอบแสดงว่า “Google สามารถทำดัชนี URL ได้” แต่ภาพหน้าจอแสดงเป็นคำแจ้งเตือนข้อผิดพลาด แสดงว่าเป็นการกำหนดค่าซอฟต์ 404 ที่ผิดพลาดอย่างแน่นอน

ระบบการค้นหาของ Google จะเก็บบันทึกการรวบรวมข้อมูลย้อนหลัง 16 เดือน คุณสามารถวิเคราะห์รูปแบบการกระจายเส้นทางของ URL ที่ผิดพลาดได้โดยการส่งออกรายงานโดยละเอียดในรูปแบบ CSV เพื่อตัดสินว่าเป็นปัญหาตรรกะเชิงระบบภายใต้ไดเรกทอรีเฉพาะหรือไม่ (เช่น /api/ หรือ /products/)

เฉพาะเมื่อบรรทัดสถานะในส่วนหัวการตอบกลับ HTTP ส่งคืน 404 Not Found หรือ 410 Gone ที่แน่นอนเท่านั้น Googlebot จึงจะเริ่มกระบวนการยกเลิกดัชนี

การใช้เครื่องมือบรรทัดคำสั่งที่ฝั่งเซิร์ฟเวอร์เพื่อตรวจจับโดยตรงไม่ผ่านตัวกลางเป็นวิธีที่มีประสิทธิภาพในการตัดสิ่งรบกวน

ใช้คำสั่ง curl -I https://example.com/deleted-page และสังเกตบรรทัดแรกของผลลัพธ์

หากส่งคืนเป็น HTTP/1.1 200 OK แสดงว่าการกำหนดค่าเซิร์ฟเวอร์ฝั่งหลังล้มเหลวในการตัดคำขออย่างถูกต้อง

สำหรับเว็บเซิร์ฟเวอร์ที่ใช้ Nginx จำเป็นต้องตรวจสอบคำสั่ง error_page ในไฟล์กำหนดค่า nginx.conf

หากมีการตั้งค่า error_page 404 =200 /404.html สิ่งนี้จะบังคับให้รีเซ็ตสถานะ 404 เป็น 200

วิธีที่ถูกต้องคือการนำเครื่องหมายเท่ากับออก เพื่อให้แน่ใจว่ารหัสสถานะถูกส่งผ่านตามความเป็นจริง

สำหรับเซิร์ฟเวอร์ Apache ให้ตรวจสอบการกำหนดค่า ErrorDocument ในไฟล์ .htaccess เพื่อหลีกเลี่ยงการเปลี่ยนเส้นทาง URL ที่ใช้งานไม่ได้ไปยังหน้าแรกแบบรวมกลุ่ม

ชื่อเครื่องมือ มิติการตรวจจับ ประเภทการตอบกลับข้อมูล สถานการณ์ที่เหมาะสม
GSC URL Inspection สถานะการรวบรวมแบบเรียลไทม์ ความพร้อมใช้งานของดัชนี/ภาพหน้าจอแสดงผล การตรวจสอบเจาะลึก URL รายเดียว
Screaming Frog SEO Spider รหัสสถานะ HTTP เมทริกซ์การตอบสนองของ URL แบบกลุ่ม การสแกนหน้าเว็บที่เหลืออยู่ทั้งไซต์
Chrome DevTools (Network) ข้อมูลส่วนหัวการตอบกลับ ข้อมูลดิบ Server Header การวิเคราะห์ตรรกะการโต้ตอบฝั่งหน้า
Indexing API คำขอนำออกเรียลไทม์ รหัสสถานะการตอบกลับ JSON หน้าชั่วคราวที่มีการอัปเดตบ่อย

หากยืนยันว่าเป็นซอฟต์ 404 สามารถใช้เครื่องมือ Removals ของ Google เพื่อแทรกแซงชั่วคราวได้

เครื่องมือนี้อยู่ในแท็บ “การนำออก” ของ Search Console ช่วยให้ผู้ใช้สามารถส่งคำขอ “นำ URL ออกชั่วคราว” ได้

หลังจากส่งคำขอ URL ดังกล่าวจะหายไปจากผลการค้นหาประมาณ 180 วัน

ในช่วงเวลานี้ Googlebot จะยังคงพยายามรวบรวมข้อมูลที่อยู่นั้น

เมื่อตรวจพบรหัสสถานะ 404 ที่แท้จริง ระบบจะเปลี่ยนการนำออกชั่วคราวเป็นการยกเลิกถาวร

เครื่องมือนี้มีขีดจำกัดการส่งคำขอทุก 24 ชั่วโมง โดยปกติจะเหมาะสำหรับการล้างบันทึกที่ใช้งานไม่ได้น้อยกว่า 1,000 รายการ

หากเวลาตอบสนองของเซิร์ฟเวอร์ (Time to First Byte, TTFB) เกิน 2 วินาที อาจทำให้ Googlebot ละทิ้งการรวบรวมสถานะปัจจุบัน และใช้ข้อมูลดัชนีเดิมในประวัติแทน

จากการค้นหา User-Agent ของ Googlebot (โดยปกติจะมี Googlebot/2.1) และช่วงที่อยู่ IP ที่เกี่ยวข้อง จะสามารถสังเกตความถี่ที่บอทเข้าชมหน้าที่ถูกลบไปแล้วได้

หากบันทึกแสดงว่าสิ่งที่บอทได้รับเมื่อเข้าชมหน้าเหล่านี้คือรหัส 200 ทั้งหมด และขนาดหน้าเว็บ (Bytes Sent) มักจะคงที่อยู่ระหว่าง 5KB ถึง 15KB (ซึ่งก็คือขนาดของหน้าข้อผิดพลาด) แสดงว่าเซิร์ฟเวอร์กำลังให้ “เนื้อหา” ที่ไม่มีผลกับบอท

สำหรับ Single Page Application (SPA) จำเป็นต้องให้ความสำคัญกับสถานะ DOM หลังจากเรนเดอร์แบบไดนามิกเป็นพิเศษ

กลไกการแสดงผลของ Googlebot มีขีดจำกัดการตัดเนื้อหาที่ 15MB หากข้อผิดพลาดของ JavaScript ทำให้การเรนเดอร์หน้าเว็บค้างอยู่ที่สถานะกำลังโหลด ก็จะถูกตัดสินผิดว่าเป็นหน้าปกติเช่นกัน

  • เข้าสู่ระบบ Google Search Console เพื่อตรวจสอบรายงาน “แผนผังไซต์” (Sitemaps) เพื่อยืนยันว่า URL ที่ลบไปแล้วไม่ได้อยู่ในรายการ XML ที่ส่ง
  • ใช้เทอร์มินัลรัน wget --server-response --spider เพื่อรับข้อมูลการทำ Handshake ของการเชื่อมต่อโดยละเอียด
  • ในแผง “Network” ของเบราว์เซอร์ Chrome ให้ติ๊กเลือก “Disable cache” แล้วส่งคำขอซ้ำ เพื่อสังเกตว่าเลเยอร์แคชของ CDN เช่น X-Cache หรือ Varnish ส่งคืนรหัส 200 ที่หมดอายุหรือไม่
  • สำหรับไซต์ที่มีปริมาณมาก การใช้ Google Indexing API เพื่อส่งคำขอ URL_DELETED มักจะให้การตอบสนองที่เร็วกว่าการรวบรวมข้อมูลแบบตั้งรับ

หลังจากจัดการการกำหนดค่าเซิร์ฟเวอร์แล้ว แนะนำให้คลิก “ตรวจสอบความถูกต้องของการแก้ไข” ใน Search Console

สิ่งนี้จะกระตุ้นให้ระบบสุ่มตัวอย่าง URL ทั้งหมดที่ทำเครื่องหมายว่าเป็นซอฟต์ 404 ใหม่

เนื่องจาก Google จะจัดสรรงบประมาณตามความถี่ในการรวบรวมข้อมูลในประวัติของหน้าเว็บ หน้าที่มีน้ำหนักสูงจะได้รับการอัปเดตสถานะภายใน 48 ชั่วโมง ส่วนเส้นทางขอบที่มีน้ำหนักต่ำอาจต้องใช้เวลา 3 ถึง 4 สัปดาห์ จึงจะถูกล้างออกจากคลังดัชนีโดยสมบูรณ์

การรักษาให้ robots.txt อนุญาตให้บอทเข้าถึงหน้าเหล่านี้เป็นสิ่งสำคัญมาก เพราะคำสั่งยกเลิกจะมีผลได้ก็ต่อเมื่อบอทเห็นรหัส 404 เท่านั้น

หากบล็อกบอทไว้ก่อนล่วงหน้า มันจะไม่สามารถอัปเดตบันทึกเก่าที่มีสถานะ 200 ในฐานข้อมูลของมันได้

ลิงก์ภายนอกยังคงอยู่

หาก URL ที่ถูกลบไปยังคงถูกอ้างอิงโดยโดเมนอิสระมากกว่า 3 โดเมน Googlebot จะเข้าชมที่อยู่นั้นซ้ำๆ ตามเส้นทางการรวบรวมข้อมูลของลิงก์เหล่านี้

แม้ว่าหน้าเว็บจะส่งคืน 404 สัญญาณที่มาจากลิงก์จะทำให้ Google คิดว่าเนื้อหานั้นอาจเกิดข้อผิดพลาดเพียงชั่วคราว

หน้าเว็บที่มีลิงก์ย้อนกลับที่ยังใช้งานอยู่มากกว่า 10 ลิงก์ มักจะมีระยะเวลาตกค้างในผลการค้นหามากกว่าหน้าที่ไม่มีลิงก์ประมาณ 12 ถึง 20 วัน

การรบกวนจากทราฟฟิกภายนอก

เมื่อผู้ใช้บนแพลตฟอร์มภายนอกคลิกลิงก์ของหน้าที่ถูกลบไปแล้ว ทุกการคลิกจะสร้างคำขอ HTTP ที่ส่งสัญญาณไปยังระบบของ Google

หาก URL ที่ถูกทำเครื่องหมายเป็น 404 มีการคลิกจากโดเมนภายนอกมากกว่า 50 ครั้งภายใน 24 ชั่วโมง ระบบจัดตารางเวลารวบรวมข้อมูลของ Googlebot จะใส่ URL นั้นกลับเข้าไปในคิวการสังเกตการณ์ที่มีความถี่สูงอีกครั้ง

เมื่อผู้ใช้จำนวนมากคลิกเข้าสู่หน้าที่ใช้งานไม่ได้ผ่าน Reddit, X หรือจดหมายข่าวอุตสาหกรรมระดับมืออาชีพ เบราว์เซอร์จะส่งข้อมูลบันทึกความล้มเหลวในการเข้าถึงกลับไปยังฐานข้อมูลของ Google

อัลกอริทึมของเครื่องมือค้นหาจะตัดสินว่า URL นั้นยังคงมีความเคลื่อนไหวในระดับหนึ่ง เพื่อป้องกันการสูญเสียข้อมูลที่มีค่าเนื่องจากความผิดพลาดในการดำเนินการของผู้ดูแลเว็บไซต์ อัลกอริทึมจะเลือกที่จะยืดระยะเวลาการคงอยู่ของผลการค้นหานั้นออกไปแทนที่จะนำออกทันที

“ในโปรโตคอลการบำรุงรักษาดัชนีของ Google น้ำหนักของสัญญาณพฤติกรรมผู้ใช้มักจะครอบคลุมคำสั่งรหัสสถานะ HTTP เพียงอย่างเดียว หากเส้นทางเก่าที่ส่งคืนสถานะ 404 ยังคงได้รับทราฟฟิกที่เสถียรจากโซเชียลมีเดียหลักหรือบล็อกที่มีน้ำหนักสูง ระบบจะเปิดหน้าต่างสังเกตการณ์ 7 ถึง 14 วันโดยอัตโนมัติ ในช่วงเวลานี้ เครื่องมือค้นหาจะส่งบอทไปยืนยันความเสถียรของสถานะนั้นหลายครั้ง เพื่อให้แน่ใจว่าไม่ใช่ข้อผิดพลาดในการกำหนดค่าชั่วคราวของเซิร์ฟเวอร์”

ฝั่งเซิร์ฟเวอร์ของ Google จะระบุแหล่งที่มาที่แท้จริงของทราฟฟิกผ่านฟิลด์ Referrer ในส่วนหัว HTTP

หากทราฟฟิกส่วนใหญ่มาจากระบบนิเวศผลิตภัณฑ์ของ Google เอง (เช่น การคลิกลิงก์ใน Gmail) หรือมาจากไซต์ที่อยู่อันดับต้นๆ ของโลก ผลกระทบจากการรบกวนจะเพิ่มขึ้นเป็นทวีคูณ

ตารางด้านล่างแสดงผลกระทบของข้อมูลทราฟฟิกในมิติต่างๆ ต่อระยะเวลาที่ดัชนีจะตกค้าง:

ค่าเฉลี่ยทราฟฟิกภายนอกรายวัน (UV) ประเภทแหล่งที่มาหลัก ระยะเวลาตกค้างในดัชนีที่คาดว่าจะเพิ่มขึ้น การเปลี่ยนแปลงความถี่การรวบรวมของ Googlebot
5 – 20 รายการโปรดส่วนตัวหรือบล็อกน้ำหนักต่ำ 2 – 4 วัน คงการสแกนสัปดาห์ละ 1 ครั้ง
21 – 100 กระทู้ Reddit หรือฟอรัมอุตสาหกรรมขนาดกลาง 5 – 9 วัน เพิ่มเป็นสแกนทุกๆ 3 วัน
100 ขึ้นไป เทรนด์ยอดนิยมใน X (Twitter) หรือสื่อน้ำหนักสูง 10 – 20 วัน เพิ่มเป็นสแกนวันละครั้งหรือหลายครั้ง

ปรากฏการณ์นี้ยังเกี่ยวข้องกับการจัดสรรงบประมาณการรวบรวมข้อมูล (Crawl Budget) ของ Google ด้วย

ทรัพยากรการรวบรวมที่เดิมควรใช้เพื่อค้นพบเนื้อหาใหม่จะถูกใช้ไปกับ URL ที่ใช้งานไม่ได้ซึ่งมีการส่งข้อมูลทราฟฟิกกลับมาอย่างต่อเนื่องเหล่านี้

เมื่อเครื่องมือค้นหาสังเกตเห็นการคลิกที่หนาแน่นไปยังหน้า 404 ระบบให้คะแนนคุณภาพภายในจะบันทึก “ประสบการณ์ผู้ใช้ที่ไม่ดี” นี้ไว้

อย่างไรก็ตาม เพื่อค้นหาเนื้อหาที่เกี่ยวข้องที่สามารถทดแทนหน้านั้นได้ Google อาจคงผลการค้นหาเดิมไว้สักระยะหนึ่ง และพยายามแสดงหน้าแนะนำที่คล้ายกันด้านล่างผลลัพธ์นั้น กลไกนี้ยิ่งทำให้หน้าเก่าไม่หายไปจากหน้าผลการค้นหา

จากการทดสอบทางเทคนิคกับ URL ที่ใช้งานไม่ได้ 500 รายการพบว่า หน้าเว็บที่ได้รับคลิกจากลิงก์ย้อนกลับภายนอกอย่างต่อเนื่อง มีความถี่ในการอัปเดตสแนปช็อตในเซิร์ฟเวอร์แคชสูงกว่าหน้าที่ไม่มีทราฟฟิกถึง 3.5 เท่า

เนื่องจากเบราว์เซอร์ Chrome ครองส่วนแบ่งการตลาดทั่วโลกมากกว่า 60% เมื่อผู้ใช้ป้อน URL เก่าในแถบที่อยู่หรือเข้าถึงจากบุ๊คมาร์ค พฤติกรรมการเข้าชมเชิงรุกนี้จะถูกมองว่าเป็นหลักฐานว่า URL นั้นยังมีชีวิตอยู่

แม้ว่าหน้าเว็บจะส่งคืนข้อผิดพลาดมาตรฐานว่าไม่พบไฟล์ ตราบใดที่ผู้ใช้ไม่ปิดหน้าต่างเบราว์เซอร์ภายใน 30 วินาทีหลังจากเข้าถึงหน้าดังกล่าว หรือพยายามหาข้อมูลอื่นภายใต้โดเมนเดียวกัน พฤติกรรมการโต้ตอบเหล่านี้จะถูกอัลกอริทึมตีความว่าหน้านั้นยังคงมีที่ยืนในโครงสร้างอินเทอร์เน็ต

ไซต์รวบรวมเนื้อหา (Aggregators)

เมื่อหน้าเว็บถูกนำออกจากเซิร์ฟเวอร์ต้นทางแล้ว ร่องรอยดิจิทัลของมันไม่ได้หายไปจากโหนดอื่นๆ บนอินเทอร์เน็ตพร้อมกัน

ไซต์เหล่านี้รวมถึงแต่ไม่จำกัดเพียง โปรแกรมอ่าน RSS ทั่วโลก (เช่น Feedly หรือ Inoreader), เครื่องมือตัดแปะหน้าเว็บ (เช่น Pocket) และหน่วยงานจัดเก็บเอกสารบนเว็บที่เป็นมืออาชีพ (เช่น Wayback Machine ของ Archive.org)

แม้ว่าหน้าเดิมจะส่งรหัสข้อผิดพลาด 404 แต่สแนปช็อต HTML คงที่ที่สร้างขึ้นโดยแพลตฟอร์มบุคคลที่สามเหล่านี้ยังคงให้ทางเข้าแก่บอทของ Google

หาก Googlebot พบลิงก์ที่ชี้ไปยัง URL ที่ใช้งานไม่ได้ซ้ำๆ ขณะรวบรวมข้อมูลจากไซต์รวบรวมที่มีน้ำหนักสูง อัลกอริทึมการจัดการดัชนีภายในจะเกิด “ความขัดแย้งทางตรรกะ” นั่นคือ:

แม้ไซต์ต้นทางจะรายงานว่าไม่มีเนื้อหา แต่ระบบนิเวศภายนอกยังคงอ้างอิงถึงเนื้อหานั้น

ตารางด้านล่างแสดงผลกระทบของพฤติกรรมการรวบรวมข้อมูลประเภทต่างๆ ต่อข้อมูลดัชนีที่ตกค้างของ Google:

ประเภทแหล่งรวบรวม รอบการรีเฟรชข้อมูล ระยะเวลารบกวนดัชนีของ Google คำอธิบายตรรกะการรวบรวม
RSS / Atom Feed หนึ่งครั้งทุกๆ 10 – 60 นาที 14 – 30 วัน โปรแกรมอ่านจะขอไฟล์ XML อย่างต่อเนื่อง ทำให้ URL เก่าค้างอยู่ในรายการเป็นเวลานาน
แพลตฟอร์มจัดเก็บเว็บ (Archives) เก็บเวอร์ชันถาวร รบกวนระยะยาว แม้หน้าเดิมจะถูกลบ สถานะ “มีชีวิต” ของหน้าจัดเก็บจะล่อให้บอทกลับไปชมเส้นทางเดิม
ไซต์มิเรอร์เนื้อหา ซิงโครไนซ์วันละครั้ง 7 – 21 วัน ไซต์เหล่านี้รวบรวมข้อมูลผ่าน API ลิงก์ย้อนกลับของพวกเขาจะรักษาความเคลื่อนไหวของ URL เก่าในดัชนี
แคชเมทาดาตาโซเชียลมีเดีย กระตุ้นตามคำขอผู้ใช้ 3 – 10 วัน ภาพตัวอย่างและคำอธิบายที่สร้างโดยโปรโตคอล Open Graph จะถูกแคชไว้ในเซิร์ฟเวอร์แพลตฟอร์ม กลายเป็นจุดรวบรวมข้อมูลซ้ำ

ในระดับเทคนิค ระบบการรวบรวมข้อมูลแบบกระจายของ Google จะจัดสรรรอบการแคชที่ชื่อว่า TTL (Time To Live) ให้กับทุก URL ที่ตรวจพบ

เมื่อไซต์รวบรวมข้อมูลสร้าง “การอ้างอิงเท็จ” ต่อหน้านั้นอย่างต่อเนื่อง เซิร์ฟเวอร์ดัชนี (Index Server) ของ Google จะได้รับคำขอรวบรวมข้อมูลจาก IP หลายช่วงที่แตกต่างกัน

หากผู้ดูแลไซต์ไม่ได้นำบันทึกในแผนผังไซต์ XML (Sitemap) ออกก่อนการลบหน้าเว็บ วงจรนี้จะยิ่งถูกขยายใหญ่ขึ้น

“ลักษณะการกระจายศูนย์ของอินเทอร์เน็ตกำหนดให้การลบข้อมูลอย่างสมบูรณ์เป็นกระบวนการที่ค่อยเป็นค่อยไป เมื่อ URL เข้าสู่เครือข่ายการรวบรวมข้อมูลสาธารณะ มันจะหลุดพ้นจากการควบคุมเพียงจุดเดียวของเซิร์ฟเวอร์ต้นทาง Googlebot เมื่อจัดการกับสัญญาณความขัดแย้งประเภทนี้ มักจะเลือกปกป้องความต่อเนื่องของผลการค้นหา นั่นคือรักษาสถานะการจัดเก็บในเซิร์ฟเวอร์แคชไว้จนกว่าจะยืนยันได้ว่า URL นั้นใช้งานไม่ได้ในโหนดหลักทั้งหมด”

หากลิงก์อ้างอิงของหน้าที่ใช้งานไม่ได้บนแพลตฟอร์มที่มีน้ำหนักสูงอย่าง Reddit, Stack Overflow หรือ Medium ยังคงมีความเคลื่อนไหว Googlebot จะคิดว่าสถานะ 404 นั้นอาจเป็นข้อผิดพลาดชั่วคราวที่เกิดจากการบำรุงรักษาเซิร์ฟเวอร์

ในกรณีนี้ Google จะเรียกใช้ Cached Version (เวอร์ชันแคช) ที่บันทึกไว้ในโหนด CDN ทั่วโลกมาแสดงให้ผู้ใช้เห็น

ประมาณ 22% ของหน้าเว็บที่ถูกลบจะผ่าน “ช่วงฟื้นคืนชีพของแคช” ก่อนจะหายไป นั่นคือเครื่องมือค้นหาพยายามใช้เนื้อหาแคชเพื่อเติมเต็มช่องว่างของดัชนี

  • ความล่าช้าในการซิงโครไนซ์ของศูนย์ข้อมูล: Google มีศูนย์ข้อมูลหลักหลายสิบแห่งกระจายอยู่ทั่วโลก การอัปเดตคลังดัชนีของแต่ละศูนย์ไม่ได้เกิดขึ้นแบบเรียลไทม์ เมื่อไซต์รวบรวมข้อมูลบางแห่งกระตุ้นการรวบรวมข้อมูลในโหนดฝั่งยุโรป การซิงโครไนซ์ข้อมูลนั้นไปยังโหนดฝั่งอเมริกาเหนืออาจมีความล่าช้าหลายชั่วโมงหรือหลายวัน
  • การทำให้เข้าใจผิดของคำขอ Head: เครื่องมือรวบรวมข้อมูลจำนวนมากตรวจสอบการตอบสนองของเซิร์ฟเวอร์ผ่านคำขอ Head เท่านั้น โดยไม่ดาวน์โหลดข้อความ HTML ทั้งหมด การโต้ตอบที่เบาบางนี้ทำให้อัลกอริทึมของ Google ตัดสินใจได้ยากว่าเนื้อหาขาดหายไปจริงๆ หรือไม่ในตอนแรก
  • ผลข้างเคียงของการเรนเดอร์ JavaScript: ไซต์รวบรวมข้อมูลขั้นสูงบางแห่งจะรันเบราว์เซอร์ไร้ส่วนหัว (Headless Browser) เพื่อรวบรวมเนื้อหาแบบไดนามิก หากการออกแบบหน้า 404 ของคุณไม่เรียบง่ายพอ (เช่น มีแถบนำทางหรือบทความแนะนำจำนวนมาก) บอทอาจคิดผิดว่าหน้านั้นยังคงมีข้อมูลที่มีผลอยู่
  • การรวบรวมข้อมูลแบบเรียกซ้ำของเส้นทางอ้างอิง: ไซต์ A อ้างอิงถึง URL ที่ถูกลบไปแล้ว ไซต์ B ก็ไปรวบรวมข้อมูลหน้ารายการของไซต์ A เครือข่ายการอ้างอิงหลายระดับแบบนี้ให้เส้นทางการรวบรวมข้อมูลแก่ Googlebot อย่างต่อเนื่อง ทำให้ URL เก่าอยู่ในคิว “รอการประมวลผล” เสมอ

เมื่อจำนวนของไซต์รวบรวมข้อมูลถึงระดับหนึ่ง งบประมาณการรวบรวมข้อมูล (Crawl Budget) ของ Google จะถูกใช้ไปกับเส้นทางที่ไม่มีผลเหล่านี้

ในการจัดการกับการตกค้างประเภทนี้ การใช้ Removals Tool (เครื่องมือการนำออก) ของ Google Search Console เป็นวิธีที่เร็วที่สุดในการทำลายวงจรตรรกะนี้

Don Jiang
Don Jiang

SEO本质是资源竞争,为搜索引擎用户提供实用性价值,关注我,带您上顶楼看透谷歌排名的底层算法。

最新解读
滚动至顶部