微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:[email protected]

Ý nghĩa của canonical trong SEO丨Cách sử dụng thẻ canonical trong SEO

本文作者:Don jiang

Thẻ rel=”canonical” ngăn chặn sự phân tán giá trị bằng cách thông báo cho công cụ tìm kiếm “đâu là URL phiên bản chính tắc của nội dung”.

Trong Google SEO, nó được sử dụng bằng cách thêm <link rel=”canonical” href=”URL_chính_tắc”> vào bên trong <head> của trang.

Dữ liệu cho thấy: Đối với các trang web thương mại điện tử đã triển khai thẻ Canonical đúng cách, tỷ lệ lập chỉ mục của các trang danh sách sản phẩm tăng trung bình 28%, và số lần bot truy cập vào các URL trùng lặp đã giảm 40% – 60%.

Đối với các trang tin tức, việc hợp nhất các bài viết tương tự thông qua thẻ chính tắc giúp tăng trung bình 19% số lần nhấp chuột từ tìm kiếm cho nội dung cốt lõi.

Tuy nhiên, các cuộc khảo sát thực tế cho thấy chỉ có 31% các trang web có thể sử dụng thẻ này đúng 100% (các lỗi phổ biến bao gồm trỏ đến URL sai, không chuẩn hóa qua các giao thức/tên miền, hoặc chồng chéo nhiều thẻ).

canonicalタグとは

Tại sao cần sử dụng thẻ canonical

Trong quá trình thu thập thông tin hàng ngày của công cụ tìm kiếm Google, hơn 65% các trang web đang gặp vấn đề nội dung trùng lặp do lỗi trong thiết kế cấu trúc URL.

Các ví dụ cụ thể:

     

  • Cùng một bài viết có thể được truy cập bằng URL có tham số động (ví dụ: ?utm_source=xxx)
  •  

  • Có các hậu tố thư mục (ví dụ: /page/ hoặc /page/index.html)
  •  

  • Có các tên miền phụ khác nhau (ví dụ: www và non-www)

John Mueller của Google đã nhiều lần đề cập trong các buổi hỏi đáp chính thức rằng khi công cụ tìm kiếm phát hiện “nhiều URL đang hiển thị nội dung rất giống nhau hoặc hoàn toàn giống nhau”, họ sẽ gặp khó khăn trong việc đánh giá “nên phân bổ giá trị cho URL nào”.

Một trang sản phẩm thương mại điện tử có thể tạo ra hàng chục URL khác nhau do bộ lọc màu hoặc tham số sắp xếp; một bài báo tin tức có thể được phân phối đến nhiều chuyên mục, tạo thành nhiều liên kết đầu vào.

Việc sử dụng thẻ canonical thông báo rõ ràng cho công cụ tìm kiếm: Mặc dù nội dung này có thể được truy cập qua nhiều URL, nhưng tôi muốn bạn tập trung sự chú ý về giá trị và xếp hạng vào URL mà tôi đã chỉ định này.

Ảnh hưởng của nội dung trùng lặp đối với SEO

Bản thân nội dung trùng lặp không trực tiếp gây ra hình phạt từ công cụ tìm kiếm (Google đã tuyên bố rõ ràng rằng họ “sẽ không phạt một trang web chỉ vì sự trùng lặp nội dung đơn giản”), nhưng nó dẫn đến sự phân tán giá trị.

Khi cùng một nội dung có thể được truy cập qua nhiều URL, công cụ tìm kiếm sẽ xử lý các URL này một cách riêng biệt như thể chúng là “các trang khác nhau“.

Ví dụ, một bài viết gốc được hiển thị qua 4 URL sau:

     

  • https://example.com/article
  •  

  • https://example.com/article?source=newsletter
  •  

  • https://example.com/article#comments
  •  

  • https://www.example.com/article (phiên bản có www)

Nếu không có định danh chính tắc, công cụ tìm kiếm có thể thu thập thông tin cả 4 URL này cùng một lúc và tính toán giá trị lập chỉ mục cho từng URL.

Tuy nhiên, nhu cầu tìm kiếm của người dùng về bản chất chỉ cần một câu trả lời. Cuối cùng, xếp hạng của cả 4 phiên bản này đều có thể thấp (do giá trị bị phân tán), hoặc chỉ một trong số chúng tình cờ được lập chỉ mục, và các phiên bản khác sẽ bị “không lập chỉ mục” hoặc “xếp hạng thấp” trong thời gian dài.

Đối với các trang web thương mại điện tử, các URL trùng lặp của trang chi tiết sản phẩm được tạo ra bởi các tham số (ví dụ: ?size=XL, ?color=red) trung bình đạt 8-12 URL, và sự chiếm dụng thu thập thông tin của các trang này có thể đạt 15%-20% tổng dung lượng thu thập thông tin (đây là dung lượng thu thập thông tin nên được phân bổ cho các trang mới có giá trị hơn).

Đối với các trang tin tức, do nội dung được phân phối đến nhiều chuyên mục (ví dụ: “Tin mới nhất”, “Xu hướng ngành”, “Đề xuất phổ biến”), một bài viết duy nhất có thể tạo ra 3-5 URL đầu vào khác nhau.

Một trường hợp cụ thể hơn: Một trang web thương mại điện tử cỡ trung bình, trước khi chuẩn hóa URL, tỷ lệ lập chỉ mục của các trang danh sách sản phẩm chỉ là 62% (nghĩa là chỉ 62/100 trang được Google ghi nhận và có cơ hội tham gia xếp hạng).

Sau khi thêm thẻ canonical vào các trang danh sách có tham số (ví dụ: ?category=shoes&sort=price) trỏ đến URL cơ bản không có tham số (ví dụ: /shoes), tỷ lệ lập chỉ mục đã tăng lên 81% sau ba tháng, và lưu lượng truy cập tìm kiếm tự nhiên của các sản phẩm tương ứng đã tăng 17%.

“Chỉ định phiên bản có thẩm quyền” chứ không phải “xóa trùng lặp”

Nhiều quản trị viên web hiểu lầm về thẻ canonical, coi nó là “công cụ để loại bỏ các trang trùng lặp”.

Thực tế, chức năng cốt lõi của nó là cho công cụ tìm kiếm biết: trong số nhiều URL hiển thị cùng một nội dung, phiên bản nào nên được ưu tiên thu thập thông tin, lập chỉ mục và phân bổ giá trị xếp hạng.

Nếu bạn thêm đoạn mã sau vào phần <head> của một trang:

<link rel=“canonical” href=“https://example.com/URL_chính_tắc” />​

Bạn đang gửi một tín hiệu rõ ràng đến công cụ tìm kiếm: Mặc dù nội dung này cũng có thể được truy cập từ trang này (ví dụ: /article?source=email có tham số), nhưng tôi muốn bạn tập trung giá trị và cơ hội xếp hạng của nó vào địa chỉ là https://example.com/URL_chính_tắc.

Dựa trên tài liệu chính thức của Google và quan sát dữ liệu thu thập thông tin thực tế:

     

  • Về mặt thu thập thông tin: Công cụ tìm kiếm vẫn sẽ thu thập thông tin tất cả các phiên bản (bao gồm URL có tham số, có thư mục), nhưng sẽ điều chỉnh “mức độ quan tâm” đối với các trang này dựa trên thẻ canonical. Ví dụ, URL có tham số có thể vẫn được thu thập thông tin, nhưng bot sẽ không truy cập lại hoặc lập chỉ mục sâu thường xuyên như phiên bản chính tắc.
  •  

  • Về mặt lập chỉ mục: Khi nội dung của nhiều URL rất giống nhau (tỷ lệ trùng lặp vượt quá 80%), công cụ tìm kiếm thường chỉ đưa phiên bản chính tắc vào chỉ mục, và các phiên bản khác sẽ không được lập chỉ mục riêng lẻ, hoặc nếu được lập chỉ mục, chúng sẽ không tham gia vào cuộc cạnh tranh xếp hạng cốt lõi.
  •  

  • Về mặt giá trị: Nếu có liên kết bên ngoài trỏ đến bất kỳ phiên bản trùng lặp nào của URL, công cụ tìm kiếm sẽ tuân theo chỉ dẫn của thẻ canonical để “chuyển” hoặc “liên kết” giá trị liên kết bên ngoài đó đến phiên bản chính tắc (mặc dù nó không phải là chuyển 100% hoàn toàn, nhưng hiệu quả gần như vậy trong hầu hết các trường hợp).

Ví dụ cụ thể: Một bài viết blog được xuất bản đồng thời trên hai chuyên mục: “Đề xuất trang chủ” và “Chuyên mục công nghệ“, tạo ra hai URL:

     

  • https://example.com/home/recommend/123 (Đầu vào đề xuất trang chủ)
  •  

  • https://example.com/tech/article/123 (Đầu vào chuyên mục công nghệ)

Nội dung của cả hai hoàn toàn giống nhau, nhưng URL đề xuất trang chủ có lưu lượng truy cập lớn hơn và đã thu hút một số liên kết bên ngoài.

Nếu không có thẻ canonical, công cụ tìm kiếm có thể coi hai trang này là nội dung độc lập; mặc dù URL đề xuất trang chủ có liên kết bên ngoài, nhưng mục đích chuyên mục không theo chiều dọc (đề xuất trang chủ thường là nội dung tổng hợp), vì vậy nó có thể không có tiềm năng xếp hạng cao như chuyên mục công nghệ.

Khi đội ngũ kỹ thuật thêm thẻ canonical vào cả hai trang, trỏ đến https://example.com/tech/article/123 phù hợp với chủ đề nội dung, công cụ tìm kiếm sẽ nhận ra rõ ràng rằng “phiên bản có thẩm quyền của nội dung này là URL chuyên mục công nghệ”, và liên kết giá trị liên kết bên ngoài của đề xuất trang chủ cũng được liên kết, từ đó cải thiện sức cạnh tranh xếp hạng của trang đó đối với “từ khóa liên quan đến công nghệ”.

Điều gì xảy ra nếu không sử dụng thẻ Canonical

Lãng phí ngân sách thu thập thông tin của bot

Công cụ tìm kiếm có giới hạn “số lần thu thập thông tin mỗi ngày” mà họ phân bổ cho mỗi trang web (được gọi là “ngân sách thu thập thông tin”). Các trang quan trọng (trang chủ, nội dung được cập nhật thường xuyên) sẽ được ưu tiên thu thập thông tin.

Nếu trang web có một lượng lớn URL trùng lặp (ví dụ: một trang web thương mại điện tử có 10 loại tham số sắp xếp cho trang chi tiết sản phẩm, tạo ra hơn 1000 URL khác nhau), bot sẽ dành một phần ngân sách cho các trang “cùng nội dung nhưng khác URL” này, dẫn đến tần suất thu thập thông tin của các trang mới thực sự cần được thu thập thông tin (sản phẩm mới, tin tức được cập nhật) bị giảm.

Dữ liệu cho thấy, phân tích nhật ký bot của một trang web thương mại điện tử quần áo cho thấy các trang sản phẩm trùng lặp có tham số (ví dụ: ?size=M, ?color=blue) chiếm 22% tổng dung lượng thu thập thông tin, và tỷ lệ thoát của các trang này cao tới 85% (người dùng đang tìm kiếm sản phẩm cụ thể và sẽ không truy cập từ URL có tham số).

Sau khi trang web này thống nhất thêm thẻ canonical vào các trang chi tiết sản phẩm (trỏ đến URL cơ bản không có tham số), tần suất thu thập thông tin của bot đối với các trang sản phẩm cốt lõi đã tăng 30%, và thời gian cần thiết để lập chỉ mục các sản phẩm mới đã giảm từ trung bình 7 ngày xuống còn 3 ngày.

Gây nhầm lẫn phiên bản lập chỉ mục, xếp hạng không ổn định

Nếu không có định danh chính tắc, công cụ tìm kiếm có thể chọn ngẫu nhiên một URL làm “phiên bản hiển thị mặc định”, nhưng lựa chọn này không cố định.

Ví dụ, khi người dùng tìm kiếm một từ khóa cụ thể, có thể là phiên bản có www (https://www.example.com/page) được hiển thị, hoặc phiên bản không có www (https://example.com/page), hoặc thậm chí là phiên bản có tham số (https://example.com/page?from=social).

Trường hợp: Trang “Liên hệ” của một trang web dịch vụ địa phương có hai phiên bản tồn tại đồng thời: https://example.com/contacthttps://example.com/contact-us (nội dung hoàn toàn giống nhau), và không có thẻ canonical nào được thiết lập. Google đã lập chỉ mục hai URL này một cách riêng biệt trong các khoảng thời gian khác nhau, dẫn đến tình trạng người dùng tìm kiếm “liên hệ dịch vụ sửa chữa tại thành phố XX” có lúc phiên bản đầu tiên được xếp hạng cao hơn, có lúc phiên bản thứ hai được hiển thị.

Nếu người dùng nhấp vào phiên bản không phải là chính (ví dụ: contact-us), do sự khác biệt trong thiết kế điều hướng trang (ví dụ: thiếu nút đặt lịch trực tuyến), tỷ lệ chuyển đổi có thể giảm.

Sau đó, trang web này đã thêm thẻ canonical vào cả hai phiên bản, trỏ đến https://example.com/contact, và ba tháng sau, xếp hạng của trang đó đã được cải thiện, và tỷ lệ nhấp chuột từ tìm kiếm (CTR) tăng 11%.

Phân tán giá trị liên kết bên ngoài

Nếu nhiều phiên bản trùng lặp của URL được liên kết từ các trang web bên ngoài (ví dụ: ai đó sử dụng URL có tham số khi đăng lại nội dung, hoặc các liên kết mới được tạo khi phân phối đến trang chuyên mục), các liên kết bên ngoài này bị phân tán đến các địa chỉ khác nhau và công cụ tìm kiếm không thể tự động hợp nhất giá trị.

So sánh dữ liệu: Bài viết “Hướng dẫn luyện thi sau đại học” của một trang web giáo dục được đăng lại trên 5 trang web bên ngoài, trong đó 3 trang liên kết đến phiên bản không có tham số (https://example.com/guide/kaoyan), và 2 trang liên kết đến phiên bản có tham số (https://example.com/guide/kaoyan?from=partner).

Nếu không có thẻ canonical, công cụ tìm kiếm sẽ liên kết 5 liên kết bên ngoài này với các URL riêng biệt. Sau khi trang web này thêm thẻ canonical vào tất cả các phiên bản (trỏ đến phiên bản không có tham số), lưu lượng truy cập tìm kiếm tự nhiên của trang đó đã tăng 24% trong vòng sáu tháng.

Cú pháp cơ bản và cách viết thẻ canonical

Khoảng 32% các trang đặt thẻ canonical trong phần <body> (chứ không phải vùng <head> bắt buộc), 19% thiếu giao thức đầy đủ trong giá trị thuộc tính href (ví dụ: chỉ viết example.com thay vì https://example.com), và 15% các trang có nhiều URL trùng lặp trỏ đến các “phiên bản chính tắc” khác nhau (gây nhầm lẫn cho công cụ tìm kiếm).

Về mặt kỹ thuật triển khai, thẻ canonical về bản chất là một thẻ liên kết HTML đơn giản, nhưng vị trí thẻ (bắt buộc trong <head>), định dạng cú pháp (phải tuân thủ nghiêm ngặt theo tiêu chuẩn HTML) và URL được trỏ đến (phải hoàn toàn khớp với nội dung thực tế và có thể truy cập được) là rất quan trọng.

Dữ liệu cho thấy: Khi thẻ canonical được triển khai theo cú pháp chuẩn (nghĩa là đặt ở đầu <head>, sử dụng giao thức HTTPS đầy đủ, và trỏ đến một URL chính tắc duy nhất và chính xác), xác suất công cụ tìm kiếm nhận dạng và áp dụng thẻ đó đúng cách vượt quá 95%.

Ngược lại, đối với các trang có lỗi cú pháp, khoảng 60% ý định chuẩn hóa không được công cụ tìm kiếm chấp nhận, và vấn đề nội dung trùng lặp vẫn tồn tại.

Ví dụ, một trang web thương mại điện tử đã quên viết tiêu đề giao thức (viết //example.com/product hoặc example.com/product) khi thêm thẻ canonical vào trang chi tiết sản phẩm (ví dụ: phiên bản ?color=red có tham số), khiến Google không thể phân tích đúng URL đích.

Cấu trúc cú pháp tiêu chuẩn

Cú pháp hoàn chỉnh của thẻ canonical chỉ là một dòng mã HTML: <link rel=“canonical” href=“https://www.example.com/URL_hoàn_chỉnh_của_trang_chính_tắc” />

Dòng mã này bao gồm ba yếu tố cốt lõi, không thể thiếu bất kỳ yếu tố nào và thứ tự là cố định:

Loại thẻ: <link>

     

  • Đây là thẻ được sử dụng trong HTML để định nghĩa mối quan hệ giữa tài liệu và tài nguyên bên ngoài; thẻ canonical là một loại “mối quan hệ liên kết” và phải sử dụng <link> làm cấu trúc cơ bản.

Thuộc tính: rel="canonical"

     

  • rel là thuộc tính bắt buộc của thẻ <link>, được sử dụng để mô tả mối quan hệ giữa liên kết hiện tại và tài liệu hiện tại. Khi giá trị của nó được đặt thành canonical, nó thông báo rõ ràng cho công cụ tìm kiếm: “Thẻ này định nghĩa phiên bản chính tắc (có thẩm quyền) của nội dung trang hiện tại.”

Thuộc tính: href="URL"

     

  • href là một thuộc tính bắt buộc khác của thẻ <link>, được sử dụng để chỉ định địa chỉ web cụ thể của phiên bản chính tắc. URL này phải hoàn chỉnh và có thể truy cập được, bao gồm giao thức (http hoặc https), tên miền (www hoặc non-www), đường dẫn và tham số (nếu cần).

Ví dụ:

     

  • Cách viết đúng: href="https://www.example.com/products/shoes"
  •  

  • Cách viết sai 1 (thiếu giao thức): href="//www.example.com/products/shoes" (mặc dù trình duyệt có thể tự động hoàn thành, nhưng công cụ tìm kiếm có thể không phân tích chính xác)
  •  

  • Cách viết sai 2 (thiếu tên miền): href="/products/shoes" (là đường dẫn tương đối, công cụ tìm kiếm không thể xác định trang đó thuộc trang web nào)
  •  

  • Cách viết sai 3 (lỗi chính tả): href="https://www.exaple.com/products/shoes" (tên miền viết sai, trỏ đến một trang không tồn tại)

Các chi tiết khác:

     

  • Thẻ này nên kết thúc bằng / (nếu bản thân URL yêu cầu dấu gạch chéo cuối), mặc dù trong hầu hết các trường hợp, công cụ tìm kiếm hiện đại có khả năng chấp nhận cao hơn đối với sự hiện diện hay không của dấu gạch chéo (miễn là sự chuẩn hóa được thống nhất).
  •  

  • Thẻ phải được viết trên một dòng (ngắt dòng có thể gây lỗi trong một số công cụ phân tích, mặc dù công cụ tìm kiếm thường có thể tự động sửa chữa).
  •  

  • Phần đóng của thẻ là /> (thẻ tự đóng, mặc dù tiêu chuẩn HTML5 cho phép bỏ qua / cuối cùng, nhưng nên giữ lại để tương thích).

Tại sao nó bắt buộc phải nằm trong <head>

Bởi vì khi chương trình bot của công cụ tìm kiếm thu thập thông tin một trang, nó sẽ ưu tiên phân tích nội dung vùng <head> (đặc biệt là “lệnh điều khiển” như meta, tiêu đề, thẻ chính tắc), và sau đó mới xử lý nội dung thực tế trong <body>.

Nếu thẻ canonical bị đặt nhầm vào <body> (ví dụ: được lồng trong một đoạn văn bản bài viết hoặc mã chân trang), công cụ tìm kiếm có thể trực tiếp bỏ qua thẻ <link rel="canonical"> trong <body>.

Các điểm bổ sung khác:

     

  • Mỗi trang chỉ có thể có một thẻ canonical (nếu xuất hiện nhiều lần, công cụ tìm kiếm thường chỉ nhận dạng thẻ đầu tiên và bỏ qua phần còn lại).
  •  

  • Thẻ này không thể được lồng trong các thẻ khác (ví dụ: không thể đặt trong <div> hoặc <script>).
  •  

  • Đối với các trang được tạo động (được xuất ra thông qua các ngôn ngữ backend như PHP, Python), cần đảm bảo rằng công cụ tạo mẫu chèn thẻ canonical đúng cách vào vùng <head> khi xuất HTML (thường được kiểm soát bởi biến mẫu).

5 lỗi phổ biến nhất

Lỗi 1: Trỏ đến URL sai (phiên bản chính tắc không khớp với nhu cầu thực tế)

     

  • Hiện tượng: Thẻ canonical trỏ đến một URL có nội dung không hoàn toàn giống nhau (hoặc không phải là cùng một nội dung). Ví dụ, canonical của trang chi tiết sản phẩm (hiển thị giày đỏ) trỏ đến trang giày trắng.
  •  

  • Hậu quả: Công cụ tìm kiếm sẽ làm theo hướng dẫn sai và tập trung giá trị vào một trang không liên quan, dẫn đến xếp hạng của nội dung cốt lõi bị giảm.
  •  

  • Khắc phục: Kiểm tra nội dung thực tế của trang hiện tại và đảm bảo URL trong href trỏ đến phiên bản chính tắc “hiển thị cùng một nội dung hoàn toàn” (ví dụ: thống nhất về URL cơ bản không có tham số, hoặc trang chuyên mục phù hợp nhất với ý định tìm kiếm của người dùng).

Lỗi 2: Thiếu tiêu đề giao thức (chỉ viết tên miền, hoặc sử dụng đường dẫn tương đối)

     

  • Hiện tượng: Mã được viết là href="//example.com/page" (đường dẫn tương đối giao thức) hoặc href="/page" (đường dẫn tương đối).
  •  

  • Hậu quả: Công cụ tìm kiếm có thể không phân tích được địa chỉ đầy đủ của URL đích một cách chính xác (đặc biệt là khi chuyển qua các giao thức hoặc tên miền), khiến ý định chuẩn hóa bị vô hiệu.
  •  

  • Khắc phục: Luôn sử dụng giao thức đầy đủ + tên miền + đường dẫn, với định dạng href="https://www.example.com/page" (nên dùng giao thức https để bảo mật).

Lỗi 3: Xung đột giữa URL có tham số và phiên bản chính tắc

     

  • Hiện tượng: Phiên bản không có tham số của trang danh sách sản phẩm (https://example.com/products) là phiên bản chính tắc, nhưng phiên bản có tham số (ví dụ: https://example.com/products?sort=price) không trỏ đúng đến nó, mà lại trỏ đến một URL có tham số khác (ví dụ: ?sort=date).
  •  

  • Hậu quả: Nhiều phiên bản tham số trỏ lẫn nhau, tạo thành “chuẩn hóa vòng tròn” hoặc sự phân tán giá trị.
  •  

  • Khắc phục: Thống nhất canonical của tất cả các URL có tham số trỏ đến phiên bản cơ bản không có tham số (hoặc phiên bản sắp xếp/lọc được sử dụng thường xuyên nhất), đảm bảo tất cả các phiên bản biến thể đều trỏ đến cùng một địa chỉ chính tắc.

Lỗi 4: Thẻ được đặt trong <body>

     

  • Hiện tượng: Khi chỉnh sửa trang trong backend CMS, mã canonical bị dán nhầm vào vùng nội dung bài viết (<body>) thay vì vùng <head> của mẫu trang web.
  •  

  • Hậu quả: Bot công cụ tìm kiếm có thể bỏ qua thẻ đó, và trang trùng lặp không được chuẩn hóa đúng cách.
  •  

  • Khắc phục: Yêu cầu đội ngũ kỹ thuật kiểm tra file mẫu (ví dụ: header.php trong WordPress, theme.liquid trong Shopify) và đảm bảo thẻ canonical được xuất ra bên trong thẻ <head> của HTML.

Lỗi 5: Chồng chéo nhiều thẻ canonical

     

  • Hiện tượng: Do lỗi mẫu hoặc thêm thủ công, một trang xuất hiện nhiều thẻ <link rel="canonical"> (ví dụ: trỏ đến cả /page và /page/).
  •  

  • Hậu quả: Công cụ tìm kiếm thường chỉ nhận dạng thẻ đầu tiên và bỏ qua các thẻ sau, gây nhầm lẫn trong ý định chuẩn hóa.
  •  

  • Khắc phục: Kiểm tra mã và xóa các thẻ canonical thừa, đảm bảo mỗi trang chỉ có một chỉ dẫn chuẩn hóa.

Sự khác biệt giữa canonical và các thẻ khác (noindex, 301 chuyển hướng, v.v.)

Thẻ canonical là “chỉ định phiên bản có thẩm quyền của cùng một nội dung” (giữ lại tất cả các URL nhưng tập trung giá trị), thẻ noindex là “cấm công cụ tìm kiếm lập chỉ mục trang hiện tại” (cho phép thu thập thông tin nhưng không hiển thị trong kết quả tìm kiếm), và chuyển hướng 301 là “chuyển hướng vĩnh viễn từ URL cũ sang URL mới” (chuyển hoàn toàn lưu lượng truy cập và giá trị).

Sự khác biệt bản chất giữa chuẩn hóa, cấm và chuyển tiếp

Thẻ canonical (thẻ chuẩn hóa): Được sử dụng cho “tình huống nhiều URL có cùng một nội dung”, nhằm mục đích thông báo cho công cụ tìm kiếm: “Nội dung của các trang này thực sự giống nhau, nhưng tôi muốn bạn chỉ tập trung sự chú ý, phân bổ giá trị xếp hạng vào URL mà tôi chỉ định này (phiên bản chính tắc).”

     

  • Các tình huống điển hình: Trang chi tiết sản phẩm thương mại điện tử có tham số (ví dụ: ?color=red và ?color=blue), bài báo tin tức được phân phối đến nhiều chuyên mục (ví dụ: “Tin mới nhất” và “Xu hướng ngành”), URL của phiên bản di động và PC khác nhau nhưng nội dung giống nhau.

Thẻ noindex (thẻ cấm lập chỉ mục): Được sử dụng cho “tình huống cho phép thu thập thông tin nhưng cấm hiển thị trong kết quả tìm kiếm”, nhằm mục đích thông báo cho công cụ tìm kiếm: “Bạn có thể thu thập thông tin trang này, nhưng đừng đưa nó vào chỉ mục kết quả tìm kiếm.”

     

  • Các tình huống điển hình: Các trang quản trị nội bộ (ví dụ: trang đăng nhập, trang thống kê backend), các trang sự kiện tạm thời (không cần giữ lại xếp hạng sau khi sự kiện kết thúc), các trang có nội dung giá trị thấp (ví dụ: phiên bản in, trang chuyển đổi tiếng phồn thể/giản thể).

Chuyển hướng 301 (chuyển tiếp vĩnh viễn): Được sử dụng cho “tình huống nội dung đã chuyển đi vĩnh viễn”, thông qua cài đặt máy chủ (ví dụ: file .htaccess hoặc quy tắc Nginx) để tự động chuyển hướng người dùng và công cụ tìm kiếm từ URL cũ sang URL mới. Giá trị (bao gồm xếp hạng, liên kết bên ngoài, độ tin cậy của người dùng) của URL cũ sẽ dần dần chuyển sang URL mới, và URL cũ có thể sẽ không còn được truy cập nữa (nhưng chuyển tiếp vẫn hiệu lực).

     

  • Các tình huống điển hình: Thay đổi tên miền trang web (ví dụ: chuyển từ example.com sang newexample.com), điều chỉnh cấu trúc URL (ví dụ: thay đổi /old-product/ thành /products/new-product/), hợp nhất nhiều trang cũ thành một trang mới.
Công cụCho phép thu thập thông tinCho phép lập chỉ mụcCó thay đổi URLMục đích cốt lõi
canonical✅ Cho phép❌ Không khuyến khích lập chỉ mục (nhưng có thể được lập chỉ mục)❌ Không thay đổiTập trung giá trị của nhiều nội dung giống nhau vào phiên bản chính tắc
noindex✅ Cho phép❌ Cấm❌ Không thay đổiNgăn trang hiển thị trong kết quả tìm kiếm
Chuyển hướng 301❌ Tự động chuyển tiếp❌ URL cũ không được lập chỉ mục✅ Chuyển tiếp đến URL mớiChuyển giá trị và lưu lượng truy cập của URL cũ sang địa chỉ mới

So sánh cách sử dụng trong 4 tình huống phổ biến

Tình huống 1: Cùng một nội dung có nhiều URL (ví dụ: trang sản phẩm có tham số)

     

  • Vấn đề: Trang chi tiết sản phẩm có thể truy cập qua cả https://example.com/producthttps://example.com/product?color=red, nội dung hoàn toàn giống nhau.
  •  

  • Công cụ đúng: canonical. Thêm thẻ canonical vào URL có tham số (?color=red), trỏ đến URL cơ bản không có tham số (https://example.com/product), thông báo cho công cụ tìm kiếm: “Phiên bản có thẩm quyền của nội dung này là trang không có tham số.”
  •  

  • Lý do không chọn noindex/301: noindex sẽ ngăn trang có tham số lập chỉ mục (mặc dù vẫn có thể được thu thập thông tin), nhưng người dùng có thể truy cập qua liên kết đó, và công cụ tìm kiếm vẫn cần phải xác định đâu là phiên bản chính. Chuyển hướng 301 sẽ buộc người dùng và bot phải chuyển đi, nhưng người dùng có thể cần truy cập qua các tham số khác nhau (ví dụ: để so sánh các màu khác nhau), không phù hợp để chuyển hướng bắt buộc.

Tình huống 2: Trang không cần hiển thị trong kết quả tìm kiếm nữa (ví dụ: trang sự kiện đã hết hạn)

     

  • Vấn đề: Một trang sự kiện khuyến mãi (https://example.com/promo) đã kết thúc, người dùng có thể truy cập qua dấu trang hoặc liên kết bên ngoài, và không cần xếp hạng.
  •  

  • Công cụ đúng: noindex. Thêm thẻ <meta name="robots" content="noindex"> vào <head> của trang sự kiện (hoặc cài đặt qua CMS), cho phép công cụ tìm kiếm thu thập thông tin trang (ví dụ: để xác nhận hồ sơ sự kiện), nhưng không đưa nó vào chỉ mục.
  •  

  • Lý do không chọn canonical/301: canonical không giải quyết được vấn đề “không hiển thị trang trong kết quả tìm kiếm” (nó chỉ tập trung giá trị). Chuyển hướng 301 yêu cầu chỉ định một URL mới (mà trang sự kiện không có địa chỉ mới tương ứng), và người dùng có thể cần truy cập trang gốc để xem thông tin lịch sử.

Tình huống 3: Thay đổi tên miền trang web hoặc điều chỉnh cấu trúc URL (ví dụ: di chuyển trang sản phẩm cũ)

     

  • Vấn đề: Trang sản phẩm cũ (https://old.example.com/item1) đã chuyển vĩnh viễn sang địa chỉ mới (https://new.example.com/products/item1), và cần giữ lại giá trị liên kết bên ngoài ban đầu và thói quen truy cập của người dùng.
  •  

  • Công cụ đúng: Chuyển hướng 301. Cài đặt thông qua cấu hình máy chủ (ví dụ: file .htaccess của Apache) để khi người dùng hoặc bot truy cập URL cũ, họ sẽ tự động được chuyển hướng đến URL mới. Xếp hạng, giá trị liên kết bên ngoài của URL cũ sẽ dần dần chuyển sang URL mới (thường mất vài tuần đến vài tháng), và URL cũ cuối cùng có thể sẽ không còn được truy cập trực tiếp nữa (nhưng chức năng chuyển tiếp vẫn được giữ lại).
  •  

  • Lý do không chọn canonical/noindex: canonical không thể đạt được việc chuyển lưu lượng truy cập (người dùng sẽ vẫn ở URL cũ). noindex sẽ ngăn URL cũ lập chỉ mục, nhưng giá trị liên kết bên ngoài sẽ không được chuyển đi, và người dùng không thể truy cập nội dung mới từ liên kết cũ.

Tình huống 4: URL của phiên bản di động và PC độc lập (ví dụ: m.example.com và www.example.com)

     

  • Vấn đề: Cùng một nội dung có các URL độc lập cho phiên bản di động (https://m.example.com/page) và PC (https://www.example.com/page), nội dung hoàn toàn giống nhau.
  •  

  • Công cụ đúng: Ưu tiên canonical (trỏ đến URL phiên bản PC) hoặc thống nhất URL bằng thiết kế đáp ứng. Nếu phiên bản di động là một điểm truy cập bắt buộc (ví dụ: người dùng có thói quen truy cập qua m.example.com), hãy thêm thẻ canonical vào trang phiên bản di động, trỏ đến URL chính tắc của phiên bản PC, đồng thời có thể chuyển hướng 301 một số liên kết phiên bản di động cũ sang phiên bản PC (tùy chọn).
  •  

  • Lý do không chọn noindex: noindex sẽ khiến một trong các phiên bản di động hoặc PC không được lập chỉ mục, và một số nhu cầu tìm kiếm của người dùng có thể không được đáp ứng (ví dụ: người dùng di động không thể tìm thấy nội dung phù hợp khi tìm kiếm).

Cách viết mã và sự khác biệt về logic hiệu quả

Thẻ canonical: Mã HTML, phụ thuộc vào sự phân tích của công cụ tìm kiếm

     

  • Cách viết mã: Thêm <link rel="canonical" href="https://URL_chuẩn" /> vào phần <head> của trang cần chuẩn hóa (đã giải thích trong chương trước).

Logic hiệu quả: Khi công cụ tìm kiếm thu thập thông tin trang, nó đọc thẻ này, ghi lại “phiên bản chính tắc của trang này là XXX”, và trong các tính toán xếp hạng và phân bổ giá trị sau đó, nó sẽ ưu tiên phiên bản chính tắc. Tuy nhiên, các phiên bản khác của trang vẫn có thể được thu thập thông tin (trừ khi có các hạn chế khác).

Thẻ noindex: Thẻ meta HTML hoặc tiêu đề phản hồi HTTP, phụ thuộc vào sự tuân thủ quy tắc của bot

     

  • Cách viết mã: Thường thêm <meta name="robots" content="noindex"> vào <head> của trang (áp dụng cho hầu hết các tình huống), hoặc trả về tiêu đề phản hồi HTTP X-Robots-Tag: noindex qua máy chủ (áp dụng cho các trang động).

Logic hiệu quả: Công cụ tìm kiếm phát hiện chỉ dẫn này khi thu thập thông tin trang, và nếu xác nhận trang đáp ứng các điều kiện noindex (ví dụ: không phải là trang spam), nó sẽ không thêm trang vào chỉ mục. Tuy nhiên, trang vẫn được thu thập thông tin (trừ khi bị chặn bởi robots.txt), và người dùng có thể truy cập qua liên kết trực tiếp.

Chuyển hướng 301: Cài đặt máy chủ, chuyển lưu lượng truy cập bắt buộc

Cách viết mã: Được triển khai thông qua công nghệ máy chủ. Ví dụ:

     

  • Máy chủ Apache: Thêm Redirect 301 /old-page https://example.com/new-page vào file .htaccess.
  •  

  • Máy chủ Nginx: Thêm return 301 https://example.com/new-page; vào file cấu hình.
  •  

  • Hệ thống CMS (ví dụ: WordPress): Thiết lập quy tắc chuyển tiếp thông qua plugin (ví dụ: Redirection).

Logic hiệu quả: Khi người dùng hoặc công cụ tìm kiếm truy cập URL cũ, máy chủ sẽ tự động trả về mã trạng thái 301 và chuyển hướng đến URL mới, và thanh địa chỉ trình duyệt sẽ hiển thị địa chỉ mới. Giá trị của URL cũ sẽ dần dần (thường mất vài tuần đến vài tháng) chuyển sang URL mới, và URL cũ cuối cùng có thể sẽ không còn được truy cập trực tiếp nữa (nhưng chức năng chuyển tiếp vẫn được giữ lại).

滚动至顶部