微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:[email protected]

Cách sử dụng Screaming Frog để làm SEO | Hướng dẫn năm 2025

本文作者:Don jiang

Những người làm Google SEO đều biết rằng, công cụ là đòn bẩy của hiệu suất. Lấy Screaming Frog làm ví dụ, công cụ thu thập dữ liệu này có thể hoàn thành khối lượng công việc 8 giờ của con người trong vòng 20 phút: nó có thể thu thập mọi URL trên trang web của bạn, định vị chính xác 80-120 vấn đề SEO thường gặp (như link chết 404, tiêu đề trùng lặp, hình ảnh thiếu thuộc tính Alt).

Bài viết này sẽ dẫn dắt bạn từ cài đặt thiết lập đến thực thi dữ liệu, biến Screaming Frog thành “kính hiển vi SEO” của bạn.

Cách sử dụng Screaming Frog để làm SEO

Cài đặt và Thiết lập cơ bản

Cài đặt Screaming Frog nghe có vẻ giống như một thao tác đơn giản “nhấp vài lần nút Tiếp theo”, nhưng có người dùng phản hồi rằng, do không chú ý đến khả năng tương thích của hệ thống khi cài đặt, dẫn đến phần mềm phiên bản Mac chạy bị giật lag, tốc độ thu thập chậm hơn 40% so với bình thường;

Cũng có người tùy ý thiết lập độ sâu thu thập, kết quả là một trang web nhỏ mà thu thập mất 2 giờ vẫn chưa xong các trang cốt lõi.

Chuẩn bị trước khi cài đặt

1. Khả năng tương thích hệ thống

Screaming Frog hỗ trợ Windows 10/11 (64-bit) và macOS 10.15 trở lên. Nếu máy tính của bạn là Windows 7 hoặc macOS 10.14, tải trực tiếp gói cài đặt sẽ nhận được thông báo “không tương thích”, cố tình chạy có thể gây ra lỗi (thực tế tỷ lệ lỗi ở người dùng Win7 khoảng 35%).

2. Vấn đề quyền hạn

  • Windows: Khuyên dùng tài khoản Administrator để cài đặt (nhấp chuột phải vào gói cài đặt → “Run as administrator”), nếu không có thể do thiếu quyền hạn mà không thể ghi dữ liệu thu thập (lỗi thường gặp: “Không thể lưu tệp nhật ký”).
  • Mac: Có cần tắt “System Integrity Protection” (SIP) không? Không cần, nhưng khi chạy lần đầu có thể cần nhấp vào “Vẫn mở” trong “System Preferences → Security & Privacy”, nếu không sẽ bị chặn (khoảng 20% người dùng Mac sẽ bị kẹt ở bước này).

3. Môi trường mạng

Trước khi thu thập hãy tắt các phần mềm proxy (như VPN, trình tăng tốc), độ trễ mạng nội bộ vượt quá 200ms sẽ khiến tốc độ thu thập giảm 50% (thực tế: với độ trễ 200ms, thu thập 10 mục mỗi giây; với độ trễ 50ms, thu thập 25 mục mỗi giây).

Cài đặt chính thức

Hệ điều hành Windows

  1. Truy cập trang web chính thức của Screaming Frog (www.screamingfrog.co.uk), nhấp vào “Download Free Version” (bản miễn phí đủ dùng cho các trang web vừa và nhỏ);
  2. Chọn “Windows Installer”, sau khi tải về hoàn tất thì nhấp đúp để chạy;
  3. Chọn đường dẫn cài đặt theo hướng dẫn (khuyên dùng ổ C mặc định để tránh mất tệp cấu hình sau này), tích chọn “Tạo lối tắt trên màn hình”, nhấp vào “Cài đặt”;
  4. Sau khi cài đặt xong, biểu tượng con nhện xanh sẽ xuất hiện trên màn hình, nhấp đúp để mở.

Hệ điều hành macOS

  • Tương tự tải về từ trang web chính thức, chọn “macOS DMG”;
  • Nhấp đúp vào tệp .dmg đã tải về, kéo biểu tượng “Screaming Frog SEO Spider” vào thư mục “Applications”;
  • Khi mở lần đầu, hệ thống có thể thông báo “không thể mở vì nó đến từ nhà phát triển không xác định”, hãy vào “System Preferences → Security & Privacy”, nhấp vào “Vẫn mở” là được.

4 thiết lập cơ bản

Sau khi cài đặt xong, lần đầu tiên mở phần mềm cần cấu hình các tham số “Con nhện” (Spider).

Nếu thiết lập sai, dữ liệu thu thập sau đó có thể hoàn toàn vô dụng.

Người đại diện người dùng (User Agent)

  • Tác dụng: Nói với máy chủ trang web “Tôi là ai”, User Agent của Googlebot là “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”.
  • Cách thiết lập: Nhấp vào menu trên cùng 「Configuration → Spider」, trong hộp thả xuống “User Agent” chọn “Googlebot” (mặc định là “Screaming Frog”).
  • Tại sao quan trọng: Nếu dùng User Agent “Screaming Frog” mặc định, một số trang web sẽ chặn bot (ví dụ thiết lập “Disallow: /screamingfrog”), dẫn đến không thể lấy nội dung; dùng “Googlebot” có thể mô phỏng bot thực của Google, lấy được dữ liệu thu thập gần với thực tế hơn (thực tế: sau khi chuyển đổi, tỷ lệ thu thập thành công của một trang web thương mại điện tử tăng từ 65% lên 92%).

Độ sâu thu thập (Crawl Depth)

  • Định nghĩa: Bắt đầu từ trang chủ, nhấp tối đa bao nhiêu tầng liên kết (ví dụ Trang chủ → Trang danh mục → Trang sản phẩm là 3 tầng).
  • Gợi ý thiết lập:
    • Trang web vừa và nhỏ (số trang ≤ 1000): Thiết lập 5 tầng (bao phủ hơn 90% các trang cốt lõi);
    • Trang web lớn (số trang > 1000): Thiết lập 10 tầng, nhưng cần phối hợp với “Giới hạn số lượng thu thập” (xem bên dưới) để tránh thời gian thu thập quá dài (10 tầng có thể khiến thời gian thu thập kéo dài từ 10 phút lên 1 giờ).

Giới hạn số lượng thu thập (Max URLs to Crawl)

  • Tác dụng: Ngăn chặn tình trạng do trang web có quá nhiều liên kết (như diễn đàn, trang cuộn vô tận) dẫn đến phần mềm thu thập mãi không dừng.
  • Cách thiết lập: Trong 「Configuration → Spider」 tích chọn “Limit number of URLs to crawl”, nhập giá trị cụ thể (trang nhỏ và vừa khuyên dùng 5000-10000 mục, trang lớn không quá 50.000 mục).
  • Hậu quả nếu không thiết lập: Từng có người dùng thu thập một trang thương mại điện tử có liên kết động “sản phẩm gợi ý”, vì không giới hạn số lượng, phần mềm đã thu thập trong 24 giờ, cuối cùng lấy được 230.000 URL (trong đó 80% là trang chi tiết sản phẩm trùng lặp).

Loại trừ tham số (Exclude Parameters)

  • Vấn đề: Rất nhiều URL trang web mang tham số thừa (ví dụ ?utm_source=weibo, ?page=2), các tham số này không ảnh hưởng đến nội dung nhưng sẽ bị Screaming Frog nhận diện là URL khác nhau, dẫn đến thu thập trùng lặp (ví dụ “Trang sản phẩm” và “Trang sản phẩm?page=2” sẽ được tính thành 2 URL).
  • Cách thiết lập: Nhấp vào 「Configuration → Exclude」, trong “Query Parameters” nhập các tham số cần lọc (phân cách bằng dấu phẩy), ví dụ “utm_source,utm_medium,page”.
  • Hiệu quả: Một trang web giáo dục sau khi lọc 12 tham số theo dõi, số lượng URL thu thập đã giảm từ 12.000 mục xuống còn 4.500 mục, thời gian thu thập rút ngắn 40%.

Chạy thử “Thu thập nhỏ” với trang chủ

Sau khi thiết lập xong, đừng vội thu thập toàn trang – hãy nhập URL trang chủ trước, nhấp “Bắt đầu” để chạy một đợt thử nghiệm phạm vi nhỏ (giới hạn số lượng thu thập là 100 mục), kiểm tra 3 điều:

  1. Có bỏ sót trang quan trọng không: Ví dụ “Về chúng tôi”, “Liên hệ” trong thanh điều hướng trang chủ có được lấy không (tìm kiếm từ khóa trong báo cáo 「Internal」);
  2. Có URL trùng lặp không: Trong báo cáo 「URL」, xem có các phiên bản tham số khác nhau của cùng một trang không;
  3. Có kích hoạt 404 không: Kiểm tra mã trạng thái 404 trong 「Response Codes」, xác nhận không thu thập phải các trang đã bị xóa.

Khởi động nhanh một đợt thu thập cơ bản

Nhiều người nghĩ rằng “nhấp bắt đầu” là toàn bộ quá trình thu thập, nhưng thực tế 30% mọi người thất bại do bỏ qua chi tiết khiến dữ liệu không hiệu quả.

3 kiểm tra trước khi khởi động

1. Xác nhận thiết lập cơ bản đã hoàn tất

  • User Agent: Phải thiết lập là “Googlebot” (kiểm tra trong 「Configuration → Spider」), nếu không có thể bị trang web chặn.
  • Độ sâu thu thập: Điều chỉnh theo quy mô trang web để tránh bỏ sót trang hoặc lãng phí thời gian.
  • Loại trừ tham số: Lọc các tham số theo dõi vô dụng để giảm URL trùng lặp.

2. Kiểm tra độ ổn định của mạng

  • Yêu cầu độ trễ: Độ trễ từ máy nội bộ đến trang web mục tiêu tốt nhất là ≤100ms (kiểm tra bằng lệnh 「ping tên-miền」).
  • Tránh nhiễu: Tắt VPN, trình tăng tốc hoặc công cụ tải xuống.

3. Xác nhận trang web mục tiêu có thể truy cập

  • Nhập trực tiếp URL mục tiêu vào trình duyệt để kiểm tra xem có mở bình thường không.
  • Nếu trang web có giới hạn đăng nhập, cần đăng xuất trước (Screaming Frog không thể xử lý trạng thái đăng nhập).

Thao tác 4 bước, 10 phút có kết quả

1. Nhập URL mục tiêu

  • Yêu cầu định dạng: Phải nhập URL đầy đủ (bao gồm http:// hoặc https://).

2. Thiết lập điều kiện giới hạn (Tùy chọn nhưng khuyên dùng)

  • Giới hạn số lượng thu thập: Trong 「Configuration → Spider」 tích chọn “Limit number of URLs to crawl”.
  • Loại trừ trang cụ thể: Thêm quy tắc “Disallow” trong 「Configuration → Exclude」 để tránh thu thập nội dung không liên quan.

3. Nhấp “Bắt đầu”, quan sát trạng thái thời gian thực

  • Thanh tiến trình: Hiển thị tiến độ thu thập tổng thể (Xanh = bình thường, Vàng = chậm lại, Đỏ = kẹt).

4. Xử lý vấn đề giữa chừng

  • Kẹt không chạy: Kiểm tra mạng, tạm dừng thủ công và khởi động lại, hoặc thay đổi User Agent thành “Bingbot”.

Thu thập hoàn tất

Sau khi kết thúc, cần làm 3 việc để xác nhận chất lượng dữ liệu:
1. Xem tổng số thu thập có hợp lý không.
2. Kiểm tra các trang quan trọng có được thu thập không.
3. Xem có lượng lớn mã trạng thái lỗi không.

Giải mã báo cáo SEO (Tập trung vào 6 mục này)

Những người làm SEO thường nói “dữ liệu không biết nói dối”, nhưng trong hàng chục báo cáo của Screaming Frog, thông tin ảnh hưởng đến thứ hạng Google nằm trong 6 báo cáo này.

Báo cáo mã trạng thái phản hồi

Báo cáo này ghi lại mã trạng thái HTTP của mỗi trang, mã trạng thái không đúng, bot có thể bỏ qua trang của bạn trực tiếp.
Dữ liệu và thao tác chính

  • 200 (Bình thường): Tỷ lệ nên >85%.
  • 404 (Link chết): Thường gặp khi xóa trang mà không dọn dẹp liên kết. Thao tác: Xuất danh sách 404 → Xóa link hoặc thiết lập chuyển hướng 301.
  • 301/302 (Chuyển hướng): Ưu tiên dùng 301 chuyển hướng vĩnh viễn để truyền sức mạnh (weight).

Báo cáo Độ dài và Cấu trúc URL

Bot Google có “sự kiên nhẫn” hữu hạn với URL dài, URL càng dài, xác suất được thu thập đầy đủ càng thấp.
Dữ liệu và thao tác chính

  • Phân bổ độ dài: Lọc URL có độ dài >100 ký tự và rút ngắn chúng.
  • Tham số động: URL mang quá nhiều tham số cần được tối ưu hóa.

Báo cáo Thẻ tiêu đề (Title Tag)

Tiêu đề là căn cứ cốt lõi để Google phán đoán chủ đề trang, tiêu đề trùng lặp hoặc vô hiệu sẽ trực tiếp làm giảm thứ hạng.
Dữ liệu và thao tác chính

  • Tỷ lệ trùng lặp: Đảm bảo mỗi trang có tiêu đề duy nhất.
  • Phân bổ độ dài: Độ dài lý tưởng là 50-60 ký tự.

Báo cáo Mô tả Meta (Meta Description)

Mô tả meta không ảnh hưởng trực tiếp đến thứ hạng, nhưng quyết định người dùng có nhấp vào trang của bạn hay không.
Dữ liệu và thao tác chính

  • Tỷ lệ thiếu: Viết bổ sung mô tả thủ công (kiểm soát trong 150-160 ký tự).

Báo cáo thẻ H1

H1 là tiêu đề chính của trang, Google phán đoán nội dung cốt lõi của trang thông qua H1 (một trang tốt nhất chỉ nên có 1 thẻ H1).

Báo cáo thuộc tính Alt của hình ảnh

Thuộc tính Alt là mô tả bằng chữ của hình ảnh, thiếu hoặc nhồi nhét từ khóa vào Alt sẽ lãng phí lưu lượng tìm kiếm hình ảnh.

Kiểm tra hàng loạt vấn đề liên kết nội bộ (Internal Link)

Chúng tôi đã thống kê: các trang web không kiểm tra link nội bộ hàng loạt có trung bình 15-20% số trang không thể được lập chỉ mục hiệu quả do lỗi link nội bộ.

Link nội bộ chết

Link nội bộ chết chỉ các liên kết trong trang trỏ đến các trang đã xóa hoặc không thể truy cập (mã trạng thái 404). Người dùng nhấp vào các link này sẽ thoát ra ngay lập tức, bot cũng sẽ giảm việc thu thập trang đó.

Trang mồ côi (Orphan Pages)

Trang mồ côi chỉ những trang có nội dung nhưng không có bất kỳ link nội bộ nào trỏ đến nó. Xác suất thu thập trang này thấp hơn 60% so với trang có link nội bộ.

Tập trung sức mạnh (Link Equity)

Chỉ tình trạng trang chủ hoặc một số ít trang cốt lõi có quá nhiều liên kết, dẫn đến bot bị “phân tán sức lực”, các trang quan trọng khác nhận được ít cơ hội thu thập hơn.

3 mẹo xử lý hàng loạt

  1. Dùng Excel lọc các vấn đề tần suất cao.
  2. Ưu tiên xử lý link nội bộ của các trang có sức mạnh cao: Link của trang chủ, trang danh mục có phạm vi ảnh hưởng lớn nhất.
  3. Kiểm tra lại định kỳ.

Cuối cùng, công cụ chỉ là hỗ trợ, cốt lõi của thứ hạng Google luôn là “nội dung người dùng cần

滚动至顶部