Robots.txt là gì? Hướng dẫn tạo robots.txt cho website

Chắc hẳn bạn đang băn khoăn làm sao một Robot của công cụ tìm kiếm có thể phân tích một Website để Index trong SEO? Vậy muốn Googlebot nhanh Index trang Web của bạn hay không Index một trang cụ thể thì làm thế nào? Những chia sẻ về File Robots.txt là gì sẽ giải đáp giúp bạn.

Robots.txt là gì

Robots.txt là một file văn bản dùng để khai báo cho trình thu thập dữ liệu (crawler) những nơi được thu thập những dữ liệu nào trong website.

Nói một cách đơn giản, dễ hiểu thì robots.txt giống như một văn bản nội dung khi có một vị khách đến nhà bạn chơi, bạn sẽ nói cho họ biết họ được phép làm gì và không được phép làm gì.

Cú pháp file robots.txt

User-Agent: *

Allow: /wp-content/uploads/

Disallow: /wp-content/plugins/

Disallow: /wp-admin/

Sitemap: https://example.com/sitemap_index.xml

Trong đó:

  • User-Agent: là dùng để khai báo tên bot được phép thu thập và không thu thập. Trong ví dụ trên để dấu * có nghĩa là file này áp dụng cho tất cả các bot trên internet
  • Allow: [đường dẫn] . Đây là câu lệnh CHO PHÉP đọc trong khu vực [đường dẫn]
  • Disallow: [đường dẫn] . Đây là câu lệnh KHÔNG CHO PHÉP đọc trong khu vực [đường dẫn]
  • Sitemap: [link sitemap] . Đây là chỉ định link sitemap của website để robot dễ dàng truy cập hơn.

Xem ngay! Search Engine Optimization là gì?

Tại sao phải cần có file robots.txt

Thông thường, một website sẽ được tạo bởi nhiều thư mục khác nhau: thư mục chứa ảnh, thư mục quản lý database… Chỉ một vài thư mục là sẽ được xuất hiện cho người dùng thấy, mỗi khi họ truy cập vào website, và cũng chỉ một vài thư mục nên được Google đọc (vì khi Google đọc nhiều quá nó sẽ bị loạn, dẫn đến tình trạng quét các dữ liệu không cần thiết).

Robots.txt sinh ra có nhiệm vụ giúp bọ Google đọc dữ liệu ĐÚNG NƠI – ĐÚNG CHỖ và giúp bọ Google tập trung vào những nội dung cần thiết.

Một số trường hợp sử dụng phổ biến bao gồm:

  • Chỉ định thư mục website được phép thu thập và không được thu thập.
  • Chỉ định liên kết website được phép thu thập và không được thu thập nhằm tối ưu ngân sách thu thập dữ liệu
  • Chỉ định vị trí của sơ đồ trang web (sitemap).
  • Ngăn chặn các bot thu thập dữ liệu, một ví dụ điển hình cho trường hợp này là ngăn chặn bot Ahrefs thu thập dữ liệu.

> Tìm hiểu sitemap là gì?

Cách tạo file robots.txt cho website WordPress

Có 2 cách tạo file robots.txt đơn giản mà mình thường sử dụng trong suốt thời gian qua. Với cách 1 – sử dụng plugin Yoast SEO thì bạn chỉ có thể áp dụng cho website làm bằng WordPress, với những bạn làm bằng mã nguồn khác thì xem cách 2 – upload trực tiếp.

1. Sử dụng Yoast SEO Plugin

Yoast SEO là một plugin phổ biến nhất trong SEO, có công dụng tối ưu nhanh các yếu tố quan trọng trong SEO. Nếu bạn chưa biết thì có thể xem qua video này.

Sau khi bạn cài đặt plugin này xong chuyển tới tab SEO > Tools (công cụ) trong dashboard quản trị website của bạn,

Nhấp vào File Editor (Trình chỉnh sửa tập tin)

Có một nút gọi là  Create robots.txt file (tạo file robots.txt), sẽ giúp bạn tạo file robots.txt:

Nhập đoạn mã theo cú pháp chuẩn (đã giới thiệu phần đầu) theo ý muốn vào khung và lưu lại.

Vậy là xong, bạn đã tạo xong file robots.txt chuẩn cho WordPress.

2. Tạo và upload file robots.txt trực tiếp lên hosting

Cách này có thể dùng cho những bạn không sử dụng WordPress. Tuy nhiên, bắt buộc bạn phải có quyền quản trị hosting để chèn file.

Cách tạo file txt khá đơn giản, bạn chỉ cần mở notepad trên máy tính và lưu file với tên “robots.txt” là ok.

Sau đó, bạn nhập đoạn mã robots chuẩn, theo ý mình và lưu lại. Ở đây tôi sẽ tạo sẵn 1 file cho bạn về chỉnh sửa lại cho nhanh.

https://drive.google.com/file/d/1EE7MjymVueyZsCCTm7d2Z0jfbHyxQfny/view?usp=sharing

Mình nghĩ đa số những bạn dùng cách upload trực tiếp này, một là IT lập trình website, hai là các bạn tự mò mẫm làm website nên các bạn sẽ có quyền truy cập vào trang quản trị hosting/server. Hiện nay, các nhà cung cấp hosting đã tạo ra giao diện quản trị hosting rất trực quan nên việc chèn file vào thư mục website đơn giản đi rất nhiều.

Bạn hãy upload lên file thư mục gốc của website public_html là thành công.

Nếu bạn vẫn chưa rõ, và hosting của bạn đang sử dụng Cpanel thì hãy xem các hình sau

  1. Vào File Manager trên Cpanel

  1. Truy cập vào public_html

  1. Nếu website của bạn đặt trực tiếp tại public_html thì chỉ cần Upload file lên hosting

  1. Nếu trường hợp website bạn không đặt trực tiếp trong public_html mà đặt trong folder nào đó thì phải vào đúng folder đó để upload file lên. Quan trọng là bạn phải upload lên thư mục gốc của website để tạo ra đường link https:domain/robots.txt

Cách kiếm tra và submit file robots.txt

Khi file chuẩn WordPress robots.txt đã được tạo và upload thành công, bạn có thể dùng  Google Search Console để kiểm tra thử nó xem có lỗi không.

Để sử dụng, bạn đăng nhập vào Google Search Console: https://search.google.com/search-console/about?hl=vi

Sau đó bấm vào link sau:

https://www.google.com/webmasters/tools/robots-testing-tool

Chọn trang web cần kiểm tra robots.txt

Sau đó nhập đường dẫn muốn kiểm tra vao ô như hình và bấm KIỂM TRA

Nếu báo chặn là robots.txt của bạn đã hoạt động chặn link đó.

Xem thêm cách Submit URL lên Google mới nhất

Một số lưu ý Technical SEO khi sử dụng file robots.txt

  • Đảm bảo rằng không chặn crawler truy cập vào những trang bạn muốn google index.
  • Nhưng nếu bạn không muốn được index nhưng vẫn muốn link juice chạy qua thì dùng meta robots tag.
  • Nếu một trang bị chặn bởi robots.txt nhưng có quá nhiều liên kết tới thì vẫn được bot thu thập dữ liệu.
  • Có rất nhiều loại Crawler (User-agent). Bạn có thể chỉ đích danh từng loại bot để có hiệu quả mong muốn tốt hơn. Tìm hiểu Web Crawler là gì
  • Nếu bạn có điều chỉnh file robots.txt hãy quay lại mục phía trên để submit.
  • Webpage gắn thẻ noindex nhưng phải đợi bot thu thập thông tin và mất index. Sau đó mới chặn trên robots.txt.

Nguồn tham khảo: Create and submit a robots.txt file | Google Search Central

Tham khảo ngay trung tâm đào tạo SEO Thiết Kế Web Số 1!