Trang chủ » File robots.txt là gì? Cách tạo file robots txt cho WordPress

File robots.txt là gì? Cách tạo file robots txt cho WordPress

by admin

Robots.txt là một trong những file có vai trò quan trọng đối với việc SEO website. Vậy file robots.txt là gì? Cách tạo file robots txt cho WordPress thế nào? Cùng chúng tôi tìm hiểu chi tiết nhé!

1. File robots.txt là gì?

File robots.txt là một tập tin văn bản đơn giản có dạng đuôi mở rộng txt. Tệp này là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn Web quy định cách Robot Web (hoặc Robot của các công cụ tìm kiếm) thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.

File robots.txt là gì? Cách tạo file robots txt cho WordPress (1)

2. Cú pháp của file robots.txt

Các cú pháp được xem là ngôn ngữ riêng của các tập tin robots.txt. Có 5 thuật ngữ phổ biến trong một file robots.txt, bao gồm như sau:

  • User-agent: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (Ví dụ: Googlebot, Bingbot,…).
  • Disallow: Được sử dụng để thông báo cho các User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng Disallow.
  • Allow (chỉ áp dụng cho bộ tìm kiếm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.

File robots.txt là gì? Cách tạo file robots txt cho WordPress (2)

Những cú pháp được là ngôn ngữ riêng của các tập tin robots.txt

  • Crawl – delay: Thông báo cho các Web Crawler biết rằng phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bộ tìm kiếm Googlebot không thừa nhận lệnh này và bạn phải cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ Google, Ask, Bing và Yahoo.

3. Tại sao bạn cần tạo file robots.txt?

Việc tạo robots.txt cho website giúp bạn kiểm soát việc truy cập của các con Bots đến các khu vực nhất định trên trang web. Điều này mang đến nhiều lợi ích cho bạn bởi nhiều lí do:

  • Ngăn chặn nội dung trùng lặp xuất hiện trong website (các Robot Meta thường là lựa chọn tốt).
  • Giữ một số phần của trang ở chế độ riêng tư.
  • Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP.
  • Chỉ định vị trí của Sitemap.
  • Ngăn các công cụ của Google Index một số tệp nhất định trên trang web của bạn (hình ảnh từ máy tính, PDF, …).
  • Dùng lệnh Crawl-delay để cài đặt thời gian, ngăn việc máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.

File robots.txt là gì? Cách tạo file robots txt cho WordPress (3)

4. File robots.txt nằm ở đâu trên một website WordPress?

Khi bạn tạo website WordPress, web sẽ tự động tạo ra một file robots.txt đặt ngay bên dưới thư mục gốc của server.

Ví dụ: Nếu site của bạn đặt trong thư mục gốc của địa chỉ abcdef.com, bạn sẽ có thể truy cập file robots.txt ở đường dẫn abcdef.com/robots.txt, kết quả ban đầu sẽ tương tự như sau:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Trong đó:

  • User-agent: * có nghĩa là quy tắc được áp dụng cho mọi loại bots trên khắp nơi trên website. Trong trường hợp này, file này sẽ nói cho bots biết là chúng không được phép vào trong file thư mục wp-admin và wp-includes.

File robots.txt là gì? Cách tạo file robots txt cho WordPress (4)

Vị trí file robots.txt trên một website

Lưu ý:

  • File robots.txt là một file ảo do WordPress tự thiết lập mặc định khi cài đặt và không chỉnh sửa được (mặc dù nó vẫn hoạt động).
  • Vị trí file robots.txt WordPress chuẩn được đặt trong thư mục gốc, thường được gọi là public_html và www (hoặc tên website).
  • Để tạo file robots.txt cho riêng bạn thì bạn cần tạo một file mới để thay thế file cũ đặt trong thư mục gốc đó.

5. Làm thế nào để kiểm tra website có file robots.txt không?

Để kiểm tra website có file robots.txt không, bạn có thể thực hiện theo các bước dưới đây:

Nhập Root Domain (ví dụ: abcdef.com) > Chèn /robots.txt vào cuối (ví dụ: abcdef.com/robots.txt) > Nhấn Enter.

File robots.txt là gì? Cách tạo file robots txt cho WordPress (5)

Chèn abcdef.com/robots.txt

Lưu ý: Nếu bạn không có trang .txt xuất hiện, thì chắc chắn website bạn hiện không tạo robots.txt cho WordPress rồi.

6. Quy tắc nào cần được bổ sung vào trong file robots.txt WordPress?

File robots.txt WordPress đều xử lý một quy tắc tại một thời điểm. Tuy nhiên, nếu bạn muốn áp dụng các quy tắc khác nhau cho các bot khác nhau thì bạn chỉ cần thêm từng bộ quy tắc trong phần khai báo User-agent cho mỗi bot.

Ví dụ: Nếu bạn muốn tạo một quy tắc áp dụng cho tất cả các bot và một quy tắc khác chỉ áp dụng cho Bingbot, bạn có thể thực hiện như sau:

User-agent: *

Disallow: /wp-admin/

User-agent: Bingbot

Disallow: /

Từ đó, tất cả các bot sẽ bị chặn truy cập /wp-admin/ nhưng Bingbot sẽ bị chặn truy cập toàn bộ trang web của bạn.

File robots.txt là gì? Cách tạo file robots txt cho WordPress (6)

7. 3 Cách tạo file robots txt cho WordPress

Trên thực tế, tạo robots.txt WordPress giúp các nhà quản trị web linh hoạt, chủ động hơn trong việc cho phép hay không cho các con bot của công cụ Google index một số phần nào đó trong trang của mình.

Nếu sau khi kiểm tra, bạn nhận thấy website của mình không có tệp robots.txt hay đơn giản là bạn đang muốn thay đổi tệp robots.txt của mình. Dưới đây là 3 cách tạo robots.txt cho WordPress:

Cách 1: Sử dụng Yoast SEO

  • Đăng nhập vào website của bạn trên WordPress, khi đăng nhập vào sẽ thấy giao diện của trang WordPress Dashboard.
  • Chọn mục SEO > Chọn Tools.

File robots.txt là gì? Cách tạo file robots txt cho WordPress (7)

  • Chọn File editor.

File robots.txt là gì? Cách tạo file robots txt cho WordPress (8)

Như vậy, bạn sẽ thấy mục robots.txt và .htaccess file. Đây là nơi giúp bạn tạo file robots.txt.

File robots.txt là gì? Cách tạo file robots txt cho WordPress (9)

Cách 2: Qua bộ Plugin All in One SEO

Bạn có thể sử dụng bộ Plugin All in One SEO để tạo file robots.txt WordPress nhanh chóng. Đây cũng là một plugin tiện ích cho WordPress đơn giản, dễ sử dụng.

Để tạo file robots.txt WordPress, bạn có thể thực hiện theo các bước sau:

  • Truy cập giao diện chính của Plugin All in One SEO Pack.
  • Chọn All in One SEO > Chọn Feature Manager > Nhấp Activate cho mục Robots.txt.

File robots.txt là gì? Cách tạo file robots txt cho WordPress (10)

  • Tạo lập và điều chỉnh file robots.txt WordPress.

File robots.txt là gì? Cách tạo file robots txt cho WordPress (11)

Lưu ý: All in One SEO làm mờ đi thông tin của file robots.txt thay vì được chỉnh sửa file như công cụ Yoast SEO. Điều này có thể khiến người dùng hơi bị động một chút khi chỉnh sửa file robots.txt WordPress. Tuy nhiên, tích cực mà nói, yếu tố này sẽ giúp họ hạn chế thiệt hại cho website của mình, đặc biệt một số Malware bots sẽ gây hại cho website.

Cách 3: Tạo rồi upload file robots.txt qua FTP

Nếu bạn không muốn sử dụng plugin để tạo file robots.txt WordPress thì bạn có thể tự tạo file robots.txt thủ công cho WordPress của mình.

Để tạo file robots.txt WordPress bằng tay bằng phương pháp tạo rồi upload file robots.txt qua FTP, bạn có thể thực hiện theo các bước sau đây:

  • Mở Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress.
  • Mở FTP > Chọn thư mục public_html > Chọn file robots.txt > Chọn Upload.

File robots.txt là gì? Cách tạo file robots txt cho WordPress (12)

8. Một số quy tắc khi tạo file robots.txt

Việc tạo file robots.txt cần phải lưu ý một số quy tắc sau để không bị lỗi:

  • Để được các con bot tìm thấy thì các file robots.txt WordPress phải được đặt trong các thư mục cấp cao nhất của trang web.
  • File txt phân biệt chữ hoa và chữ thường, vì thế tệp phải được đặt tên là robots.txt (không phải Robots.txt hay robots.TXT,…).
  • Không nên đặt /wp-content/themes/ hay /wp-content/plugins/ vào mục Disallow. Điều đó sẽ cản trở các công cụ nhìn nhận chính xác về giao diện blog hay website.
  • Một số User-agent chọn cách bỏ qua các file robots.txt chuẩn. Điều này khá phổ biến với các User-agent bất chính như Malware robots (bot của các đoạn mã độc hại), các trình Scraping địa chỉ Email.

File robots.txt là gì? Cách tạo file robots txt cho WordPress (13)

  • Các tệp robots.txt thường có sẵn và được công khai trên web và chỉ cần thêm /robots.txt vào cuối bất kì Root Domain để xem các chỉ thị của trang web đó. Điều này có nghĩa là bất kì ai cũng thấy các trang bạn muốn hoặc không muốn crawl. Vì vậy, đừng sử dụng các tệp này để ẩn thông tin cá nhân của người dùng.
  • Mỗi Subdomain trên một Root Domain sẽ sử dụng các file robots.txt riêng biệt. Điều này có nghĩa là cả blog.example.com và example.com có các tệp robots.txt riêng. Đây được xem là cách tốt nhất để chỉ ra vị trí của bất kì sitemaps nào được liên kết với domain ở cuối tệp robots.txt.

File robots.txt là gì? Cách tạo file robots txt cho WordPress (14)

9. Một số lưu ý khi sử dụng file robots.txt

Khi sử dụng file robots.txt, bạn cần lưu ý một số điểm như sau:

  • Các liên kết trên trang bị chặn bởi việc robots.txt sẽ không được các bots theo dõi, trừ khi các link này có liên kết với các trang khác. Nếu không, các tài nguyên được liên kết có thể sẽ không được thu thập và lập chỉ mục.
  • Link juice sẽ không được truyền từ các trang bị chặn đến các trang đích. Vì thế, nếu muốn dòng sức mạnh Link juice truyền qua các trang này thì hãy sử dụng một phương pháp khác thay vì tạo robots.txt WordPress.
  • Không nên sử dụng file robots.txt để ngăn dữ liệu nhạy cảm như thông tin người dùng riêng tư xuất hiện trong kết quả SERP bởi vì trang web chứa thông tin cá nhân này có thể liên kết với nhiều trang web khác. Do đó các con bots sẽ bỏ quá các chỉ thị của tệp robots.txt trên Root Domain hay trang chủ của bạn.

File robots.txt là gì? Cách tạo file robots txt cho WordPress (15)

  • Nếu muốn chặn trang web khỏi các kết quả tìm kiếm, hãy sử dụng một phương pháp khác thay vì tạo file robots.txt cho WordPress như dùng mật khẩu bảo vệ hay Noindex Meta Directive. Một số công cụ tìm kiếm có rất nhiều User-agent chẳng hạn Google sử dụng Googlebot cho các tìm kiếm miễn phí và Googlebot-Image cho các tìm kiếm hình ảnh.
  • Hầu hết các User-agent từ cùng một công cụ đều tuân theo một quy tắc. Do đó, bạn không cần chỉ định các lệnh cho từng User-agent. Tuy nhiên, việc làm này vẫn có thể giúp bạn điều chỉnh được cách Index nội dung trang web.
  • Các công cụ tìm kiếm sẽ lưu trữ nội dung file robots.txt WordPress. Tuy nhiên nó vẫn thường cập nhật nội dung trong bộ nhớ cache ít nhất một lần một ngày. Nếu bạn thay đổi tệp và muốn cập nhật tệp của mình nhanh hơn thì hãy sử dụng ngay chức năng Gửi của Trình kiểm tra tệp robots.txt.

Mọi người cũng tìm kiếm: robots txt là gì, tạo file robots txt cho wordpress, hướng dẫn tạo file robots txt, tạo robots txt cho wordpress, tạo robots txt cho website, tạo file txt, robots.txt là gì, cách tạo file txt, robots.txt, robots txt wp, txt là file gì, file txt là file gì, wordpress robots.

You may also like

Leave a Comment