robots.txt là gì? Cách sử dụng file robots.txt

Đăng bởi: Linh Nguyễn • Ngày: 23/12/2020

Tệp robots.txt là gì?

Tệp robots.txt là một file nằm ở thư mục gốc hosting của bạn nhằm cho trình thu thập thông tin (bot) của các công cụ tìm kiếm biết những trang hoặc tệp nào mà trình thu thập thông tin có thể hoặc không thể index từ trang web của bạn. Điều này được sử dụng chủ yếu để tránh quá tải trang web của bạn; nó không phải là một cơ chế để ngăn một trang web ra khỏi Google. Để ngăn chặn một trang web của Google, bạn nên sử dụng lệnh ngăn lập chỉ mục (no-index) hoặc bảo vệ trang bằng mật khẩu.

Robots.txt được sử dụng để làm gì?

File robots.txt được sử dụng chủ yếu để quản lý lưu lượng truy cập của trình thu thập thông tin vào trang web của bạn và thường để giữ một trang không bị Google, tùy thuộc vào loại tệp:

Đối với các trang web (HTML, PDF hoặc các định dạng mà Google có thể đọc), robots.txt có thể được sử dụng để quản lý lưu lượng thu thập thông tin nếu bạn cho rằng máy chủ của mình sẽ bị quá tải bởi các yêu cầu từ trình thu thập thông tin của Google hoặc để tránh việc thu thập thông tin không quan trọng hoặc các trang tương tự trên trang web của bạn.
Bạn không nên sử dụng robots.txt để ẩn các trang web của mình khỏi kết quả của Google Search. Lý do là vì nếu các trang khác trỏ đến trang của bạn bằng văn bản mô tả, trang của bạn vẫn có thể được lập chỉ mục mà không cần truy cập trang. Nếu bạn muốn chặn trang của mình khỏi kết quả tìm kiếm, hãy sử dụng một phương pháp khác như bảo vệ bằng mật khẩu hoặc dùng lệnh no-index trong HTML.
Nếu trang web của bạn bị chặn bằng tệp robots.txt , nó vẫn có thể xuất hiện trong kết quả tìm kiếm, nhưng kết quả tìm kiếm sẽ không có mô tả. Tệp hình ảnh, tệp video, PDF và các tệp không phải HTML khác sẽ bị loại trừ.
Sử dụng robots.txt cũng giúp quản lý lưu lượng thu thập thông tin và cũng để ngăn các tệp hình ảnh, video và âm thanh xuất hiện trong kết quả tìm kiếm của Google.
Bạn cũng có thể sử dụng robots.txt để chặn các tệp tài nguyên như tệp hình ảnh, các file không quan trọng. Tuy nhiên, nếu sự thiếu vắng các tài nguyên này khiến trình thu thập thông tin của Google khó hiểu trang hơn, bạn không nên chặn chúng, nếu không Google sẽ không thực hiện tốt công việc phân tích các trang phụ thuộc vào các tài nguyên đó.
Nếu bạn sử dụng dịch vụ lưu trữ trang web, chẳng hạn như Wix, Drupal hoặc Blogger, bạn có thể không cần (hoặc có thể) chỉnh sửa trực tiếp tệp robots.txt của mình. Thay vào đó, nhà cung cấp của bạn có thể hiển thị trang cài đặt tìm kiếm hoặc một số cơ chế khác để cho các công cụ tìm kiếm biết có nên thu thập dữ liệu trang của bạn hay không.

Hạn chế của robots.txt

Trước khi tạo hoặc chỉnh sửa robots.txt, bạn nên biết các giới hạn của phương pháp chặn URL này.

robots.txt có thể không được hỗ trợ bởi tất cả các công cụ tìm kiếm: Mặc dù Googlebot và các trình thu thập dữ liệu web phổ biến đều tuân theo các cấu hình trong một file robots.txt, nhưng các trình thu thập thông tin khác có thể không tuân theo . Do đó, nếu bạn muốn bảo mật thông tin khỏi trình thu thập dữ liệu web, tốt hơn nên sử dụng các phương pháp chặn khác, chẳng hạn như các tập tin riêng tư được bảo vệ bằng mật khẩu trên máy chủ của bạn
Các trình thu thập thông tin khác nhau sẽ hiểu cú pháp khác nhau: Mặc dù các trình thu thập thông tin web đáng tin cậy tuân theo các lệnh trong một file robots.txt, mỗi trình thu thập thông tin có thể diễn giải các lệnh trong file này một cách khác nhau. Bạn nên biết cú pháp thích hợp để xử lý các trình thu thập thông tin web khác nhau.
Mặc dù Google sẽ không thu thập dữ liệu hoặc lập chỉ mục nội dung bị chặn bởi robots.txt, chúng vẫn có thể tìm và lập chỉ mục một URL không được phép nếu nó được liên kết từ những nơi khác trên web. Do đó, địa chỉ URL và thông tin có thể công khai khác như văn bản liên kết trong các liên kết đến trang vẫn có thể xuất hiện trong kết quả tìm kiếm của Google. Để ngăn chặn đúng cách URL của bạn xuất hiện trong kết quả của Google Tìm kiếm, bạn nên bảo vệ bằng mật khẩu các tệp trên máy chủ của mình hoặc sử dụng thẻ meta no-index.

Quy tắc của file robots.txt

Tệp robots.txt phải nằm trong thư mục cấp cao nhất của máy chủ, có thể truy cập thông qua web hoặc giao thức thích hợp. Ví dụ của mình domain là nhatphuc.com, bạn phải đặt file robots.txt nằm ở thư mục gốc để có thể truy cập qua liên kết https://nhatphuc.com/robots.txt. Nếu bạn đặt https://nhatphuc.com/abc/robots.txt là sai.
Tệp phải được đặt tên là robots.txt.
Trang web của bạn chỉ có thể có một tệp robots.txt.
robots.txt phải là tệp văn bản được mã hóa UTF-8 (bao gồm ASCII). Không thể sử dụng các bộ mã khác.
Tệp robots.txt bao gồm một hoặc nhiều nhóm.
Mỗi nhóm bao gồm nhiều quy tắc, mỗi quy tắc nằm trên mỗi dòng.
Các nhóm được xử lý từ trên xuống dưới và user-agent chỉ có thể khớp với một bộ quy tắc.

Bắt đầu với robots.txt

File robots.txt nằm ở thư mục gốc của trang web của bạn. File robots.txt bao gồm một hoặc nhiều quy tắc. Mỗi quy tắc chặn (hoặc cho phép) quyền truy cập của một trình thu thập thông tin nhất định vào đường dẫn tệp cụ thể trong trang web đó.

Dưới đây là một nội dung robots.txt đơn giản với quy tắc được mô tả ngay bên dưới:

# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Group 2
User-agent: *
Allow: /

Sitemap: https://nhatphuc.com/sitemap.xml

Group 1: Trình thu thập thông tin Googlebot không được thu thập thông tin thư mục https://nhatphuc.com/nogooglebot/ hoặc bất kỳ thư mục con nào.
Group 2: Người dùng khác có thể truy cập toàn bộ trang web.
Sitemap: chỉ định tập tin sơ đồ trang web có tại địa chỉ https://nhatphuc.com/sitemap.xml

Các lệnh sau được sử dụng trong tệp robots.txt

User-agent: Tên của con bot công cụ tìm kiếm (phần mềm thu thập thông tin web) áp dụng quy tắc. Đây là dòng đầu tiên cho bất kỳ quy tắc nào, ví dụ Googlebot.
Disallow: chỉ định thư mục, file không cho thu thập thông tin. Nếu một trang, nó phải là tên trang đầy đủ như được hiển thị trong trình duyệt; nếu là một thư mục, nó phải kết thúc bằng dấu /.
Allow: chỉ định thư mục, file cho phép thu thập thông tin. Nếu một trang, nó phải là tên trang đầy đủ như được hiển thị trong trình duyệt; nếu là một thư mục, nó phải kết thúc bằng dấu /.
Sitemap: Vị trí của sơ đồ trang web cho trang web.

Ngoài phần cơ bản này ra thì robots.txt còn nhiều phần nâng cao khác, bạn có thể tham khảo nội dung này trên Google.

Kiểm tra xem bạn có tệp robots.txt không?

Bạn không chắc mình có tệp robots.txt không? Chỉ cần nhập tên miền gốc của bạn, sau đó thêm /robots.txt vào cuối URL. Ví dụ: trang của mình nó nằm ở nhatphuc.com/robots.txt.

Nếu không có trang .txt nào xuất hiện, bạn hiện không có trang robots.txt.

Cách tạo tệp robots.txt

Nếu bạn thấy mình không có tệp robots.txt hoặc muốn thêm vào, thì việc tạo tệp là một quá trình đơn giản. Bạn có thể sử dụng bất kỳ trình editor nào để tạo vì nó chỉ là file text thông thường. Chỉ lưu ý là lưu file lại bằng mã hóa UTF-8.

robots.txt liên quan gì đến SEO

Nó giúp bạn kiểm tra để đảm bảo rằng bạn không chặn bất kỳ nội dung hoặc phần nào của trang web mà bạn muốn thu thập thông tin.
Các liên kết trên các trang bị robots.txt chặn sẽ không được follow. Điều này có nghĩa là trừ khi chúng cũng được liên kết từ các trang khác mà công cụ tìm kiếm có thể truy cập (tức là các trang không bị chặn qua robots.txt), các tài nguyên được liên kết sẽ không được thu thập thông tin và có thể không được lập chỉ mục. Đồng thời sẽ không có liên kết nào có thể được chuyển từ trang bị chặn đến đích liên kết. Nếu bạn có các trang mà bạn muốn chuyển quyền sở hữu, hãy sử dụng một cơ chế chặn khác ngoài robots.txt.
Không sử dụng robots.txt để ngăn dữ liệu nhạy cảm (như thông tin người dùng riêng tư) xuất hiện trong kết quả SERP. Vì các trang khác có thể liên kết trực tiếp đến trang chứa thông tin cá nhân (do đó bỏ qua chỉ thị robots.txt trên miền gốc hoặc trang chủ của bạn), trang đó vẫn có thể được lập chỉ mục.
Một số công cụ tìm kiếm có nhiều user-agent. Ví dụ: Google sử dụng Googlebot cho tìm kiếm không phải trả tiền và Googlebot-Image để tìm kiếm hình ảnh. Hầu hết các user-agent từ cùng một công cụ tìm kiếm tuân theo các quy tắc giống nhau, do đó không cần chỉ định chỉ thị cho mỗi trình thu thập thông tin của một công cụ tìm kiếm, nhưng khả năng làm như vậy cho phép bạn tinh chỉnh cách thu thập thông tin nội dung trang web của bạn.
Công cụ tìm kiếm sẽ lưu nội dung robots.txt vào bộ nhớ cache, nhưng thường cập nhật nội dung được lưu trong bộ nhớ cache ít nhất một lần mỗi ngày. Nếu bạn thay đổi tệp và muốn cập nhật tệp nhanh hơn hiện tại, bạn có thể gửi url robots.txt của mình cho Google.

Cách kiểm tra và cập nhật file robots.txt lên Google

Công cụ robots.txt Tester của Google cho phép bạn dễ dàng cập nhật và yêu cầu Google nhanh cập nhật sử dụng tệp robots.txt mới cho trang web của bạn. Đồng thời cập nhật và thông báo cho Google về những thay đổi đối với tệp robots.txt của bạn bằng cách thực hiện theo các bước bên dưới.

Bước 1: Vào trang robots.txt Tester, nhấp vào mục Please select a property. và chọn trang web dùng file robots.txt. Nếu trong web bạn không có ở đây, hãy bấm và Add a property để thêm trang web vào. Cách thêm thì bạn tham khảo lại bài Google Search Console.

Bước 2: Bạn có thể kiểm tra một liên kết ở phần TEST bên dưới để xem địa chỉ URL có bị chặn không. Ngoài ra nếu bạn muốn cập nhật robots.txt trên Google, bạn chỉ việc bấm vào nút Submit.

Lưu ý là bạn cũng có thể chỉnh sửa tệp trên trang và kiểm tra lại nếu cần. Lưu ý rằng các thay đổi được thực hiện trong trang sẽ không được lưu vào trang web của bạn. Sau khi test xong, bạn cần sao chép các thay đổi của bạn vào tệp robots.txt trên trang web của bạn để cập nhật. Công cụ này không thực hiện thay đổi đối với tệp thực trên trang web của bạn, nó chỉ kiểm tra bản sao được lưu trữ trong công cụ để test chức năng giúp bạn.

Cách tạo file robots.txt cho WordPress

Sau khi bạn đã quyết định rule nào sẽ được đặt trong file robots.txt, phần còn lại là tạo nó thôi. Bạn có thể chỉnh sửa file robots.txt trong WordPress bằng plugin hoặc thủ công. Trong phần này, chúng tôi sẽ chỉ bạn dùng 2 plugin phổ biến để tạo file robots.txt cho WordPress dễ dàng hơn, còn nếu bạn tự tạo và up lên thư mục gốc thì bạn tham khảo lại phần trên nhé.

Sử dụng Yoast SEO

Với Yoast SEO, cách tạo file robots.txt cũng đơn giản bằng cách bạn vào mục SEO > Tools > File editor. Tại mục này bạn có một nút có tên Create robots.txt, bấm vào sẽ giúp bạn tạo file robots.txt.

Lúc này, một trình editor sẽ hiển thị để bạn có thể chỉnh sửa file robots.txt trực tiếp. Mỗi khi bạn thêm rules mới hoặc xóa rules cũ, nhớ click nút Save changes to robots.txt để lưu lại.

Sử dụng Rank Math SEO

Bước 1: Vào Rank Math > General Settings.

Bước 2: Bấm vào nút Edit robots.txt.

$Chỉnh file robots.txt bằng Rank Math SEO$

Sau đó bạn chỉnh sửa lại nội dung file robots.txt và bấm Save changes để lưu lại.

Lời kết

Để tăng khả năng tiếp cận của site lên trình tìm kiếm, bạn cần chắc là bot của search engine không bị chặn, và có thể crawl (quét) đúng mọi nội dung cần thiết. File robots.txt chuẩn sẽ giúp bots tương tác tốt với site của bạn thế nào. Từ đó, thông tin của bạn sẽ được hiển thị chính xác hơn, hữu dụng hơn cho người tìm kiếm. Nếu bạn muốn hỏi gì về việc tạo file robots.txt cho WordPress, hãy để lại bình luận bên dưới nhé!

Bạn đừng bỏ lỡ bài danh sách những điểm cần làm về SEO nhé.