File robots.txt là một trong những việc đầu tiên cần kiểm tra và tối ưu khi làm SEO. Robots.txt là tệp văn bản cung cấp chỉ dẫn cho các công cụ tìm kiếm truy cập dữ liệu, hay phân tích dữ liệu của một website. Cùng On Digitals tìm hiểu cụ thể Robots.txt là gì? Tại sao Robots.txt lại quan trọng đối với website và cách tạo file như thế nào?
Robots.txt là một tệp văn bản mà các quản trị viên tạo để thu thập dữ liệu truy cập trên website. File robots.txt là một phần của Robot Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn về web quy định cách Robot web (hay còn gọi là bot của các công cụ tìm kiếm) thu thập dữ liệu web, index nội dung và cung cấp nội dung đó cho người dùng.
REP (Robot Exclusion Protocol) bao gồm các lệnh như meta robots, page-subdirectory, site-wide instructions, với vai trò hướng dẫn các công cụ tìm kiếm xử lí các liên kết. Ví dụ như dofollow hay nofollow link.
Trên thực tiễn, các file robots.txt cung cấp dữ liệu có thể hoặc không thể yêu cầu từ trang web của bạn. Nói đơn giản, tệp này dùng ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho một trang web. Và linh hoạt hơn trong việc cho phép hoặc không cho phép các bot của công cụ tìm kiếm truy cập vào một số khu vực nào đó trong website của bạn.
User-agent: [user-agent name]Disallow: [URL string not to be crawled]
Hai dòng “-” gạch ngang trên này được coi là một file robots.txt hoàn chỉnh, mặc dù một file robots có chứa các tệp như : không cho phép (disallow), cho phép (allow), crawl-delays (chậm tiến độ thu thập),…
Trong file robots.txt, mỗi lệnh được hiển thị dưới định dạng được tách riêng biệt bằng cách ngắt dòng như hình:
Một ví dụ khác của lệnh được tách riêng biệt, và khi một tệp chứa User-agent (tên của search engine mà bạn muốn điều khiển), thì con bot chỉ tập trung vào các lệnh như cho phép, hoặc không cho phép.
Dưới đây là ví dụ minh họa của một tệp robots.txt
Dưới đây là ví dụ minh họa của một tệp robots.txt
Với cú pháp : User-agent: * Disallow: /
Cú pháp này thể hiện việc chặn tất cả các Web Crawler không thu thập bất kỳ dữ liệu nào trên website bao gồm cả trang chủ.
Cú pháp : User-agent: * Disallow:
Cho phép các trình thu thập thông tin truy cập vào tất cả nội dung trên website gồm cả trang chủ.
Cú pháp : User-agent: Googlebot Disallow: /example-subfolder/
Để chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) không cho thu thập các trang nào có chứa chuỗi URL www.example.com/example-subfolder/.
Vì thế ta có thể sử dụng cú pháp sau:
User-agent: Googlebot
Disallow: /example-subfolder/
Còn đối với User-agent: Bing, để chặn trình thu thập thông tin của Bing trên trang cụ thể tại www.example.com/example-subfolder/blocked-page. Ta có thể sử dụng cú pháp:
User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html
Các search engine (công cụ tìm kiếm) có 2 nhiệm vụ chủ yếu:
Để rà soát, thu thập các dữ liệu, các công cụ sẽ phải đi theo các liên kết từ trang này sang trang khác. Cuối cùng, các search engine sẽ thu thập được dữ liệu thông qua hàng tỷ trang web khác nhau. Quá trình phân tích, rà soát này còn được gọi là “Spidering”.
Khi truy cập đến một trang web, trước khi rà soát/spidering thì các con bot của Google sẽ tìm các file robots.txt. Nếu tìm thấy được robots.txt thì nó sẽ phân tích tệp đó trước, và sau đó tiến hành các bước tiếp theo.
Vì file robots.txt có chứa các thông tin cách các công cụ tìm kiếm nên thu thập dữ liệu của website. Các con bot này sẽ được hướng dẫn các thông tin cụ thể, chi tiết cho quá trình crawl này.
Khi robots.txt không chứa chỉ thị nào cho các User-agent hoặc nếu website không có file robots.txt thì các con bot sẽ tiến hành thu thập thông tin trên web khác.
Khi đề cập đến các URL để cho phép hay chặn, các tệp robots.txt khá phức tạp vì chúng sử dụng pattern-matching để bao quát một loạt các tùy chọn của URL. Cả Google và Bing đều cho phép sử dụng 2 biểu thức chính để xác định các trang hoặc thư mục con mà SEO muốn loại trừ. 2 biểu thức này có ký tự là dấu hoa thị (*) và đô la ($).
Khi phân tích một trang web, các công cụ tìm kiếm và các con bot thu thập dữ liệu web khác (ví dụ trình thu thập thông tin của Facebook là Facebot) sẽ biết cách tìm các robots.txt.
Tuy nhiên, chúng sẽ tìm ở nơi cụ thể như root domain, hay trang chủ. Nếu user agent truy cập www.example.com/robots.txt, nhưng lại không tìm thấy .txt thì tự động user agent tiến hành thu thập mọi dữ liệu trên trang đó. Ngay cả khi trang đó đã có robots.txt dưới định dạng example.com/index/robots.txt hoặc www.example.com/homepage/robots.txt, cũng sẽ bị user-agent phát hiện và được xem như không có tệp robots.txt nào.
Robots.txt hỗ trợ website kiểm soát truy cập các con bots đến các khu vực nhất định trong trang web. Sẽ rất nguy hiểm nếu vô tình tạo sai một vài thao tác khiên Googlebot không thể index website.
Tuy nhiên, robots.txt đóng vai trò rất quan trọng cho website như sau:
Nếu khu vực nào trên website của bạn không cần ngăn chặn các Web Crawler thu thập dữ liệu thông tin, thì không cần tạo robots.txt
Nếu bạn thắc mắc website mình có robots.txt không? Cách đơn giản là nhập Root domain của trang sau đó thêm /robots.txt vào cuối URL.
Ví dụ, nhập Root domain (ondigitals.com) > chèn /robots.txt vào cuối (ondigitals.com/robots.txt) > nhấn Enter.
Khi không có trang .txt xuất hiện, có khả năng website chưa tạo robots.txt hoặc đường dẫn đến file robot đã được thay đổi.
Nếu bạn chưa tạo file robots.txt hay muốn đổi một tệp robots.txt khác, hãy sử dụng Yoast SEO, Plugin All in One SEO để tạo nhé.
Nếu chưa kích hoạt trình quản lý chỉnh sửa file, hãy kích hoạt chúng thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin).
Tại đây sẽ hiện lên robots.txt và .htaccess file – đây là nơi giúp bạn tạo file robots.txt.
Bước này sẽ hiển thị mục robots.txt sẽ xuất hiện như một tab mới trong thư mục lớn All in One SEO. Có thể tạo hoặc chỉnh file robots.txt.
Khi bắt đầu tìm hiểu, bạn thường sẽ bị nhầm lẫn giữa robots.txt, meta robots và x-robots.
Đầu tiên, robots.txt là tệp văn bản, ra lệnh cho lập chỉ mục trang web hoặc thư mục. Trong khi đó, meta robots và x-robots là các meta directive.
Cả 3 robot này có chức năng hoàn toàn khác nhau. Như đề cập trên thì robots.txt ra lệnh cho thu thập dữ liệu toàn bộ trang web, thư mục. Meta robots và x-robots ra lệnh cho hành vi index ở cấp độ trang (hay phần tử trang) riêng lẻ.
Bài viết trên đây giúp bạn hiểu robots.txt là gì, đóng vai trò thế nào cũng như cách tạo lập và kiểm tra. Bên cạnh đó là một số lưu ý để quá trình sử dụng robots.txt được hiệu quả nhất.
Hãy liên hệ ngay nếu doanh nghiệp bạn cần được tư vấn về chiến lược Digital Marketing. Theo dõi On Digitals để cập nhật thêm nhiều thông tin, kiến thức hữu ích.