Chi tiết bài viết
Robots.txt là gì? Cách tạo và kiểm tra robots.txt
10/06/2023
30
Bạn muốn kiểm soát những gì Googlebot và các công cụ tìm kiếm khác nhìn thấy trên website của mình? Tệp robots.txt là “bản đồ đường đi” mà bạn cung cấp cho họ. Hãy cùng On Digitals tìm hiểu cách sử dụng robots.txt là gì và cách tối ưu hoá trong quá trình thu thâph tông tin.
Robots.txt là gì?
Robots.txt là một tệp văn bản mà các quản trị viên tạo để thu thập dữ liệu truy cập trên website. File robots.txt là một phần của Robot Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn về web quy định cách Robot web (hay còn gọi là bot của các công cụ tìm kiếm) thu thập dữ liệu web, index nội dung và cung cấp nội dung đó cho người dùng.
REP (Robot Exclusion Protocol) bao gồm các lệnh như meta robots, page-subdirectory, site-wide instructions, với vai trò hướng dẫn các công cụ tìm kiếm xử lí các liên kết. Ví dụ như dofollow hay nofollow link.
Trên thực tiễn, các file robots.txt cung cấp dữ liệu có thể hoặc không thể yêu cầu từ trang web của bạn. Nói đơn giản, tệp này dùng ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho một trang web. Và linh hoạt hơn trong việc cho phép hoặc không cho phép các bot của công cụ tìm kiếm truy cập vào một số khu vực nào đó trong website của bạn.
Robots.txt là gì
Định dạng của robots.txt:
User-agent: [user-agent name]Disallow: [URL string not to be crawled]
Hai dòng “-” gạch ngang trên này được coi là một file robots.txt hoàn chỉnh, mặc dù một file robots có chứa các tệp như : không cho phép (disallow), cho phép (allow), crawl-delays (chậm tiến độ thu thập),…
Trong file robots.txt, mỗi lệnh được hiển thị dưới định dạng được tách riêng biệt bằng cách ngắt dòng như hình:
Định dạng robots.txt
Một ví dụ khác của lệnh được tách riêng biệt, và khi một tệp chứa User-agent (tên của search engine mà bạn muốn điều khiển), thì con bot chỉ tập trung vào các lệnh như cho phép, hoặc không cho phép.
Định dạng robots.txt
File robots.txt chuẩn
Dưới đây là ví dụ minh họa của một tệp robots.txt
Dưới đây là ví dụ minh họa của một tệp robots.txt
Với cú pháp : User-agent: * Disallow: /
Cú pháp này thể hiện việc chặn tất cả các Web Crawler không thu thập bất kỳ dữ liệu nào trên website bao gồm cả trang chủ.
Cú pháp : User-agent: * Disallow:
Cho phép các trình thu thập thông tin truy cập vào tất cả nội dung trên website gồm cả trang chủ.
Cú pháp : User-agent: Googlebot Disallow: /example-subfolder/
Để chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) không cho thu thập các trang nào có chứa chuỗi URL www.example.com/example-subfolder/.
Vì thế ta có thể sử dụng cú pháp sau:
User-agent: Googlebot
Disallow: /example-subfolder/
Còn đối với User-agent: Bing, để chặn trình thu thập thông tin của Bing trên trang cụ thể tại www.example.com/example-subfolder/blocked-page. Ta có thể sử dụng cú pháp:
User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html
Cách hoạt động của Robots.txt
Các search engine (công cụ tìm kiếm) có 2 nhiệm vụ chủ yếu:
- Crawl (phân tích/rà soát) dữ liệu trên web để khám phá nội dung.
- Index nội dung để đáp ứng yêu cầu cho các tìm kiếm của người dùng.
Để rà soát, thu thập các dữ liệu, các công cụ sẽ phải đi theo các liên kết từ trang này sang trang khác. Cuối cùng, các search engine sẽ thu thập được dữ liệu thông qua hàng tỷ trang web khác nhau. Quá trình phân tích, rà soát này còn được gọi là “Spidering”.
Hoạt động của robots.txt
Khi truy cập đến một trang web, trước khi rà soát/spidering thì các con bot của Google sẽ tìm các file robots.txt. Nếu tìm thấy được robots.txt là sẽ phân tích tệp đó trước, và sau đó tiến hành các bước tiếp theo.
Vì file robots.txt có chứa các thông tin cách các công cụ tìm kiếm nên thu thập dữ liệu của website. Các con bot này sẽ được hướng dẫn các thông tin cụ thể, chi tiết cho quá trình crawl này.
Khi robots.txt không chứa chỉ thị nào cho các User-agent hoặc nếu website không có file robots.txt thì các con bot sẽ tiến hành thu thập thông tin trên web khác.
Những lưu ý cần biết về robots.txt
- Để dễ tìm được robots.txt nên đặt file trong thư mục root domain cấp cao nhất của trang web.
- Trong nội dung tệp robots.txt tên khai báo nên có phân biệt chữ hoa và chữ thường.
- Một số user-agent sẽ không quan tâm robots.txt. Điều này khá phổ biến với các trang có chứa độc hại như malware robot, hay các email đi cào dữ liệu.
- Công khai tệp robots.txt, chỉ cần thêm /robots.txt vào cuối root domain để xem chỉ thị của trang web (ví dụ trang web có file robots.txt!). Có nghĩa rằng bất cứ ai cũng có thể xem được trang bạn muốn hoặc không muốn được thu thập thông tin.
- Mỗi một miền phụ hay miền chính nên sử dụng file robots.txt riêng biệt. Ví dụ bài blog và website phải có tệp robots.txt riêng (minh họa: blog.example.com/robots.txt và example.com/robots.txt).
- Để giúp dễ dàng nên chỉ ra vị trí của sitemap trang web nào được liên kết với miền này ở cuối tệp robots.txt.
Cú pháp của file robots.txt
Cú pháp của file robots.txt
- User-agent: Đây là phần khai báo tên của các công cụ tìm kiếm,thu thập dữ liệu web. Ví dụ như: Yahoo!, Googlebot,…
- Disallow: Thể hiện rằng các User-agent không thu thập bất kỳ dữ liệu URL cụ thể nào. Mỗi URL chỉ được dùng dong Disallow 1 lần.
- Allow (chỉ áp dụng cho Googlebot): Cho Googlebot biết rằng nó sẽ truy cập một trang hay thư mục con. Ngay cả khi các thư mục con hay trang của nó có thể không được cho phép.
- Crawl-delay: Để thông báo cho các Web Crawler biết phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, các con bot của Google không thừa nhận lệnh này. Vì thế, hãy cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
- Sitemap: Lệnh này sử dụng để cung cấp vị trí bất kỳ XML sitemap nào được liên kết URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi các công cụ như Google, Ask, Bing và Yahoo.
Pattern-Matching
Khi đề cập đến các URL để cho phép hay chặn, các tệp robots.txt khá phức tạp vì chúng sử dụng pattern-matching để bao quát một loạt các tùy chọn của URL. Cả Google và Bing đều cho phép sử dụng 2 biểu thức chính để xác định các trang hoặc thư mục con mà SEO muốn loại trừ. 2 biểu thức này có ký tự là dấu hoa thị (*) và đô la ($).
- (*) đại diện cho bất kỳ chuỗi ký tự nào.
- ($) là ký tự khớp với phần cuối của URL.
Nếu website không có robots.txt?
Khi phân tích một trang web, các công cụ tìm kiếm và các con bot thu thập dữ liệu web khác (ví dụ trình thu thập thông tin của Facebook là Facebot) sẽ biết cách tìm các robots.txt.
Tuy nhiên, chúng sẽ tìm ở nơi cụ thể như root domain, hay trang chủ. Nếu user agent truy cập www.example.com/robots.txt, nhưng lại không tìm thấy .txt thì tự động user agent tiến hành thu thập mọi dữ liệu trên trang đó. Ngay cả khi trang đó đã có robots.txt dưới định dạng example.com/index/robots.txt hoặc www.example.com/homepage/robots.txt, cũng sẽ bị user-agent phát hiện và được xem như không có tệp robots.txt nào.
Vai trò của robots.txt
Robots.txt là công cụ hỗ trợ website kiểm soát truy cập các con bots đến các khu vực nhất định trong trang web. Sẽ rất nguy hiểm nếu vô tình tạo sai một vài thao tác khiên Googlebot không thể index website.
Tuy nhiên, robots.txt đóng vai trò rất quan trọng cho website như sau:
- Ngăn nội dung trùng lặp trên website (Tip: các Robot Meta thường là lựa chọn tốt hơn cho việc này).
- Giúp giữ một số trang ở chế độ riêng tư.
- Giúp giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP.
- Chỉ định vị trí các sitemap.
- Giúp ngăn các công cụ của Google Index một số tệp nhất định trên trang web bạn như hình ảnh, PDF,…
- Lệnh crawl-delay để ngăn máy chủ bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung một lúc.
Nếu khu vực nào trên website của bạn không cần ngăn chặn các Web Crawler thu thập dữ liệu thông tin, thì không cần tạo robots.txt
Vai trò của robots.txt
Cách kiểm tra robots.txt có trên website hay không
Nếu bạn thắc mắc website mình có robots.txt không? Cách đơn giản là nhập Root domain của trang sau đó thêm /robots.txt vào cuối URL.
Ví dụ, nhập Root domain (ondigitals.com) > chèn /robots.txt vào cuối (ondigitals.com/robots.txt) > nhấn Enter.
Khi không có trang .txt xuất hiện, có khả năng website chưa tạo robots.txt hoặc đường dẫn đến file robot đã được thay đổi.
Cách tạo file robots.txt
Nếu bạn chưa tạo file robots.txt hay muốn đổi một tệp robots.txt khác, hãy sử dụng Yoast SEO, Plugin All in One SEO để tạo nhé.
Tạo robots.txt bằng Yoast SEO
- Bước 1: Click vào SEO phía trái màn hình
- Bước 2: Chọn Tools
- Bước 3: Nhấp vào File editor
Chọn tools trong SEO
File editor để tạo robots.txt
Nếu chưa kích hoạt trình quản lý chỉnh sửa file, hãy kích hoạt chúng thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin).
Tại đây sẽ hiện lên robots.txt và .htaccess file – đây là nơi giúp bạn tạo file robots.txt.
Chỉnh và tạo robots.txt
Tạo robots.txt với plugin All in One SEO
- Bước 1: Trong giao diện của plugin All in One SEO chọn All in One
- Bước 2: Nhấn Features Manager
- Bước 3: Nhấp Active cho mục robots.txt
Kích hoạt robots.txt
Bước này sẽ hiển thị mục robots.txt sẽ xuất hiện như một tab mới trong thư mục lớn All in One SEO. Có thể tạo hoặc chỉnh file robots.txt.
Tạo và chỉnh robots.txt trên Plugin All in One SEO
Một số lưu ý khi sử dụng robots.txt
- Đảm bảo rằng robots.txt không chặn bất kỳ phần nào của trang web mà bạn muốn thu thập thông tin.
- Các trang bị chặn bởi robots.txt sẽ không được các bot theo dõi. Trường hợp này có nghĩa rằng, các link này có liên kết với các trang khác (như Meta robots, trang không bị chặn bởi robots.txt,..). Các tài nguyên được liên kết có thể sẽ không được thu thập và lập chỉ mục. Hoặc trường hợp khác, không thể chuyển sở hữu liên kết từ trang bị chặn đến trang đích. Nếu bạn muốn chuyển quyền sở hữu các trang, hãy sử dụng công cụ chặn khác ngoài robots.txt.
- Tránh sử dụng file robots.txt là để ngăn dữ liệu nhạy cảm (như thông tin riêng tư của người dùng) hiển thị trên kết quả SERP. Vì các trang web chứa thông tin cá nhân này có thể liên kết đến nhiều trang khác. Các con bot có thể sẽ bỏ qua các chỉ thị của robots.txt ở Root domain hoặc trang chủ, nên các trang này vẫn có thể được index.
- Một số công cụ tìm kiếm có nhiều user-agent. Ví dụ như Google, sử dụng Googlebot để tìm lượng organic và Googlebot Image để tìm hình ảnh. Hầu hết, các user-agent nào có cùng một công cụ tìm kiếm đều có quy tắc giống nhau. Do đó, không cần phải đặt lệnh cho từng trình thu thập thông tin của công cụ tìm kiếm. Nhưng nếu bạn là người cẩn thận, việc đặt lệnh này giúp rà soát được nội dung trang tốt hơn.
- Các search engine thường cập nhật nội dung trong bộ nhớ cache ít nhất một lần một ngày.Nếu muốn thay đổi hay cập nhật file nhanh hơn hiện tại, hãy dùng chức năng Gửi trong Trình kiểm tra tệp robots.txt.
Phân biệt giữa robots.txt, meta robots và x-robots
Khi bắt đầu tìm hiểu, bạn thường sẽ bị nhầm lẫn giữa robots.txt, meta robots và x-robots.
Đầu tiên, robots.txt là tệp văn bản, ra lệnh cho lập chỉ mục trang web hoặc thư mục. Trong khi đó, meta robots và x-robots là các meta directive.
Cả 3 robot này có chức năng hoàn toàn khác nhau. Như đề cập trên thì robots.txt ra lệnh cho thu thập dữ liệu toàn bộ trang web, thư mục. Meta robots và x-robots ra lệnh cho hành vi index ở cấp độ trang (hay phần tử trang) riêng lẻ.
Xem thêm: Cách thiết kế giao diện responsive là gì?
Lời kết
Bài viết trên đây giúp bạn hiểu robots.txt là gì, đóng vai trò thế nào cũng như cách tạo lập và kiểm tra. Bên cạnh đó là một số lưu ý để quá trình sử dụng robots.txt là hiệu quả nhất. Hãy liên hệ ngay nếu doanh nghiệp bạn cần được tư vấn về chiến lược Digital Marketing. Theo dõi On Digitals để cập nhật thêm nhiều thông tin, kiến thức hữu ích.
BÀI VIẾT MỚI NHẤT
- Spam mail là gì? Tìm hiểu nguyên nhân và phòng tránh spam mail
- Tìm hiểu cấu trúc 4ps trong content writing? Bí quyết giúp content thu hút
- Hướng dẫn kiếm tiền từ Facebook Ad Breaks hiệu quả
- Kế hoạch Facebook marketing: Vai trò quan trọng và cách triển khai phù hợp
- Bật Mí Cách Chạy Quảng Cáo Instagram Hiệu Quả Nhất
Đọc thêm