Robots.txt – Robots Exclusion Protocol
Robots.txt là một file văn bản bao gồm những lời chỉ thị cho các web robots. File này cho phép người quản trị web điều hướng web robots truy cập vào trang web của họ.
Robots Cốc Cốc hỗ trợ robots exclusion standard. Đó là một tiêu chuẩn chung được chấp nhận bởi hầu hết các cỗ máy tìm kiếm, mặc dù cá nhân mỗi cỗ máy tìm kiếm có thể đáp ứng các chỉ thị chuẩn theo các cách hơi khác nhau. Bài viết này sẽ miêu tả Robots Cốc Cốc đọc hiểu các file robots.txt như thế nào.
Nếu bạn muốn sử dụng robots exclusion chuẩn dành cho website của mình:
- 1. Tạo một file text với những chỉ thị phù hợp với miêu tả phía dưới
- 2. Đặt tên file là robots.txt
- 3. Tải file này lên thư mục gốc trang web của bạn.
Robots Cốc Cốc gửi yêu cầu truy cập file robots.txt từ các trang web một cách đều đặn. Trước khi truy cập bất kỳ URLs nào khác của một trang web, robot truy cập file robots.txt của trang web, sử dụng phương thức GET thông qua HTTP hoặc HTTPS. Yêu cầu truy cập này được hỗ trợ gửi cho tới lần chuyển trang thứ 5. Nếu robot không thể nhận bất kỳ câu trả lời nào từ yêu cầu này, trang web sẽ được coi như là không khả dụng và sẽ dừng thu thập dữ liệu trong một khoảng thời gian. Nếu Robot nhận được bất kỳ câu trả lời khác 200 OK thì sẽ giả định rằng không bị hạn chế truy cập tới tất cả các tài liệu của website. Nếu câu trả lời là 200 OK, thì robot sẽ phân tích nội dung được trả về, lấy ra những chỉ thị từ nội dung đó, và sử dụng những lời chỉ thị này cho tới lần yêu cầu truy cập tiếp theo của robot tới file robots.txt.
Lời chỉ thị
User-agent
Mọi Robot Cốc Cốc đều có tên riêng biệt. Bạn có thể tìm thông tin về tất cả các robot tại đây. Bạn có thể sử dụng những tên đó trong chỉ thị User-agent để viết hướng dẫn cho một robot cụ thể. Mọi Robot Cốc Cốc cố gắng tìm ra chỉ thị User-agent phù hợp nhất tới tên của mình. Tất cả các cặp ghép ít rõ ràng hơn sẽ bị bỏ qua, ví dụ:
# Không có robots nào được cho phép tải tài liệu từ '/cgi-bin'. Disallow: /cgi-bin
# Tất cả các robots, bao gồm tất cả các robot Cốc Cốc, không được cho phép tải tài liệu từ '/cgi-bin'. User-agent: * Disallow: /cgi-bin
# Tất cả các robot của Cốc Cốc không được cho phép tải tài liệu từ '/cgi-bin'. # Tất cả các robot khác vẫn được cho phép tải tất cả tài liệu từ site. User-agent: * Allow: / User-agent: coccocbot Disallow: /cgi-bin
# coccocbot-web và coccocbot-image không được cho phép tải tài liệu từ '/ajax'. # Tất cả các robot Cốc Cốc khác không được cho phép tải tài liệu từ '/cgi-bin'. # Tất cả các robot khác vẫn được cho phép tải tất cả tài liệu từ site. User-agent: * Allow: / User-agent: coccocbot Disallow: /cgi-bin User-agent: coccocbot-web User-agent: coccocbot-image Disallow: /ajaxChú ý rằng bạn có thể sử dụng những lời chú thích trong file robots.txt của bạn. Tất cả các ký tự sau dấu # đầu tiên trong một dòng cho tới cuối dòng sẽ không được phân tích bởi robots. Tất cả các dòng trống trong file đều bị bỏ qua. Bạn có thể đề cập tới cùng một user-agent trong nhiều lần. Trong trường hợp này, tất cả các hướng dẫn cho robots được sử dụng cùng nhau, ví dụ:
# Tất cả các robot của Cốc Cốc không được cho phép tải tài liệu từ '/cgi-bin' và /ajax. # Tất cả các robot khác vẫn được cho phép tải tất cả tài liệu từ site. User-agent: coccocbot Disallow: /cgi-bin User-agent: * Allow: / User-agent: coccocbot Disallow: /ajax
Disallow and Allow
Nếu bạn muốn chỉ thị robots để không truy cập vào site của bạn hoặc phần nào đó của site, sử dụng chỉ thị Disallow. Ví dụ:# Không cho phép truy cập tới toàn bộ site dành cho tất cả các robot User-agent: * Disallow: /
# Không cho phép truy cập tới những trang bắt đầu với '/cgi-bin' dành cho coccocbot-image User-agent: coccocbot-image Disallow: /cgi-binĐể cho phép robots truy cập vào site của bạn hoặc các phần của site, sử dụng chỉ thị Allow. Ví dụ:
# Không cho phép tất cả các robot Cốc Cốc truy cập tới tất cả các trang của site ngoại trừ URLs bắt đầu với '/docs' User-agent: coccocbot Disallow: / Allow: /docsMột chỉ thị Disallow trống cho phép robots tải tất cả các trang của site. Một chỉ thị Allow trống thì bị bỏ qua.
# Chỉ thị Disallow trống Disallow: # Chỉ thị Allow trống Allow:
Sử dụng các lời chỉ thị cùng nhau
Nếu có nhiều lời chỉ thị có thể được áp dụng tới một URL nào đó, lời chỉ thị cụ thể nhất được sử dụng.# Không cho phép tất cả các robot Cốc Cốc truy cập tới những trang bắt đầu với '/cats' # nhưng cho phép truy cập tới những trang bắt đầu với '/cats/wild’, ngoại trừ những trang bắt đầu với '/cats/wild/tigers' User-agent: coccocbot Disallow: /cats Allow: /cats/wild Disallow: /cats/wild/tigersNếu hai lời chỉ thị (Allow và Disallow) giống nhau, thì lời chỉ thị Allow sẽ được ưu tiên.
# Cho phép tất cả các robot Cốc Cốc truy cập tới những trang bắt đầu với '/dogs/naughty' mặc dù có sự có mặt của chỉ thị Disallow User-agent: coccocbot Disallow: /dogs/naughty Allow: /dogs/naughty
Những ký tự đặc biệt * và $
Dấu (*) trong những lời chỉ thị Allow và Disallow đại diện cho một chuỗi ký tự bất kỳ. Chú ý rằng, theo mặc định, mọi lời chỉ thị !Allow/Disallow đều bao hàm một đuôi *. Để hủy điều này, thêm ký tự ($) vào cuối của trích dẫn.# Không cho phép truy cập tới tất cả các URLs bao gồm 'private' trong những đường dẫn của chúng User-agent: coccocbot Disallow: /*private
# Không cho phép truy cập tới cất cả cá URLs kết thúc bằng '.ajax' User-agent: coccocbot Disallow: /*.ajax$
Chỉ thị Sitemap
Bạn có thể thêm chỉ thị sitemap để cho phép robots của chúng tôi sử dụng sitemap files. Chỉ thị sitemap thì không phục thuộc vào chỉ thị User-agent. Sử dụng nhiều chỉ thị Sitemap thì được cho phép.Sitemap: http://site.vn/sitemaps1.xml Sitemap: http://site.vn/sitemaps2.xml
Chỉ thị Crawl-delay
Nếu bạn muốn giảm tốc độ Robots Cốc Cốc ghé thăm website của bạn, bạn có thể sử dụng chỉ thị Crawl-delay. Robots Cốc Cốc sẽ hiểu giá trị Crawl-delay là thời gian (tính bằng đơn vị giây) robot phải đợi giữa 2 lần yêu cầu liên tiếp. Hãy chú ý rằng robots của chúng tôi không hỗ trợ crawl-delay lớn hơn 10 giây. Vì thế, một crawl-delay 100 giây sẽ được coi như là một crawl-delay 10 giây. Lời chỉ thị crawl-delay dành cho user-agent cụ thể, vì vậy hãy thêm crawl-delay vào phần chỉ thị User-agent của chúng tôi.# Hỗ trợ chỉ thị Crawl-delay cho tất cả các robot User-agent: * Crawl-delay: 10
# Craw-delay là 10 giây cho tất cả các robot ngoại trừ các robot Cốc Cốc, # tất cả các robot Cốc Cốc có crawl-delay là 5 giây User-agent: * Crawl-delay: 10 User-agent: coccocbot Crawl-delay: 5