Robots.txt – Robots Exclusion Protocol

Robots.txt là một file văn bản bao gồm những lời chỉ thị cho các web robots. File này cho phép người quản trị web điều hướng web robots truy cập vào trang web của họ.

Robots Cốc Cốc hỗ trợ robots exclusion standard. Đó là một tiêu chuẩn chung được chấp nhận bởi hầu hết các cỗ máy tìm kiếm, mặc dù cá nhân mỗi cỗ máy tìm kiếm có thể đáp ứng các chỉ thị chuẩn theo các cách hơi khác nhau. Bài viết này sẽ miêu tả Robots Cốc Cốc đọc hiểu các file robots.txt như thế nào.

Nếu bạn muốn sử dụng robots exclusion chuẩn dành cho website của mình:

Robots Cốc Cốc gửi yêu cầu truy cập file robots.txt từ các trang web một cách đều đặn. Trước khi truy cập bất kỳ URLs nào khác của một trang web, robot truy cập file robots.txt của trang web, sử dụng phương thức GET thông qua HTTP hoặc HTTPS. Yêu cầu truy cập này được hỗ trợ gửi cho tới lần chuyển trang thứ 5. Nếu robot không thể nhận bất kỳ câu trả lời nào từ yêu cầu này, trang web sẽ được coi như là không khả dụng và sẽ dừng thu thập dữ liệu trong một khoảng thời gian. Nếu Robot nhận được bất kỳ câu trả lời khác 200 OK thì sẽ giả định rằng không bị hạn chế truy cập tới tất cả các tài liệu của website. Nếu câu trả lời là 200 OK, thì robot sẽ phân tích nội dung được trả về, lấy ra những chỉ thị từ nội dung đó, và sử dụng những lời chỉ thị này cho tới lần yêu cầu truy cập tiếp theo của robot tới file robots.txt.

Lời chỉ thị

User-agent

Mọi Robot Cốc Cốc đều có tên riêng biệt. Bạn có thể tìm thông tin về tất cả các robot tại đây. Bạn có thể sử dụng những tên đó trong chỉ thị User-agent để viết hướng dẫn cho một robot cụ thể. Mọi Robot Cốc Cốc cố gắng tìm ra chỉ thị User-agent phù hợp nhất tới tên của mình. Tất cả các cặp ghép ít rõ ràng hơn sẽ bị bỏ qua, ví dụ:

# Không có robots nào được cho phép tải tài liệu từ '/cgi-bin'.

Disallow: /cgi-bin
# Tất cả các robots, bao gồm tất cả các robot Cốc Cốc, không được cho phép tải tài liệu từ '/cgi-bin'.

User-agent: *
Disallow: /cgi-bin
# Tất cả các robot của Cốc Cốc không được cho phép tải tài liệu từ '/cgi-bin'.
# Tất cả các robot khác vẫn được cho phép tải tất cả tài liệu từ site.

User-agent: *
Allow: /

User-agent: coccocbot
Disallow: /cgi-bin
# coccocbot-web  và coccocbot-image không được cho phép tải tài liệu từ '/ajax'.
# Tất cả các robot Cốc Cốc khác không được cho phép tải tài liệu từ '/cgi-bin'.
# Tất cả các robot khác vẫn được cho phép tải tất cả tài liệu từ site.

User-agent: *
Allow: /

User-agent: coccocbot
Disallow: /cgi-bin

User-agent: coccocbot-web
User-agent: coccocbot-image
Disallow: /ajax
Chú ý rằng bạn có thể sử dụng những lời chú thích trong file robots.txt của bạn. Tất cả các ký tự sau dấu # đầu tiên trong một dòng cho tới cuối dòng sẽ không được phân tích bởi robots. Tất cả các dòng trống trong file đều bị bỏ qua. Bạn có thể đề cập tới cùng một user-agent trong nhiều lần. Trong trường hợp này, tất cả các hướng dẫn cho robots được sử dụng cùng nhau, ví dụ:
# Tất cả các robot của Cốc Cốc không được cho phép tải tài liệu từ '/cgi-bin' và /ajax.
# Tất cả các robot khác vẫn được cho phép tải tất cả tài liệu từ site.

User-agent: coccocbot
Disallow: /cgi-bin

User-agent: *
Allow: /

User-agent: coccocbot
Disallow: /ajax

Disallow and Allow

Nếu bạn muốn chỉ thị robots để không truy cập vào site của bạn hoặc phần nào đó của site, sử dụng chỉ thị Disallow. Ví dụ:
# Không cho phép truy cập tới toàn bộ site dành cho tất cả các robot

User-agent: *
Disallow: /
# Không cho phép truy cập tới những trang bắt đầu với '/cgi-bin' dành cho coccocbot-image

User-agent: coccocbot-image
Disallow: /cgi-bin
Để cho phép robots truy cập vào site của bạn hoặc các phần của site, sử dụng chỉ thị Allow. Ví dụ:
# Không cho phép tất cả các robot Cốc Cốc truy cập tới tất cả các trang của site ngoại trừ URLs bắt đầu với '/docs'

User-agent: coccocbot
Disallow: /
Allow: /docs
Một chỉ thị Disallow trống cho phép robots tải tất cả các trang của site. Một chỉ thị Allow trống thì bị bỏ qua.
# Chỉ thị Disallow trống
Disallow:
# Chỉ thị Allow trống
Allow:

Sử dụng các lời chỉ thị cùng nhau
Nếu có nhiều lời chỉ thị có thể được áp dụng tới một URL nào đó, lời chỉ thị cụ thể nhất được sử dụng.
# Không cho phép tất cả các robot Cốc Cốc truy cập tới những trang bắt đầu với '/cats'
# nhưng cho phép truy cập tới những trang bắt đầu với '/cats/wild’, ngoại trừ những trang bắt đầu với '/cats/wild/tigers'

User-agent: coccocbot
Disallow: /cats
Allow: /cats/wild
Disallow: /cats/wild/tigers
Nếu hai lời chỉ thị (Allow và Disallow) giống nhau, thì lời chỉ thị Allow sẽ được ưu tiên.
# Cho phép tất cả các robot Cốc Cốc truy cập tới những trang bắt đầu với '/dogs/naughty' mặc dù có sự có mặt của chỉ thị Disallow
User-agent: coccocbot
Disallow: /dogs/naughty
Allow: /dogs/naughty

Những ký tự đặc biệt * và $
Dấu (*) trong những lời chỉ thị Allow và Disallow đại diện cho một chuỗi ký tự bất kỳ. Chú ý rằng, theo mặc định, mọi lời chỉ thị !Allow/Disallow đều bao hàm một đuôi *. Để hủy điều này, thêm ký tự ($) vào cuối của trích dẫn.
# Không cho phép truy cập tới tất cả các URLs bao gồm 'private' trong những đường dẫn của chúng

User-agent: coccocbot
Disallow: /*private
# Không cho phép truy cập tới cất cả cá URLs kết thúc bằng '.ajax'
User-agent: coccocbot
Disallow: /*.ajax$

Chỉ thị Sitemap

Bạn có thể thêm chỉ thị sitemap để cho phép robots của chúng tôi sử dụng sitemap files. Chỉ thị sitemap thì không phục thuộc vào chỉ thị User-agent. Sử dụng nhiều chỉ thị Sitemap thì được cho phép.
Sitemap: http://site.vn/sitemaps1.xml
Sitemap: http://site.vn/sitemaps2.xml

Chỉ thị Crawl-delay

Nếu bạn muốn giảm tốc độ Robots Cốc Cốc ghé thăm website của bạn, bạn có thể sử dụng chỉ thị Crawl-delay. Robots Cốc Cốc sẽ hiểu giá trị Crawl-delay là thời gian (tính bằng đơn vị giây) robot phải đợi giữa 2 lần yêu cầu liên tiếp. Hãy chú ý rằng robots của chúng tôi không hỗ trợ crawl-delay lớn hơn 10 giây. Vì thế, một crawl-delay 100 giây sẽ được coi như là một crawl-delay 10 giây. Lời chỉ thị crawl-delay dành cho user-agent cụ thể, vì vậy hãy thêm crawl-delay vào phần chỉ thị User-agent của chúng tôi.
# Hỗ trợ chỉ thị Crawl-delay cho tất cả các robot
User-agent: *
Crawl-delay: 10
# Craw-delay là 10 giây cho tất cả các robot ngoại trừ các robot Cốc Cốc,
# tất cả các robot Cốc Cốc có crawl-delay là 5 giây
User-agent: *
Crawl-delay: 10

User-agent: coccocbot
Crawl-delay: 5