Các robot của Cốc Cốc
Các robot (bot, crawler) của Cốc Cốc bao gồm các robot có nhiệm vụ tìm kiếm thu thập thông tin của các trang Web, phục vụ cho bộ máy tìm kiếm của Cốc Cốc. Các robot này sẽ tự động dò tìm, phân tích và tải xuống dữ liệu của các trang Web để đưa vào bảng chỉ mục (index) của bộ tìm kiếm. Chúng tôi có nhiều loại robot khác nhau. Chúng có thể phân biệt qua chuỗi user agent (là một chuỗi nhận dạng yêu cầu được gửi đến máy chủ), bạn có thể tìm thấy trong các ghi chép truy cập (access logs).
Chuỗi user agent | Tên robot | Chú thích |
---|---|---|
Mozilla/5.0 (compatible; coccocbot/1.0; +http://help.coccoc.com/searchengine) |
|
Tên gọi chung cho tất cả các loại robot của Cốc Cốc |
Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine) |
|
Robot web chính |
coccocbot-web/1.0 (+http://help.coccoc.com/searchengine) |
|
Robot web chính, sử dụng cách này trong một vài trường hợp thay thế cho cách dùng:
Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine). |
Mozilla/5.0 (compatible; coccocbot-image/1.0; +http://help.coccoc.com/searchengine) |
|
Robot hình ảnh |
Mozilla/5.0 (compatible; coccocbot-fast/1.0; +http://help.coccoc.com/searchengine) |
|
Robot nhanh |
Mozilla/5.0 (compatible; coccocbot-ads/1.0; +http://help.coccoc.com/searchengine) |
|
Robot quảng cáo |
Mozilla/5.0 (compatible; coccocbot-shopping/1.0; +http://help.coccoc.com/searchengine) |
|
Robot thu thập dữ liệu trang web thương mại điện tử |
Để biết thêm thông tin về cách kiểm soát hành vi của các robot này cùng với user agents, chi tiết tại bài viết.
Để kiểm tra tính xác thực của các robot của chúng tôi, bạn có thể tra cứu ngược DNS. Trong các bản ghi truy cập của bạn, tìm kiếm địa chỉ IP mà được sử dụng để tạo các yêu cầu từ chuỗi user agents của chúng tôi. Thực hiện tra cứu DNS thông qua các địa chỉ IP để có thể xác định được tên miền của máy chủ. Tên máy chủ phải kết thúc bằng ".coccoc.com". Cuối cùng, thực hiện một tra cứu DNS với tên máy chủ để tìm địa chỉ IP. Nếu địa chỉ IP trùng với địa chỉ IP trước đó thì đó là một robot của Cốc Cốc, nếu kết qủa khác nhau thì có khả năng ai đó đã cố gắng gỉa mạo là một robot Cốc Cốc.