Các robot của Cốc Cốc

Các robot (bot, crawler) của Cốc Cốc bao gồm các robot có nhiệm vụ tìm kiếm thu thập thông tin của các trang Web, phục vụ cho bộ máy tìm kiếm của Cốc Cốc. Các robot này sẽ tự động dò tìm, phân tích và tải xuống dữ liệu của các trang Web để đưa vào bảng chỉ mục (index) của bộ tìm kiếm. Chúng tôi có nhiều loại robot khác nhau. Chúng có thể phân biệt qua chuỗi user agent (là một chuỗi nhận dạng yêu cầu được gửi đến máy chủ), bạn có thể tìm thấy trong các ghi chép truy cập (access logs).

Chuỗi user agent Tên robot Chú thích
Mozilla/5.0 (compatible; coccocbot/1.0; +http://help.coccoc.com/searchengine) coccocbot Tên gọi chung cho tất cả các loại robot của Cốc Cốc
Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine) coccocbot-web Robot web chính
coccocbot-web/1.0 (+http://help.coccoc.com/searchengine) coccocbot-web Robot web chính, sử dụng cách này trong một vài trường hợp thay thế cho cách dùng:
Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine).
Mozilla/5.0 (compatible; coccocbot-image/1.0; +http://help.coccoc.com/searchengine) coccocbot-image Robot hình ảnh
Mozilla/5.0 (compatible; coccocbot-fast/1.0; +http://help.coccoc.com/searchengine) coccocbot-fast Robot nhanh
Mozilla/5.0 (compatible; coccocbot-ads/1.0; +http://help.coccoc.com/searchengine) coccocbot-ads Robot quảng cáo
Mozilla/5.0 (compatible; coccocbot-shopping/1.0; +http://help.coccoc.com/searchengine) coccocbot-shopping Robot thu thập dữ liệu trang web thương mại điện tử

Để biết thêm thông tin về cách kiểm soát hành vi của các robot này cùng với user agents, chi tiết tại bài viết.

Để kiểm tra tính xác thực của các robot của chúng tôi, bạn có thể tra cứu ngược DNS. Trong các bản ghi truy cập của bạn, tìm kiếm địa chỉ IP mà được sử dụng để tạo các yêu cầu từ chuỗi user agents của chúng tôi. Thực hiện tra cứu DNS thông qua các địa chỉ IP để có thể xác định được tên miền của máy chủ. Tên máy chủ phải kết thúc bằng ".coccoc.com". Cuối cùng, thực hiện một tra cứu DNS với tên máy chủ để tìm địa chỉ IP. Nếu địa chỉ IP trùng với địa chỉ IP trước đó thì đó là một robot của Cốc Cốc, nếu kết qủa khác nhau thì có khả năng ai đó đã cố gắng gỉa mạo là một robot Cốc Cốc.