Bạn đang ở trong phòng Trợ giúp

Robot (bot, crawler) Cốc Cốc là 1 chương trình máy tính dùng để thu thập nội dung các website/trang con trên Internet, được viết bởi công ty công nghệ Cốc Cốc. Robot này tìm kiếm và tải về nội dung các website, rồi biên tập chúng vào cơ sở dữ liệu của bộ máy tìm kiếm Cốc Cốc. Nhờ đó, người dùng Cốc Cốc sẽ dễ dàng tìm thấy website của bạn và đồng thời lượng truy cập vào website cũng tăng lên.

Dưới đây là một số câu hỏi (và giải đáp) thường gặp về robot và bộ máy tìm kiếm Cốc Cốc.

1. Tại sao website/trang con của tôi không xuất hiện trong kết quả tìm kiếm của coccoc.com/search?

Để biết website của mình đã có trong cơ sở dữ liệu Cốc Cốc hay chưa, bạn có thể kiểm tra bằng cách truy nhập vào coccoc.com/search, rồi gõ truy vấn "site:websitecủabạn.com websitecủabạn.com". Ví dụ: site:coccoc.com coccoc.com. Nếu truy vấn của bạn không cho ra kết quả nào, đó là vì website của bạn chưa có trong cơ sở dữ liệu của chúng tôi do một số nguyên nhân sau:

Nguyên nhân 1: website của bạn chưa được tìm thấy bởi robot Cốc Cốc.

Robot Cốc Cốc tự động tìm kiếm và thu thập dữ liệu website bằng cách lần theo các đường liên kết (link). Trước hết, robot lần vào những url đầu tiên mà nó phát hiện, tải những trang đó về cơ sở dữ liệu Cốc Cốc. Tiếp theo, nó phát hiện ra những url khác nằm trên các trang đã tải, lần theo những url đó để vào các trang mới, rồi lại tải những trang mới đó về. Quá trình này được lặp đi lặp lại liên tục. Do vậy, để website của bạn được tìm thấy bởi robot, bạn cần đặt url các trang của bạn vào trong các website khác. Những liên kết này phải không được chứa chỉ dẫn nofollow trong thẻ a href. Mặt khác, để tập trung khai thác các nội dung mà người Việt quan tâm, robot Cốc Cốc đã được thiết kế dành riêng cho thị trường Việt Nam. Nó sẽ ưu tiên quét liên kết từ các website có ngôn ngữ tiếng việt hoặc tên miền .vn trước. Do vậy, những liên kết website của bạn cần xuất phát từ các website có một lượng người truy cập nhất định từ Việt Nam. Trong trường hợp website của bạn mới được tạo, có thể sẽ cần một khoảng thời gian để robot Cốc Cốc tìm thấy những trang ngoài chứa liên kết tới website của bạn.

Nguyên nhân 2: website của bạn đã chặn robot Cốc Cốc truy cập vào

Nếu website của bạn đã có sẵn những liên kết trên, bạn hãy chắc chắn rằng những trang-được-liên-kết này cho phép robot Cốc Cốc truy cập vào để đánh chỉ mục, bằng cách: mở file robots.txt, kiểm tra robot của chúng tôi (với user-agent: coccoc) có bị chặn hay không. Tiếp theo, bạn hãy chắc chắn rằng không có chỉ dẫn noindex trong nội dung các trang của bạn. Ngoài ra, rất có thể website của bạn (hoặc nhà cung cấp dịch vụ Internet) đã chặn chuỗi user-agent (Mozilla/5.0 (compatible; coccoc/1.0; +http://help.coccoc.com/searchengine)), hoặc chặn địa chỉ IP của robot Cốc Cốc. Trong trường hợp này, bạn hãy liên hệ với nhân viên quản trị hệ thống (system administrators) của bạn hoặc nhà cung cấp dịch vụ Internet để kiểm tra. Nếu bạn muốn thêm một số trang vào cơ sở dữ liệu của chúng tôi, hãy gửi địa chỉ URL của chúng ở đây:

2. Làm thế nào để xóa website của tôi hoặc một vài trang con ra khỏi kết quả tìm kiếm của coccoc.com/search?

Có vài cách để bạn ngăn robot Cốc Cốc không đánh chỉ mục hoặc tải các trang của bạn về cơ sở dữ liệu của chúng tôi. Cách đầu tiên, bạn có thể sửa dữ liệu trong file robots.txt. Giả sử, bạn không muốn robot Cốc Cốc tải về các trang con có URL bắt đầu bằng /cgi-bin/, bạn có thể thêm chỉ dẫn sau vào file robots.txt:

User-agent: coccoc
Disallow: /cgi-bin/

Trong phần lớn các trường hợp, những URL bị chặn trong file robots.txt sẽ không xuất hiện trong cở sở dữ liệu của chúng tôi. Tuy nhiên, có thể một số trang có URL bị chặn vẫn xuất hiện trong cơ sở dữ liệu, nhưng không có nội dung. Với những trường hợp nay, mô tả về trang trong kết quả tìm kiếm sẽ giống như ví dụ dưới đây:

xaluan.com
Không có mô tả chung do chính sách hạn chế truy cập từ phía site chủ quản

Cách hai, bạn có thể thêm chỉ dẫn ​noindex vào trang của bạn để hướng dẫn robot Cốc Cốc loại bỏ hoàn toàn trang đó ra khỏi cơ sở dữ liệu. Nếu sử dụng noindex, bạn không được chặn URL trang đó trong file robots.txt. Trong trường hợp robot Cốc Cốc tìm thấy các liên kết tới trang của bạn, nó sẽ không thêm trang đó vào cơ sở dữ liệu (bởi robot vẫn phải tải trang đó về, sau đó mới đọc được chỉ dẫn noindex trong nội dung trang đó).

Cách cuối cùng, bạn cũng có thể dùng chỉ dẫn nofollow cho một số liên kết trong website bạn. Nếu tất cả các liên kết tới một địa chỉ URL cụ thể đều có chỉ dẫn này, robot Cốc Cốc sẽ không truy cập URL đó. Tuy vậy, nếu các liên kết từ các website bên ngoài tới trang của bạn không gắn chỉ dẫn nofollow, robot Cốc sẽ vẫn truy cập URL của bạn và tải về cơ sở dữ liệu như bình thường. Do đó, cách làm này có thể không hoàn toàn ngăn chặn trang của bạn xuất hiện trong cơ sở dữ liệu của chúng tôi.

Cả ba cách trên đều cần một khoảng thời gian để những thay đổi được cập nhật vào cơ sở dữ liệu của Cốc Cốc. Nếu muốn quá trình cập nhật được nhanh hơn, bạn có thể gửi URL trang con hoặc toàn bộ website của bạn tại đây:

3. Phải xử lý thế nào nếu robot Cốc Cốc làm trang/máy chủ của tôi quá tải?

Trong trường hợp này, bạn có thể làm giảm tần suất robot Cốc Cốc ghé thăm trang của bạn bằng cách sử dụng chỉ dẫn crawl-delay trong file robots.txt.

Ví dụ, để thiết lập khoảng thời gian ghé thăm giữa 2 lần liên tiếp (chu kỳ) của robot là 5 giây, bạn hãy thêm chỉ dẫn sau vào file robots.txt:

User-agent: coccoc
Crawl-delay: 5

Chú ý: Chúng tôi không hỗ trợ chu kỳ ghé thăm lớn hơn 10 giây. Vì vậy, nếu bạn thiết lập crawl-delay 100 giây, nó sẽ mặc định giống như thiết lập crawl-delay 10 giây.

Tăng chu kỳ ghé thăm có thể làm chậm lại việc cập nhật website của bạn trong cơ sở dữ liệu tìm kiếm của chúng tôi. Điều này sẽ không quá quan trọng nếu website của bạn nhỏ và chỉ giới hạn một số lượng trang con nhất định, bởi robot Cốc Cốc vẫn có thể cập nhật các trang của bạn đầy đủ kịp thời. Tuy nhiên, nếu website của bạn có hàng triệu trang nội dung, chu kỳ lớn sẽ ảnh hưởng đến tốc độ cập nhật. Khi đó, bạn hãy chắc chắn rằng tất cả những trang có thể được thu thập của bạn sẽ hữu ích với người dùng Internet nhất. Ví dụ, 1 website đang dùng mô hình ​tìm kiếm Faceted. Tìm kiếm Faceted là cách phổ biến để tìm một đối tượng trong cơ sở dữ liệu lớn (big database) bằng việc sử dụng các bộ lọc. Mỗi bộ lọc được đại diện bởi một tham số (parameter) trong các địa chỉ URL. Số tổ hơp các giá trị khác nhau của các tham số sẽ rất lớn, mặc dù chỉ có một số lượng nhỏ các đối tượng thực sự trong cơ sở dữ liệu website của bạn. Nếu bạn muốn ngăn robot Cốc Cốc tải về một số trang từ website của bạn, vui lòng xem câu trả lời trong mục 2 ở trên.

Nếu bạn là nhà cung cấp dịch vụ Internet, bạn có thể yêu cầu giảm tần xuất truy cập của robot Cốc Cốc bằng cách điền vào biểu mẫu phía bên dưới.

4. Bạn có những câu hỏi/yêu cầu khác?

Vui lòng điền chúng ở đây