Một khối Spider hiệu quả cho WordPress

Nếu nó không dành cho nhện, chúng tôi sẽ không thể tìm kiếm Google để định vị nội dung Web. Nhện là những robot quét web và lập chỉ mục mọi thứ chúng tìm thấy để khi bạn muốn tìm kiếm các bài viết trên WordPress, nó biết các bài viết đó ở đâu và có thể hướng bạn đến chúng. Tuy nhiên, bạn không cần phải để một con nhện lập chỉ mục WordPress và có một cách dễ dàng để tạo một khối nhện hiệu quả cho WordPress để chặn các con nhện từ các công ty có uy tín. Một khối nhện thậm chí còn hiệu quả hơn bao gồm một số thiết lập và quy trình xác định và chặn những con nhện xấu bỏ qua hướng dẫn và lập chỉ mục Nội dung web mà bạn đã chỉ định là giới hạn cho nhện.

Robots.txt

Khi một con nhện truy cập trang web WordPress của bạn, điều đầu tiên cần làm là đọc tệp "robot.txt". Tệp này chứa các quy tắc chỉ định các tệp và thư mục có thể hoặc không thể được lập chỉ mục bởi tất cả các con nhện hoặc các con nhện được đặt tên riêng. Một con nhện tìm thấy mã "tác nhân người dùng" duy nhất của nó trong tệp hoặc ký tự đại diện cho biết "tất cả các con nhện". Sau đó nó đọc danh sách các tập tin và thư mục được phép hoặc không được phép. Tiếp theo, nó bắt đầu lập chỉ mục các phần của trang web được phép lập chỉ mục.

Nhện chặn

Bạn có thể tạo một khối nhện hiệu quả cho WordPress bằng cách tạo tệp "robot.txt" trong thư mục gốc WordPress của bạn và chỉ định quy tắc không cho phép lập chỉ mục của thư mục gốc của trang web. Điều này tự động không cho phép lập chỉ mục của bất kỳ thư mục con của thư mục gốc. Trong tệp, bạn cũng nên xác định rằng quy tắc này áp dụng cho tất cả các mã tác nhân người dùng nhện. Mỗi con nhện truy cập trang web của bạn nên đọc tệp và rời đi mà không lập chỉ mục bất kỳ phần nào của trang web của bạn. Ví dụ: tệp "robot.txt" sẽ trông giống như:

Tác nhân người dùng: * Không cho phép: /

Nhện tốt và xấu

Có những con nhện tốt và có những con nhện xấu. Những con nhện tốt đến từ các công ty có uy tín như Google, Yahoo hoặc Microsoft và tuân thủ các quy tắc trong tệp "robot.txt" của bạn. Nhện xấu là từ các cá nhân hoặc công ty cố tình bỏ qua tệp "robot.txt" và có khả năng lập chỉ mục toàn bộ nội dung trang web của bạn bất kể bạn cho phép hay không cho phép những gì. Những robot này đôi khi đang tìm kiếm thông tin cụ thể như địa chỉ email, để bán cho người gửi thư rác hoặc thông tin cá nhân về người dùng để bán cho các công ty khác. Các con nhện quét toàn bộ trang web của bạn, tìm kiếm thông tin hoặc nội dung mà bạn chưa ẩn hoặc bảo vệ đúng cách. Các quản trị web khác nhau có cách đối phó khác nhau với những con nhện lừa đảo. Một số chỉ đơn giản là cố gắng xác định họ là ai và chặn họ lập chỉ mục nội dung trong trang web. Những người khác cố gắng gây ra thiệt hại bằng cách đầu độc cơ sở dữ liệu của con nhện bằng thông tin giả hoặc bằng cách lừa con nhện vào một vòng lặp vô tận khiến nó bỏ cuộc hoặc hủy bỏ.

Hũ mật ong

Honeypot hoặc tarpit là một kỹ thuật được sử dụng bởi một số quản trị web để xác định những con nhện lừa đảo để chúng có thể bị chặn. Bạn có thể tạo một honeypot bằng cách thêm một thư mục chứa nội dung giả mạo, chẳng hạn như địa chỉ email và đặc biệt không cho phép thư mục đó trong tệp "robot.txt". Nhật ký máy chủ sẽ cho bạn biết những con nhện nào đã truy cập vào thư mục và bạn có thể ghi lại chuỗi tác nhân người dùng và địa chỉ IP của chúng. Với thông tin đó, bạn có thể tạo các quy tắc trong tệp "htaccess" của WordPress từ chối quyền truy cập vào các con nhện lừa đảo này. Honeypot cần phải được kiểm tra thường xuyên trên cơ sở liên tục để bắt những robot lừa đảo mới truy cập vào trang web của bạn.

Bài ViếT Phổ BiếN