Chắc hẳn, đã có lúc bạn muốn ngăn các công cụ tìm kiếm truy cập và hiển thị một trang nào đó cho người dùng phải không? Hoặc bạn không biết làm cách nào để các bot index website của mình nhanh chóng.
Hãy tạo file robots.txt cho wordpress ngay! Nó sẽ đáp ứng những mong muốn đó của bạn.
File robots.txt là gì?
Là bản chỉ dẫn các công cụ tìm kiếm cách thu thập dữ liệu, index nội dung và hiển thị website của bạn cho người dùng.
Mẫu file robots.txt chuẩn cho WordPress:
User-agent: *
Disallow: /wp-admin/
Allow: /
Sitemap: https://tenmiencuawebsite.com/sitemap_index.xml
Nó mang ý nghĩa cho phép toàn bộ các công cụ tìm kiếm phân tích và lập chỉ mục tất cả các dữ liệu trong website ngoại trừ trang www.tenmiencuawebsite.com/wp-admin/. Bạn có thể tùy chỉnh sao cho phù hợp nhất với website của mình.
Lý do phải tạo file robots.txt cho WordPress?
Bạn cần hạn chế hoặc ngăn cản các bots “quét” trang trong một vài trường hợp sau:
1. Nội dung không có giá trị hoặc bị trùng lặp
Trên web sẽ hiển thị rất nhiều thông tin khác như các tập tin thiết lập hệ thống, plugin WordPress,… Đây là những thông tin không có giá trị với người dùng. Vì vậy, website sẽ bị loãng, chất lượng nội dung giảm đi nếu vẫn index những nội dung này.
2. Trang con có vai trò thiết lập và thử nghiệm website
Đối với một website chưa hoàn thiện, chưa sẵn sàng ra mắt người dùng, bạn nên tạo file robots.txt để không cho các công cụ tìm kiếm rà soát và xác nhận website của mình.
Bên cạnh đó, một số website dùng trang con thử nghiệm tính năng hoặc mẫu thiết kế. Nếu người dùng truy cập vào những trang như thế sẽ làm ảnh hưởng đến chất lượng website cũng như sự chuyên nghiệp của công ty bạn.
3. Website có lượng nội dung lớn
Khả năng của mỗi bot trong một lần truy cập web đều có giới hạn. Chúng phải mất nhiều thời gian hơn khi crawl và index website nhiều nội dung, bởi những nội dung còn lại phải đợi “quét” vào lần tiếp theo.
4. Giúp công cụ tìm kiếm dẽ phân tích website hơn
Không có file robots.txt, việc thu thập và lập chỉ mục tất cả các nội dung liên tục có thể làm giảm tốc độ tải trang, tác động đến trải nghiệm người dùng, dẫn đến lượng truy cập giảm đi và tỉ lệ thoát trang cao hơn.
Tạo file robots.txt cho WordPress giúp các công cụ tìm kiếm làm việc nhanh chóng và hiệu quả hơn. Từ đó, cải thiện kết quả SEO cho trang web của bạn.
File robots.txt nằm ở đâu?
WordPress tự thiết lập mặc định một file robots.txt ảo trong thư mục gốc folder public_html của địa chỉ website. Để xem file robots.txt này, bạn có thể truy cập vào đường dẫn: tenmiencuaban.com/robots.txt.
Do tính chất không thể chỉnh sửa dù nó vẫn hoạt động trên website, nên bạn cần tạo file robots.txt tùy ý thay thế.
Các chỉ lệnh cơ bản của file robots.txt WordPress
Mỗi file robots.txt bao gồm nhiều chỉ lệnh khác nhau, mỗi chỉ lệnh là một dòng.
1. User-agent (Tác nhân người dùng)
– Yếu tố này mang tính bắt buộc, mỗi file sẽ có nhiều user và các chỉ lệnh phải được phân rõ theo từng user.
– User-agent là trình thu thập dữ liệu thực hiện chỉ lệnh, ví dụ: googlebot, bingbot, yahoo bot,…
– Dấu *: đại diện cho toàn bộ trình thu thập dữ liệu.
2. Disallow (Không cho phép)
– Disallow là lệnh không cho phép user truy cập thu thập dữ liệu trong trang và thư mục được chỉ định.
– Trong lệnh Disallow, đường dẫn phải có tên trang đầy đủ như hiển thị trong trình duyệt hoặc nếu là đường dẫn thư mục thì phải kết thúc bằng dấu /
– Ký tự /: nghĩa là user-agent không được phép thu thập dữ liệu trên phạm vi toàn bộ nội dung của website.
– Dấu *: đại diện cho một tiền tố, hậu tố hoặc toàn bộ chuỗi đường dẫn.
3. Allow (Cho phép)
– Allow: cho phép user-agent truy cập thu thập dữ liệu trong trang và thư mục chỉ định.
– Thường ghi chồng lên Disallow để thu thập thông tin ở thư mục con và trang con trong thư mục, trang không cho phép.
– Giống Disallow, đường dẫn trong lệnh Allow cũng phải có tên trang đầy đủ như trình duyệt hiển thị hoặc kết thúc với dấu / nếu đó là đường dẫn thư mục.
– Ký tự /: cho phép user-agent thu thập dữ liệu toàn bộ nội dung trên website.
– Dấu *: đại diện cho một tiền tố, hậu tố hoặc toàn bộ chuỗi đường dẫn.
Ví dụ: User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php/
File robots.txt này cho phép tất cả trình thu thập dữ liệu “quét” /admin-ajax/ trong trang quản trị không được phép truy cập nhằm hỗ trợ một số plugin hoạt động.
Lưu ý: Mỗi user cần ít nhất 1 chỉ lệnh Allow hoặc Disallow.
4. Noindex (Không lập chỉ mục)
– Đôi khi, Google vẫn lập chỉ mục trang web đã Disallow.
– Các trang không nên lập chỉ mục: landing page, trang thử nghiệm, trang cảm ơn đối tượng cụ thể,..
– Lệnh Noindex: ngăn trình thu thập dữ liệu lập chỉ mục.
– Đường dẫn cũng phải có tên trang đầy đủ như trình duyệt hiển thị hoặc kết thúc với dấu / nếu đó là đường dẫn thư mục.
5. Sitemap (Sơ đồ trang web)
– Đây không phải là chỉ lệnh bắt buộc.
– Các bot thường theo đường dẫn trên website. Sitemap giúp chúng đánh giá toàn trang, biết nội dung nào nên “quét” và từ đó cải thiện kết quả SEO website tốt hơn.
Ví dụ: User-agent: *
Disallow: /trang-cam-on/
Noindex: /trang-cam-on/
Sitemap: https://tenmiencuaban.com/sitemap.xml
Cách tạo file robots.txt cho WordPress
1. Tạo file robots.txt cho WordPress bằng Yoast SEO
– Vào Dashboard -> Chọn SEO -> Tools hoặc Dashboard -> Chọn Tools -> Yoast SEO (đối với WordPress phiên bản khác).
– Nhấn “File Editor” trong trang quản trị Yoast SEO.
– Click “Create robots.txt file” để tạo file robots.txt cho WordPress hoặc chỉnh sửa tập tin có sẵn.
– Nhấp nút “Save changes to robots.txt”để lưu lại mỗi khi thêm rules mới hoặc xóa rules cũ.
2. Tạo file robots.txt cho WordPress qua bộ plugin All in One SEO
Dù nhẹ hơn, nhưng bộ plugin All in One SEO vẫn bao gồm tất cả các tính năng của Yoast SEO.
- Vào Dashboard -> Chọn All in One SEO -> Feature Manager.
- Tìm mục Robots.txt, click vào nút “Activate”ngay bên dưới
- Xuất hiện mục robots.txt như một tab mới trong thư mục All in One SEO -> tạo lập và điều chỉnh file robots.txt tại đây.
Tuy nhiên, thay vì có thể chỉnh sửa file như công cụ Yoast SEO, All in One SEO làm mờ thông tin của file robots.txt. Nhưng nhờ vậy, bạn sẽ hạn chế thiệt hại cho website của mình.
3. Sử dụng Text Editor để tạo file robots.txt cho WordPress
Mở NotePad hoặc TextEdit, gõ vào đó vài dòng và lưu lại dưới bất kỳ tên nào, rồi chọn loại file là txt. Chỉ mất ít phút đã có file robots.txt mà không cần tới plugin.
Sau khi tạo xong, upload qua FTP là xong.
Kiểm tra file robots.txt như thế nào?
- Đăng nhập Google Search Console
- Chọn “Go to old version” để quay lại giao diện cũ dễ sử dụng hơn
- Vào Crawl -> Nhấn “robots.txt Tester” -> Nhập các chỉ lệnh đã cài đặt > Click “Submit”
- Kiểm tra kết quả số lượng Errors và Warnings -> chỉnh sửa nếu cần
- Tải bản robots.txt mới lên thư mục gốc-> Chọn Download updated code
- Tự động cập nhật -> chọn Ask Google to Update.
Đến đây thì chắc các bạn đã nắm được thông tin khái quát về cách tạo file robots.txt cho WordPress rồi nhỉ?
Website của bạn và các bot của công cụ tìm kiếm sẽ tương tác tốt hơn khi có sự hiện diện của file robots.txt chuẩn. Từ đó, tăng khả năng tiếp cận người dùng với trang web được cập nhật liên tục và chính xác.
Đừng quên để lại bình luận nếu có bất kỳ thắc mắc nào nhé!