Việc tìm ra được cách sửa lỗi orphan page trên website thật sự giúp SEO làm việc hiệu quả hơn và không lãng phí thời gian. Nhưng, bất kỳ ai khi đọc vào cụm từ “orphan page” sẽ không hiểu nó nghĩa là gì. Đơn giản, orphan page là một trang web mà không có bất kỳ liên kết nào đến nó.
Chuyện tìm thấy các trang website mà không có các liên kết thực sự rất khó khăn, nhưng không phải là không thể.
Giả sử, các trang trên website của bạn mà người dùng và công cụ tìm kiếm không thể truy cập. Đó thực sự là vấn đề mà bạn cần khắc phục ngay lập tức để ổn định website của bạn.
Những trang website mà có tình trạng chung như trên thì gọi là orphan page.
Bài viết dưới đây sẽ giúp bạn tìm hiểu orphan page nghĩa là gì, cách để tìm thấy tất cả các trang orphan pages và lý giải tại sao cách sửa lỗi orphan page lại quan trọng với SEO.
Orphan page là gì ?
Một trang website mà không có bất kỳ các link (liên kết) nào trỏ đến thì gọi là orphan page.
Các công cụ tìm kiếm như là Google thường tìm thấy các trang mới theo 2 cách dưới đây:
- Trình thu thập thông tin web (bot hoặc spider) theo liên kết từ một website khác.
- Các URL được liệt kê trong XML sitemap của bạn được trình thu thập thông tin web tìm thấy.
Vì vậy, nếu bạn muốn Google thu thập dữ liệu và lập chỉ mục trang của bạn thì phải biết tìm thấy chúng ở đâu.
Tại sao các trang orphan page lại là vấn đề SEO ?
Thực tế, các công cụ tìm kiếm không thể nào tìm thấy các trang orphan page thông qua liên kết. Vì vậy, các orphan pages không lập chỉ mục và không bao giờ hiển thị trong kết quả tìm kiếm. Ngay cả khi, orphan pages được liệt kê trong XML Sitemap của bạn thì nó vẫn là 1 vấn đề SEO.
Các trang orphan page có tốt không?
Orphan pages không phải là lựa chọn hoàn hảo cho người dùng hay các trình thu thập thông tin web. Vì người dùng không thể nào truy cập các trang đó thông qua cấu trúc tự nhiên ở website của bạn. Do đó, nếu có bất kỳ thông tin quan trọng hay hữu ích trên các trang đó thì bạn đã bị bỏ qua lãng phí.
Điều này tạo ra cho người dùng một trải nghiệm không mấy là thích thú.
Không có liên kết nội bộ thì bạn không có thẩm quyền nào được chuyển đến các trang và các công cụ tìm kiếm không có ngữ cảnh hoặc cấu trúc để đánh giá trang.
Nếu không có bất kỳ cách nào để biết vị trí trang phù hợp với tổng thể trang web của bạn. Dường như, việc xác định trang có liên quan đến những truy vấn nào sẽ trở nên khó khăn hơn với bạn.
Phân biệt Orphan và Dead End Pages (trang ngõ cụt)
Trước khi, chúng ta tìm hiểu sâu về trang orphan page thì cần làm rõ sự khác biệt giữa 2 định nghĩa về SEO này để tránh gây nhầm lẫn.
Như đã đề cập ở trên, orphan page là trang web không được liên kết hoặc có thể truy cập từ bất kỳ trang nào khác trên cùng một trang web.
Mặt khác, dead-end page là một trang web không liên kết với bất kỳ trang web nội bộ nào khác hoặc bất kỳ trang web bên ngoài nào. Vì vậy, nó giống như đang tạo ra một cái “ngõ cụt”.
Chính vì vậy, mọi người truy cập vào trang này, họ có thể quay lại hoặc bỏ trang web.
Khi trình thu thập thông tin web của công cụ tìm kiếm truy cập vào trang, chúng không có nơi nào để đi và không có liên kết nào có thể được thông qua.
Ngày nay, với rất nhiều mẫu và chủ đề có sẵn, càng khó tạo ra một ngõ cụt.
Dead-end dễ dàng được khắc phục bằng cách thêm liên kết đến nội dung trên trang của bạn. Chưa kể, đảm bảo rằng điều hướng trên thanh sidebar hoặc phần dưới website được điền trên mọi trang.
Bây giờ chúng ta hãy cùng nhau đi tìm các trang orphan pages.
1. Xác định các trang có thể thu thập thông tin website của bạn
Bạn cần phải liệt kê tất cả URLs có thể truy cập được bằng cách thu thập thông tin các liên kết trên trang website của bạn.
Để thực hiện được điều này, bạn cần trình thu thập thông tin web của riêng mình – một con nhện SEO sẽ làm điều này. ScreamingFrog sẽ là một công cụ tốt nhất hỗ trợ bạn làm được điều đó.
Dù bạn sử dụng trình thu thập thông tin nào, hãy đảm bảo rằng trình thu thập thông tin web được đặt để chỉ thu thập thông tin các trang có thể lập chỉ mục bởi các công cụ tìm kiếm.
Vì vậy, ý tôi là nó không nên thu thập dữ liệu các trang:
- Noindexed
- Bị ẩn khỏi công cụ tìm kiếm bởi robots.txt.
Hãy bắt đầu thu thập thông tin từ trang chủ của trang web.
Đảm bảo sử dụng URL chuẩn, bao gồm https hoặc http thích hợp và www hoặc không phải www.
Khi bạn đã thu thập thông tin trang web của mình, hãy xuất các URL sang một bảng tính như sau:
2. Giải quyết 2 nguyên nhân phổ biến trên các orphan page
Có 2 nguyên nhân phổ biến khiến các trang orphan page cần xử lý và khắc phục ngay lập tức.
Các nguyên nhân này khiến cho việc sao chép các trang sẽ tự động chuyển hướng nhất quán đến chỉ một URL.
Nếu không, có khả năng một số phiên bản của trang không được liên kết đến .
Trong trường hợp này, thực tế các orphan page không phải là vấn đề chính mà họ chỉ là bản sao chép.
Những điều này có thể xuất hiện sau khi bạn đang tìm kiếm các trang dành cho orphan page và cần được xử lý. Vì vậy, bạn nên xử lý chúng trước.
Không nhất quán https/ http hoặc www/ không www
Cứ mỗi trang công khai trên trang website của bạn tốt nhất nên sử dụng nhất quán giữa http hoặc https (tốt nhất là https) và www hoặc không phải www.
Để kiểm tra xem có đúng như vậy không, hãy nhập tất cả các biến ở trang chủ của trang web vào trình duyệt của bạn:
- https://www.example.com
- http://www.example.com
- https://example.com
- http://example.com
Tất cả 4 biến này sẽ tự động chuyển hướng đến cùng 1 URL.
Nếu một trong các biến này không chuyển hướng đúng thì đó có thể là dấu hiệu của các vấn đề tương tự trên trang web rộng hơn.
Hãy kiểm tra các URL khác, sử dụng các biến đó để xem đó có phải vấn đề nghiêm trọng không.
Bạn nên kiểm tra một vài trang khác trên trang web của mình và kiểm tra tệp .htaccess của trang web để đảm bảo rằng các chuyển hướng cho những trang này được thiết lập đúng cách.
Đây là cách ép giao thức https nằm trong .htaccess. Nếu bạn làm điều này, hãy xác minh rằng mọi trang trên trang web của bạn đều có khả năng SSL. Vì nếu không người dùng của bạn sẽ nhận được cảnh báo trình duyệt tệ hơn.
Đây là cách ép www hoặc không phải www. Một lần nữa, hãy kiểm chứng điều này sẽ không tạo ra bất kỳ lỗi máy chủ nào.
Dấu gạch chéo trong cách sửa lỗi orphan page
Một điều khác cần lưu ý là sử dụng nhất quán các dấu gạch chéo.
Ví dụ: hai URL này có thể tạo ra cùng 1 nội dung nhưng các URL không giống nhau:
- https://example.com/page1/
- https://example.com/page
Kiểm tra một số trang trên trang web của bạn có dấu gạch chéo ở cuối hay không và hãy đảm bảo rằng chúng tự động chuyển đến cùng 1 URL.
Làm rõ điều này bằng cách thiết lập đúng cách trong .htaccess.
Dưới đây hướng dẫn cách làm thế nào ép buộc 1 dấu gạch chéo nằm trong .htaccess.
3. Đưa ra một danh sách các URLs từ Google Analytics
Theo định nghĩa thì trình thu thập thông tin web sẽ gặp khó khăn khi tìm các trang orphan page.
Vì vậy, sử dụng bất kỳ công cụ SEO nào để tìm kiếm 1 công cụ chắc chắn sẽ có vấn đề.
Một trong những nơi tốt nhất để tìm các trang orphan pages chính là các dữ liệu trên Google Analytics của riêng bạn. Hay là bạn có thể sử dụng công cụ phân tích nào khác.
Miễn là các trang được đề cập đã cài đặt công cụ Google Analtytics.
Để có được danh sách đầy đủ các URL, từ thanh bên trái, hãy chuyển đến Behavior> Site Content> All pages.
Bởi vì các trang orphan page rất khó tìm, số lần chúng được truy cập có khả năng khá thấp.
Nhấp vào “Pageviews” để mũi tên hướng lên trên, hiển thị danh sách các URL được sắp xếp theo thứ tự tăng dần từ ít nhất đến hầu hết các lần xem trang.
Điều này sẽ chuyển các trang có nhiều orphan page nhất lên đầu tiên:
Để đảm bảo danh sách của chúng tôi toàn diện nhất có thể, hãy chuyển đến chế độ phạm vi ngày tháng ở nút cùng bên phải.
Thiết lập ngày bắt đầu trở lại thời điểm trước khi có Google Analytics và nhấp vào nút Apply:
Ở dưới cùng bên phải, click Show row để hiện thị hàng và số lượng hàng cao nhất được chọn.
Trở ngại lớn nhất của chúng tôi là Analytics chỉ có thể liệt kê tối đa 5.000 URL cùng một lúc:
Nếu bạn có nhiều hơn số này, bạn sẽ phải xuất 5.000 trang cùng một lúc cho đến khi bạn có tất cả dữ liệu khách truy cập Google Analytics của mình.
Tuy nhiên, chúng tôi đang sắp xếp số lần xem trang web theo thứ tự tăng dần. Vì vậy, danh sách của chúng tôi hy vọng sẽ bao gồm tất cả và rất có thể sẽ bao gồm hầu hết các URL của orphan page đã có lượng truy cập.
Có thể sẽ mất một chút thời gian để Analytics tìm thu nạp tất cả dữ liệu.
Sau khi các URL được tải, hãy lên trên cùng bên phải, chọn xuất và xuất Google Sheets, tệp Excel hoặc bảng tính CSV để lấy URL của bạn.
Nếu kỹ thuật hơn một chút, bạn có thể sử dụng API Google Analytics để tăng tốc quá trình này. Ngoài ra, hãy thử sử dụng chỉ số số lần xem trang so với kích cỡ của pagePath.
Bây giờ sao chép các URL từ tệp phân tích đã xuất của bạn vào bảng tính orphan page của bạn, như sau:
Chúng tôi sẽ cần đưa chúng vào định dạng URL để chúng hữu ích.
Để thực hiện việc này, hãy chèn một cột mới và dán URL trang chủ , như sau:
Và sử dụng công thức concat () để kết hợp chúng với nhau thành một URL trong cột tiếp theo:
Sau đó, chỉ cần kéo công thức xuống để nhận danh sách URL đầy đủ
4. Xác định các URL trên orphan page của bạn
Để xác định các URL trên Orphan page của bạn, bạn cần phải so sánh URL có thể thu thập thông tin và danh sách các URL Analytics được tìm thấy trong bảng tính của mình.
Trong ví dụ về giả thuyết ở trên, rõ ràng https://example.com/11 là một trang orphan page. Thực tế, bạn luôn có nhiều URL hơn để lọc và chúng tôi sẽ cần tự động hóa quá trình xác định URL orphan của mình .
Để làm điều này, chúng tôi cần một công thức kiểm tra xem mỗi URL trong danh sách Analytics có tìm thấy trong danh sách URL có thể thu thập thông tin của chúng tôi hay không.
Dưới đây là một ví dụ về một công thức sẽ thực hiện điều này:
Công thức “match” mà chúng tôi đã sử dụng trong ô E2 ở đây là:
= match (D2, $ A $ 2: $ A $ 11,0)
Công thức này kiểm tra xem URL trong ô D2 có nằm trong phạm vi $ A $ 2: $ A $ 11 hay không.
Nếu bạn không quá quen thuộc với bảng tính, các ký hiệu đô la ở đó để đảm bảo rằng khi kéo công thức xuống cột, phạm vi sẽ không thay đổi.
Giá trị “0” cho Google Sheet biết rằng các cột không nhất thiết phải được sắp xếp.
Nếu có một kết quả phù hợp, công thức trả về vị trí của nó trong phạm vi, trong trường hợp này là vị trí đầu tiên trong phạm vi.
Tuy nhiên, điều chúng tôi quan tâm hơn là nếu không có kết quả phù hợp.
Như bạn có thể thấy, công thức trả về lỗi “# N / A” cho https://example.com/11. Vì nó không được tìm thấy trong danh sách URL có thể thu thập thông tin của chúng tôi.
Sau đó, để có được danh sách các trang orphan page của chúng ta, tất cả những gì cần làm là sắp xếp cột Match để thu thập tất cả các kết quả “# N / A” vào một nơi.
Tiếp theo, chúng tôi có thể sao chép danh sách các URL orphan và dán chúng vào một trang tính mới.
5. Những nơi tìm thấy các URL Orphan
Bạn có thể lặp lại quy trình này để xác định URL orphan bằng cách sử dụng các nguồn dữ liệu khác ngoài Google Analytics.
Bất kỳ công cụ nào sau đây sẽ có danh sách các trang được thu thập thông tin từ trang web của bạn:
- SEMrush
- Ahrefs
- Moz Link Explorer
- Công cụ Raven
Tuy nhiên, Bạn hãy suy nghĩ trước khi đăng ký bất kỳ trang nào trong số đó chỉ để tìm kiếm các orphan page. Vì họ sẽ cần phải thu thập thông tin bằng cách nào đó các trang này để tìm thấy chúng.
SEMrush và Ahrefs có các công cụ và thực hành cụ thể để giúp bạn khám phá các orphan.
Trong một số trường hợp, các công cụ này sẽ tìm thấy các trang không thể thu thập dữ liệu trực tiếp. Vì chúng được tìm thấy bằng các phương tiện khác, thường là vào một thời điểm nào đó trong lịch sử khi trang có thể thu thập thông tin:
Làm việc với team lập trình của bạn để xem liệu họ có thể lấy danh sách URL đầy đủ trên trang web trực tiếp từ máy chủ hay không.
Bạn cũng có thể xem qua các log file của mình để tìm dữ liệu này.
Log file thường chứa thông tin về:
- Ai là người truy cập trang web của bạn
- Họ đến từ đâu.
- Những trang website họ đã truy cập.
Bạn có thể thực hiện lần thu thập dữ liệu thứ hai trên trang web của mình, bỏ qua các lệnh như “nofollow” và “noindex”. Sau đó,,so sánh nó với lần thu thập thông tin ban đầu của bạn.
Có thể có những trang chỉ có thể truy cập bởi trình thu thập thông tin bỏ qua các chỉ thị đó. Ngoài ra, các trang đó có thể là một nguồn orphan page khác.
Cuối cùng, bạn có thể nhận được danh sách các URL từ báo cáo Phân tích tìm kiếm của Google Search Console.
Mặc dù các trang này rõ ràng đã được lập chỉ mục nếu chúng hiển thị ở đây, bạn vẫn có thể tìm thấy các trang không thể thu thập dữ liệu từ các liên kết nội bộ của mình và cần được sửa.
Kết luận về cách sửa lỗi orphan page
Các công cụ tìm kiếm không thể lập chỉ mục các trang orphan page nếu chúng không hiển thị trong sitemap trên trang web của bạn . Nếu không tìm ra cách sửa lỗi orphan page ngay lập tức thì nó sẽ trở thành vấn đề cho SEO.
Tóm lại, thông qua bài viết này giúp bạn tìm hiểu các cách sửa lỗi orphan page và phương pháp giải quyết vấn đề này.
Nguồn tham khảo: https://www.searchenginejournal.com/find-orphan-pages/276207/