Báo cáo của Google’s Index Coverage rất hữu ích vì nó cung cấp cho SEOers những hiểu biết rõ ràng hơn về các quyết định thu thập dữ liệu và lập chỉ mục của Google.
Trong báo cáo, có nhiều trạng thái khác nhau cung cấp cho quản trị viên thông tin về cách Google xử lý nội dung website của họ. Nhưng hầu hết vẫn chưa rõ ràng, như trạng thái: Crawled — Currently Not Indexed.
Vậy thông báo Crawled — Currently Not Indexed mang ý nghĩa cụ thể là gì? Và cách xử lý vấn đề này ra sao? Cùng Hoc11.vn tìm hiểu qua bài viết sau nhé!
1. Cách Google giải thích vấn đề
Theo tài liệu chính thức của Google, tình trạng này có nghĩa là: Trang này được Google Crawled (thu thập thông tin), nhưng Not Indexed (không được lập chỉ mục). Nó có thể hoặc không thể được lập chỉ mục trong tương lai cho nên không cần gửi lại URL này để thu thập dữ liệu.
Vì vậy, về cơ bản những gì chúng ta biết là:
- Google có thể truy cập trang
- Google mất thời gian để Crawled
- Sau khi Crawled, Google quyết định trang này Not Indexed
Chìa khóa để hiểu trạng thái này là nghĩ về lý do tại sao Google có quyết định Not Indexed cho trang này. Chúng ta biết rằng Google không gặp khó khăn khi tìm trang, nhưng vì một số lý do, họ cảm thấy người dùng sẽ không được lợi gì khi tìm thấy nó.
Điều này khá bực bội, vì bạn không biết tại sao nội dung của mình Not Indexed. Dưới đây là một số lý do phổ biến nhất để giải thích tại sao tình trạng bí ẩn này có thể ảnh hưởng đến trang web của bạn.
2. Trạng thái giả
2.1. URL đã được nằm trong chỉ mục
Bước đầu tiên là luôn thực hiện một vài kiểm tra đối với các URL được gắn cờ trong phần Crawled — Currently Not Indexed. Không phải là hiếm khi tìm thấy các URL đang được báo cáo là bị loại trừ nhưng cuối cùng hóa ra đã nằm trong chỉ mục của Google rồi.
Ví dụ: Đây là một URL được gắn cờ trong báo cáo: https://gofishdigital.com/meetup/
Tuy nhiên, khi searching, có thể thấy rằng URL đã được nằm trong chỉ mục của Google.
Nếu bạn thấy một số các URL được báo cáo có trạng thái này, bạn nên bắt đầu bằng cách như hình trên để xác định xem URL có được lập chỉ mục hay không.
Với trường hợp này thì không cần làm gì cả, bạn không gặp phải vấn đề gì.
Nếu trang web của bạn sử dụng RSS, bạn có thể tìm thấy các URL xuất hiện trong phần Crawled — Currently Not Indexed. Các URL này sẽ có phần “/feed/” được gắn vào cuối. Chúng có thể xuất hiện như hình này:
3.2. Hãy để GoogleBot làm nhiệm vụ của nó
Google có thể Not Indexed các URL này là vì lý do chính đáng. Nếu bạn điều hướng đến một RSS feed URL, bạn sẽ nhìn thấy một văn bản XML giống như bên dưới:
Mặc dù XML docs này hữu ích cho các RSS feeds, nhưng Google không cần đưa nó vào chỉ mục. Điều này sẽ cung cấp một trải nghiệm rất kém vì nội dung này không dành cho khách truy cập.
4. URL được phân trang
4.1. Vấn đề xảy ra đối với các trang TMĐT
Một lý do cực kỳ phổ biến khác cho vấn đề Not Indexed là phân trang. Ở đây chúng ta có thể thấy một số URL được phân trang xuất hiện từ một trang web thương mại điện tử:
4.2. Kiểm tra các nofollow tag của bạn
Google sẽ cần thu thập dữ liệu thông qua các URL được phân trang để có được thông tin đầy đủ của trang web. Đây là con đường dẫn đến nội dung như các trang chuyên mục sâu hơn hoặc các trang mô tả sản phẩm. Tuy nhiên, Google sử dụng phân trang như một con đường để truy cập nội dung, thì Google không nhất thiết phải lập chỉ mục các URL được phân trang này.
Hãy chắc chắn rằng bạn không làm bất cứ điều gì tác động đến việc thu thập dữ liệu của từng trang. Đảm bảo rằng tất cả các phân trang của bạn đều chứa self-referential canonical tag và không có bất kỳ nofollow tag nào.
5. Sản phẩm hết hàng
5.1. Trạng thái “OutOfStock” hoặc “Expired” của sản phẩm
Khi kiểm tra các trang riêng lẻ được liệt kê trong báo cáo, một vấn đề phổ biến mà ta hay gặp trên các máy khách là URL có chứa văn bản ghi chú như Products “expired” hoặc “out of stock”. Đặc biệt trên các trang web thương mại điện tử, có vẻ như Google sẽ kiểm tra xem sự sẵn có của một sản phẩm cụ thể. Nếu đó là một sản phẩm không có sẵn, nó sẽ tiến hành loại trừ sản phẩm đó khỏi chỉ mục.
Điều này từ góc độ UX là Google có thể không muốn đưa một nội dung vào chỉ mục mà người dùng không thể mua.
Tuy nhiên, nếu những sản phẩm này thực sự còn hàng trên website của bạn, điều này có thể dẫn đến rất nhiều cơ hội SEO bị bỏ lỡ. Bị loại trừ các trang khỏi chỉ mục đồng nghĩa nội dung của bạn sẽ không có cơ hội xuất hiện trên SERP.
Có vẻ như Google đang lấy thông tin từ cả nội dung được hiển thị và cấu trúc dữ liệu về tính khả dụng của một sản phẩm cụ thể. Vì vậy, điều quan trọng là bạn phải kiểm tra cả nội dung và trạng thái dữ liệu của mình.
Đã có những trường hợp không tìm thấy dấu hiệu nào trong nội dung hiển thị là sản phẩm không có hàng. Tuy nhiên, khi kiểm tra cấu trúc dữ liệu, chúng ta có thể thấy rằng thuộc tính của mặt hàng này được đặt là “Out of Stock”.
5.2. Kiểm tra số lượng hàng hóa thường xuyên
Bạn sẽ muốn kiểm tra tất cả các sản phẩm để chắc rằng không có sản phẩm nào bị liệt kê không chính xác. Bạn có thể dùng một công cụ như Screaming Frog để quét dữ liệu từ các trang sản phẩm của bạn.
Chẳng hạn, nếu bạn muốn xem ở quy mô tất cả các URL của mình với trạng thái được đặt là “OutOfStock”, hãy đặt “Regex” thành: “availability”: “
Bạn có thể xuất danh sách này và tham chiếu chéo với dữ liệu hàng tồn kho bằng Excel hoặc các công cụ kinh doanh thông minh khác. Quá trình này có thể được lặp đi lặp lại để tìm ra các sản phẩm sai trạng thái
6. 301 redirects
6.1. Google không lập chỉ mục cho destination URL
Thông thường, Google thu thập dữ liệu của destination URL nhưng không đưa nó vào trong chỉ mục. Tuy nhiên, khi xem SERP, ta thấy rằng Google đang lập chỉ mục một redirecting URL. Vì redirecting URL là URL được lập chỉ mục, nên destination URL bị xuất hiện trong báo cáo Not Indexed.
Vấn đề ở đây là Google chưa nhận ra redirect. Nên nó thấy destination URL là một bản copy.
6.2. Tạo một sitemap.xml tạm thời
Nếu điều này xảy ra với số lượng lớn URL, thì cần phải thực hiện các bước để gửi tín hiệu mạnh hơn tới Google.
Hãy thiết lập sitemap tạm thời. Đây là một chiến lược mà John Mueller đã đề xuất trước đây.
Cách tạo:
- Xuất tất cả các URL từ báo cáo Not Indexed.
- Kết hợp chúng trong Excel với các redirect đã được thiết lập trước đó.
- Tìm tất cả các redirect có destination URL trong báo cáo Not Indexed
- Tạo một sitemap tĩnh của các URL này với Screaming Frog.
- Tải lên sitemap và theo dõi lại báo cáo Not Indexed của bạn
Mục tiêu ở đây là để Google thu thập dữ liệu URL trong sitemap.xml tạm thời thường xuyên hơn. Dẫn đến sự hợp nhất nhanh chóng hơn với các redirect.
7. Nội dung quá ngắn
7.1. Các trang có nội dung quá mỏng và thiếu thực tế
Đôi khi các URL xuất hiện trong báo cáo Not Indexed cực kỳ mỏng về nội dung. Các trang này có thể có tất cả các yếu tố kỹ thuật được thiết lập chính xác, tuy nhiên, khi Google đi vào các URL này, thì thấy có rất ít nội dung thực tế trên trang. Dưới đây là một ví dụ về trang danh mục sản phẩm có rất ít văn bản:
Trang này có thể quá mỏng để Google nghĩ rằng nó hữu ích hoặc có quá ít nội dung mà Google coi đó là bản sao của một trang khác. Kết quả là Google xóa nó ra khỏi chỉ mục.
7.2. Thêm nhiều nội dung hoặc điều chỉnh tín hiệu chỉ mục
Nếu bạn cần các trang này chắc chắn phải được đưa vào chỉ mục, hãy xem xét bổ sung nội dung. Điều này sẽ giúp Google thấy trang này cung cấp trải nghiệm tốt cho người dùng.
Nếu việc lập chỉ mục là không cần thiết đối với các trang này, câu hỏi lớn hơn là liệu bạn có nên thực hiện các bước bổ sung để báo hiệu rằng nội dung này không nên được lập chỉ mục hay không.
Nếu bạn thấy rằng một số lượng lớn các trang này xuất hiện trong chỉ mục, bạn có thể muốn xem xét các hành động mạnh mẽ hơn để đảm bảo các trang này bị xóa khỏi chỉ mục, chẳng hạn như dùng các “noindex” tag, 404 error hoặc xóa chúng khỏi cấu trúc liên kết nội bộ hoàn toàn.
8. Nội dung bị trùng lặp
8.1. URL của bạn bị gắn trạng thái “Duplicate”
Nếu Google thấy nội dung của bạn là trùng lặp, nó có thể thu thập nội dung nhưng không đưa nó vào chỉ mục. Đây là một trong những cách mà Google tránh trùng lặp trên SERP. Bằng cách xóa nội dung trùng lặp khỏi chỉ mục, Google đảm bảo rằng người dùng có nhiều trang độc đáo hơn để tương tác. Đôi khi, báo cáo sẽ gắn nhãn các URL này với trạng thái “Duplicate”. Tuy nhiên, không phải lúc nào cũng luôn như vậy.
Đây là một vấn đề nghiêm trọng, đặc biệt là trên rất nhiều trang web thương mại điện tử. Các trang chính như trang mô tả sản phẩm thường bao gồm các mô tả sản phẩm giống hoặc tương tự như nhiều kết quả khác trên web. Nếu Google nhận ra những trang này quá giống với các trang khác, thì Google có thể loại trừ chúng khỏi chỉ mục cùng lúc.
8.2. Thêm các yếu tố độc đáo vào nội dung trùng lặp
- Lấy một đoạn văn bản trùng lặp và dán nó vào Google.
- Trong URL của SERP, nối thêm chuỗi sau vào cuối: “& num=100”. Điều này sẽ cho bạn thấy 100 kết quả hàng đầu.
- Sử dụng chức năng Tìm kiếm để xem kết quả của bạn có xuất hiện trong 100 kết quả hàng đầu hay không. Nếu không, thì bạn có thể đã bị lọc ra khỏi chỉ mục.
- Quay trở lại URL của SERP và nối chuỗi sau vào cuối: “&filter=0” . Điều này sẽ cho bạn thấy kết quả chưa được lọc của Google.
- Sử dụng chức năng Tìm kiếm để tìm URL của bạn. Nếu bạn thấy trang của mình hiện đang xuất hiện, nội dung của bạn đang bị lọc ra khỏi chỉ mục.
- Lặp lại quy trình này cho một vài URL có nội dung trùng lặp trong báo cáo Not Indexed của bạn
Nếu bạn liên tục thấy các URL của mình bị lọc ra khỏi chỉ mục, bạn sẽ cần thực hiện các bước để làm cho nội dung của bạn trở nên độc đáo hơn.
Mặc dù không có tiêu chuẩn chung cho tất cả để đạt được điều này, nhưng đây là một số mẹo:
- Viết lại nội dung độc đáo hơn trên các trang cần ưu tiên
- Sử dụng các thuộc tính động để tự động đưa nội dung độc đáo lên trang.
- Loại bỏ một lượng lớn nội dung soạn sẵn không cần thiết. Các trang có nhiều văn bản khuôn mẫu có thể bị hiểu là bản sao.
- Nếu trang web của bạn phụ thuộc vào nội dung do người dùng tạo, hãy thông báo cho những người đóng góp rằng tất cả nội dung được cung cấp phải thật độc đáo và khác biệt.
9. Nội dung riêng tư
9.1. Google thu thập dữ liệu những trang không nên
Có một số trường hợp trong đó trình thu thập dữ liệu của Google có quyền truy cập vào nội dung mà họ không nên truy cập. Nếu Google tìm thấy “dev environments”, nó có thể đưa các URL đó vào trong báo cáo Not Indexed.
9.2. Kiểm tra các internal link của bạn
Giải pháp này sẽ hoàn toàn phụ thuộc vào tình huống và những gì Google có thể truy cập. Thông thường, điều đầu tiên bạn muốn làm là xác định cách Google khám phá các URL có tính riêng tư này, đặc biệt là nếu nó thông qua cấu trúc internal link của bạn.
Bắt đầu thu thập thông tin từ trang chủ của sub-domain và xem liệu có bất kỳ tên sub-domain không mong muốn nào có thể được truy cập bởi Screaming Frog thông qua standard crawl hay không. Nếu vậy, thì Googlebot cũng có thể đã tìm ra những con đường như vậy. Bạn có thể xóa bất kỳ internal link nào đến nội dung này để cắt quyền truy cập của Google.
Bước tiếp theo là kiểm tra trạng thái lập chỉ mục của các URL cần được loại trừ. Google có loại tất cả chúng ra khỏi chỉ mục hay không? Nếu không, bạn nên xem xét điều chỉnh tệp robot.txt của mình để chặn Crawling ngay lập tức. Hoặc dùng các noindex tag, canonical tag để bảo vệ chúng.
Kết luận
Hy vọng rằng, điều này sẽ giúp các nhà tiếp thị tìm kiếm hiểu rõ hơn về tình trạng bí ẩn Not Indexed. Tất nhiên, có thể có nhiều lý do khác nhưng đây là những trường hợp phổ biến nhất cho đến nay.
Nhìn chung, Index Coverage report là một trong những công cụ mạnh mẽ nhất của Search Console. Khuyến khích các nhà tiếp thị tìm kiếm và làm quen với dữ liệu của báo cáo này. Nếu bạn tìm thấy trường hợp nào chưa được nhắc đến thì hãy cho TOS biết trong phần Comment nhé và đừng quên bấm theo dõi để nhận những thông báo mới nhất về các bài viết khác nè!
Nguồn: moz.com