Nội dung trùng lặp hay duplicate content là gì và làm thế nào nó có thể làm tổn thương đến SEO của bạn?
Nội dung trùng lặp gây lo lắng cho nhiều chủ sở hữu trang web. Đây như là một quả bom hẹn giờ, Google sẽ phạt website của bạn trong thời gian tới. Do đó, các đơn vị dịch vụ SEO nghiên cứu từ khóa rất cẩn thận để tránh trùng lặp nội dung.
Nội dung trùng lặp vẫn có thể gây ra sự cố SEO. Và với 25 – 30% web bị trùng lặp nội dung, nó rất hữu ích để biết cách tránh và khắc phục các sự cố đó.
Nội dung trùng lặp là nội dung chính xác hoặc gần trùng lặp xuất hiện trên web ở nhiều nơi. Nó có thể xảy ra trên một trang web hoặc tên miền chéo.
Ví dụ: nếu tôi xuất bản lại bài đăng này tại ahrefs.com/blog/d repeatate-content-copy/, thì đó sẽ là nội dung trùng lặp. Điều đó cũng đúng nếu tôi tái xuất bản nó trên một trang web khác.
Google tuyên bố rằng hầu hết các nội dung trùng lặp không phải là lừa đảo về nguồn gốc.
Nội dung trùng lặp có thể gây hại cho hiệu suất SEO của bạn vì một vài lý do.
Hãy cùng khám phá những điều này cụ thể hơn.
Hãy tưởng tượng rằng cùng một trang có sẵn tại ba URL khác nhau:
Đầu tiên sẽ hiển thị trong kết quả tìm kiếm, nhưng Google có thể hiểu sai điều này. Nếu điều đó xảy ra, một URL không mong muốn có thể thay thế.
Vì mọi người có thể ít có xu hướng nhấp vào URL không thân thiện, nên bạn có thể nhận được ít lưu lượng truy cập không phải trả tiền.
Nếu cùng một nội dung có sẵn tại nhiều URL, thì mỗi URL đó có thể thu hút các Backlink khác nhau. Điều đó dẫn đến việc phân chia tài nguyên liên kết trên mạng giữa các URL.
Để hiển thị một ví dụ về điều này trong tự nhiên, hãy xem hai trang này trên đệm.com:
Các trang này là bản sao gần như chính xác. Và chúng có 106 và 144 Referring domains (liên kết từ các trang web duy nhất), tương ứng.
Trước khi bạn hoảng sợ, hãy biết rằng đây không phải là vấn đề vì cách Google xử lý nội dung trùng lặp.
Nói một cách đơn giản, khi phát hiện nội dung trùng lặp, họ nhóm các URL thành một cụm. Sau đó, họ chọn những gì [họ] nghĩ là URL tốt nhất để đại diện cho cụm trong kết quả tìm kiếm Các thuộc tính hợp nhất của các URL trong cụm, chẳng hạn như mức độ phổ biến của liên kết, đến URL đại diện.
Vì vậy, trong trường hợp trên, Google chỉ nên hiển thị một trong các URL trong tìm kiếm không phải trả tiền và thuộc tính tất cả các tên miền giới thiệu trong cụm (106 + 144) cho URL đó.
Nhưng điều đó không phải là những gì xảy ra, vì chúng ta thấy cả hai URL xếp hạng trong Google cho các từ khóa tương tự.
Trong trường hợp này, Google có khả năng là một nhóm hợp nhất liên kết với nhau tại một URL.
Chúng tôi có thể chắc chắn về cách Google nhìn thấy hai URL này, vì chúng tôi không có quyền truy cập vào tài khoản Google Search Console. Có thể là họ xem cả hai URL này là trùng lặp và một trong số chúng sẽ sớm biến mất khỏi tìm kiếm không phải trả tiền.
Google tìm thấy nội dung mới trên trang web của bạn thông qua thu thập thông tin, có nghĩa là họ theo các liên kết từ các trang hiện có đến các trang mới. Thỉnh thoảng họ cũng thu thập lại các trang mà họ biết về để xem có gì thay đổi không.
Có nội dung trùng lặp chỉ phục vụ để tạo thêm công việc cho họ. Điều đó có thể ảnh hưởng đến tốc độ và tần suất họ thu thập dữ liệu các trang mới hoặc cập nhật của bạn.
Điều đó rất tệ vì nó có thể dẫn đến sự chậm trễ trong việc lập chỉ mục các trang mới và giới thiệu lại các trang cập nhật.
Đôi khi, bạn có thể cho phép một trang web khác xuất bản lại nội dung của bạn. Điều đó được gọi là cung cấp. Những lần khác, các trang web có thể cạo nội dung của bạn và xuất bản lại mà không được phép.
Cả hai kịch bản này đều dẫn đến nội dung trùng lặp trên nhiều tên miền, nhưng chúng thường gây ra sự cố. Nó chỉ có khi nội dung bị loại bỏ hoặc được xuất bản lại bắt đầu vượt xa bản gốc trên trang web của bạn mà có vấn đề phát sinh.
Tin tốt là đây là một trường hợp hiếm gặp, nhưng nó có thể xảy ra.
Google đã tuyên bố nhiều lần rằng họ không có hình phạt nội dung trùng lặp.
“We don’t have a duplicate content penalty. It’s not that we would demote a site for having a lot of duplicate content.”
“Let’s put this to bed once and for all, folks: There’s no such thing as a duplicate content penalty.”
“DYK Google doesn’t have a duplicate content penalty.”
Nhưng, điều này không hoàn toàn đúng. Nếu nội dung trùng lặp của bạn là vô tình và không phải là kết quả của việc cố ý thao túng kết quả tìm kiếm hoặc thực hành spam, thì bạn đã thắng Gọ bị phạt. Nếu có, thì bạn có thể.
Do thường có nhiều kết hợp các bộ lọc này, điều hướng theo mặt thường dẫn đến nhiều nội dung trùng lặp hoặc gần trùng lặp.
HTTPS so với HTTP và không phải www so với www
Hầu hết các trang web có thể truy cập tại một trong bốn biến thể sau:
- https://www.example.com (HTTPS, www)
- https://example.com (HTTPS, không phải www)
- http://www.example.com (HTTP, www)
- http://example.com (HTTP, không phải www)
Nếu bạn sử dụng HTTPS, nó sẽ là một trong hai cái đầu tiên. Cho dù đó là phiên bản www hay không www là lựa chọn của bạn.
Tuy nhiên, nếu bạn không cấu hình chính xác máy chủ của mình, trang web của bạn sẽ có thể truy cập được ở hai hoặc nhiều biến thể này. Điều đó không tốt và có thể dẫn đến các vấn đề trùng lặp nội dung.
GIẢI QUYẾT VẤN ĐỀ NÀY NHƯ THẾ NÀO
Sử dụng redirects để đảm bảo rằng trang web của bạn chỉ có thể truy cập tại một địa điểm.
URL phân biệt chữ hoa chữ thường
Google thấy URL là phân biệt chữ hoa chữ thường.
Điều đó có nghĩa là ba URL này đều khác nhau:
- example.com/page
- example.com/PAGE
- example.com/pAgE
GIẢI QUYẾT VẤN ĐỀ NÀY NHƯ THẾ NÀO
Hãy nhất quán với các liên kết nội bộ (nghĩa là, don don liên kết nội bộ với nhiều phiên bản URL). Nếu điều đó không giải quyết được mọi thứ, bạn luôn có thể chuẩn hóa hoặc chuyển hướng.
Dấu gạch chéo so với không dấu gạch chéo
Google coi các URL có và không có dấu gạch chéo là duy nhất. Điều đó có nghĩa là hai URL này là duy nhất trong mắt Google Google:
- example.com/page/
- example.com/page
Nếu nội dung của bạn có thể truy cập được ở cả hai URL, thì điều đó có thể dẫn đến các vấn đề trùng lặp nội dung.
Để kiểm tra xem đây có phải là sự cố hay không, hãy thử tải một trang có và không có dấu gạch chéo. Lý tưởng nhất, chỉ có một phiên bản sẽ tải. Cái khác sẽ chuyển hướng.
Ví dụ: nếu bạn cố tải bài đăng này mà không có dấu gạch chéo, nó sẽ chuyển hướng đến URL bằng dấu gạch chéo.
Google tuyên bố rằng hành vi này là lý tưởng.
Nếu chỉ có một phiên bản có thể được trả lại (tức là, các phiên bản khác chuyển hướng đến nó), đó là điều tuyệt vời! Hành vi này có lợi vì nó làm giảm nội dung trùng lặp.
GIẢI QUYẾT VẤN ĐỀ NÀY NHƯ THẾ NÀO
Chuyển hướng phiên bản không mong muốn (ví dụ: không có dấu gạch chéo) sang phiên bản mong muốn (ví dụ: với dấu gạch chéo). Bạn cũng nên đảm bảo duy trì sự phù hợp với liên kết nội bộ. Đôi khi không liên kết đến các phiên bản có dấu gạch chéo và không có lần khác. Chọn một và gắn bó với nó.
URL thân thiện với xuất bản
Các phiên bản in thân thiện có cùng nội dung với bản gốc. Nó chỉ có URL khác nhau.
- example.com/page
- example.com/print/page
GIẢI QUYẾT VẤN ĐỀ NÀY NHƯ THẾ NÀO
Canonical phiên bản thân thiện với bản xuất bản
URL thân thiện với thiết bị di động
Các URL thân thiện với thiết bị di động, như các URL thân thiện với in ấn, là các bản sao.
- example.com/page
- m.example.com/page
GIẢI QUYẾT VẤN ĐỀ NÀY NHƯ THẾ NÀO
Canonical phiên bản thân thiện với thiết bị di động về bản gốc. Sử dụng rel = “alternate” để nói với Google rằng URL thân thiện với thiết bị di động là phiên bản thay thế của nội dung trên máy tính để bàn.
Đề nghị đọc: Chú thích cho URL máy tính để bàn và thiết bị di động
URL AMP
Trang di động tăng tốc (AMP) là bản sao.
- example.com/page
- example.com/amp/page
GIẢI QUYẾT VẤN ĐỀ NÀY NHƯ THẾ NÀO
Canonical phiên bản AMP thành phiên bản không AMP. Sử dụng rel = “amphtml” để nói với Google rằng URL AMP là phiên bản thay thế của nội dung không phải AMP.
Nếu bạn chỉ có nội dung AMP, hãy sử dụng thẻ chính quy tự tham khảo.
Thẻ và trang danh mục
Hầu hết các CMS CMS tạo các trang thẻ chuyên dụng khi bạn sử dụng thẻ.
Ví dụ: nếu bạn có một bài viết về kính ốp bếp và bạn sử dụng cả hai loại thẻ kính ốp bếp và kính màu ốp bếp, thì bạn sẽ kết thúc với hai trang thẻ như sau:
- example.com/tag/kinh-op-bep/
- example.com/tag/kinh-mau-op-bep/
Điều đó không luôn luôn gây ra nội dung trùng lặp, nhưng nó có thể.
Đó là trường hợp mà ở đây vì ở đó chỉ có một trang trên trang web có hai thẻ đó, vì vậy mỗi trang thẻ giống hệt nhau.
GIẢI QUYẾT VẤN ĐỀ NÀY NHƯ THẾ NÀO
Hai lựa chọn:
- Không sử dụng thẻ. Hầu hết thời gian, dù sao họ cũng có ít hoặc không có giá trị.
- Noindex trang thẻ của bạn. Điều này không giải quyết vấn đề thu thập ngân sách, vì Google vẫn sẽ lãng phí thời gian để thu thập dữ liệu các trang này
Lưu ý rằng các trang danh mục có thể gây ra vấn đề tương tự cho các trang thẻ.
Giải quyết vấn đề này bằng cách sử dụng số lượng danh mục hợp lý trên trang web của bạn hoặc thậm chí noindex các trang danh mục của bạn.
URL hình ảnh đính kèm
Nhiều CMS tạo các trang chuyên dụng để đính kèm hình ảnh. Các trang này thường không hiển thị gì ngoài hình ảnh và một số bản sao soạn sẵn.
Vì bản sao này giống nhau trên tất cả các trang được tạo tự động, dẫn đến nội dung trùng lặp.
GIẢI QUYẾT VẤN ĐỀ NÀY NHƯ THẾ NÀO
Vô hiệu hóa các trang dành riêng cho hình ảnh trong CMS của bạn. Trong WordPress, bạn có thể làm điều này bằng cách sử dụng một plugin như Yoast.
Nhận xét
WordPress và CMS khác cho phép bình luận phân trang. Điều này gây ra nội dung trùng lặp vì nó tạo hiệu quả nhiều phiên bản của cùng một URL.
- example.com/post/
- example.com/post/comment-page‑2
- example.com/post/comment-page‑3
GIẢI QUYẾT VẤN ĐỀ NÀY NHƯ THẾ NÀO
Tắt phân trang bình luận hoặc noindex các trang được phân trang của bạn bằng cách sử dụng một plugin như Yoast.
Location hóa
Nếu bạn phục vụ nội dung tương tự với những người ở các địa phương khác nhau có cùng ngôn ngữ thì điều đó có thể gây ra nội dung trùng lặp.
Ví dụ: bạn có thể có các phiên bản khác nhau của trang web của mình cho những người ở Hoa Kỳ, Vương quốc Anh và Úc. Vì có thể chỉ có sự khác biệt nhỏ giữa nội dung được phân phát cho từng địa phương (ví dụ: giá tính bằng đô la so với bảng Anh), các phiên bản sẽ gần trùng lặp.
GIẢI QUYẾT VẤN ĐỀ NÀY NHƯ THẾ NÀO
Sử dụng thẻ hreflang để nói với các công cụ tìm kiếm về mối quan hệ giữa các biến thể.
Trang kết quả tìm kiếm
Rất nhiều trang web có hộp tìm kiếm. Sử dụng chúng thường đưa bạn đến một URL tìm kiếm được tham số hóa.
Ví dụ: example.com?q=search-term
Matt Cut, cựu Giám đốc của Googlespam, Matt Cutts, tuyên bố rằng:
Typically, web search results don’t add value to users, and since our core goal is to provide the best search results possible, we generally exclude search results from our web search index. (Not all URLs that contain things like “/results” or “/search” are search results, of course.)
GIẢI QUYẾT VẤN ĐỀ NÀY NHƯ THẾ NÀO
Sử dụng thẻ meta rô bốt để xóa các trang tìm kiếm khỏi chỉ mục Google, hoặc chặn quyền truy cập vào các trang kết quả tìm kiếm trong tệp robots.txt. Không liên kết nội bộ với các trang kết quả tìm kiếm.
Môi trường dàn dựng
Môi trường dàn dựng là phiên bản trùng lặp hoặc gần trùng lặp của trang web của bạn được sử dụng cho mục đích thử nghiệm.
Ví dụ, hãy tưởng tượng rằng bạn muốn cài đặt một plugin mới hoặc thay đổi một số mã trên trang web của bạn. Bạn có thể không muốn đẩy thẳng đến một trang web trực tiếp với hàng trăm ngàn khách truy cập hàng ngày. Nguy cơ thảm họa là quá cao. Giải pháp là kiểm tra những thay đổi trong môi trường dàn dựng trước.
Môi trường dàn dựng trở thành một vấn đề SEO khi Google lập chỉ mục chúng vì nó dẫn đến nội dung trùng lặp.
GIẢI QUYẾT VẤN ĐỀ NÀY NHƯ THẾ NÀO
Bảo vệ môi trường dàn dựng của bạn bằng cách sử dụng xác thực HTTP, danh sách trắng IP hoặc truy cập VPN. Nếu nó đã được lập chỉ mục, hãy sử dụng lệnh robot noindex để xóa nó.
Cách kiểm tra nội dung trùng lặp trên trang web của bạn
Sau khi hoàn thành, hãy đến báo cáo chất lượng nội dung.
Tìm kiếm các cụm trùng lặp và gần trùng lặp mà không có kinh điển. Chúng được tô màu cam.
Nhấp vào bất kỳ cụm nào để xem các trang bị ảnh hưởng.
Điều tra lý do cho nội dung trùng lặp, sau đó thực hiện hành động thích hợp.
Lưu ý rằng những chiến thắng này luôn luôn là vấn đề cần khắc phục, đặc biệt là trong trường hợp trùng lặp gần.
KHÔNG PHẢI LÀ NGƯỜI DÙNG AHREFS?
Tìm kiếm các cảnh báo liên quan đến nội dung trùng lặp này trong Google Search Console:
- Trùng lặp mà không có tiêu chuẩn do người dùng chọn
- Trùng lặp, Google chọn kinh điển khác với người dùng
- Trùng lặp, URL đã gửi không được chọn là hợp quy
Tìm hiểu thêm về cách đối phó với những cảnh báo ở đây.
Để xem cách Google xử lý một URL cụ thể, hãy sử dụng công cụ Kiểm tra URL.
Bạn cũng có thể kiểm tra các thẻ tiêu đề trùng lặp, mô tả meta và H1 trong báo cáo thẻ HTML.
Bản sao xấu là những gì bạn đang tìm kiếm. Đây là những trang có thẻ meta trùng lặp nhưng khác nhau.
Chọn những mục này bằng cách nhấp vào các bản sao xấu của Bad Bad chuyển đổi theo thẻ & nội dung HTML.
Nhấp vào bất kỳ thanh màu vàng để xem các trang bị ảnh hưởng.
Các trang có tiêu đề trùng lặp, mô tả meta hoặc H1 [thường rất giống nhau.
Google tuyên bố rằng bạn nên giảm thiểu nội dung tương tự như thế này:
Nếu bạn có nhiều trang tương tự nhau, hãy xem xét mở rộng từng trang hoặc hợp nhất các trang thành một.
Tuy nhiên, một số lượng nhỏ các trang tương tự dường như không phải là vấn đề.
Cách kiểm tra các vấn đề trùng lặp nội dung trên web
Quét và cung cấp nội dung cũng có thể dẫn đến các vấn đề trùng lặp nội dung. Nhưng nó thường chỉ là một vấn đề nếu bạn thấy các phiên bản bị loại bỏ nội dung của bạn vượt xa bạn.
Điều đó có xảy ra không? Có, nhưng nó thường là một vấn đề đối với các trang web mới hoặc yếu. Tại sao? Bởi vì các trang web cạo nội dung của bạn thường có thẩm quyền hơn. Điều đó đôi khi khiến thủ thuật của Google nghĩ rằng Google là bản gốc.
Nếu bạn có một trang web nhỏ, thì bạn thường có thể tìm thấy nội dung bị loại bỏ bằng cách tìm kiếm trên Google một đoạn văn bản từ trang của bạn trong dấu ngoặc kép.
Đối với các trang web lớn hơn, bạn sẽ cần sử dụng một công cụ tự động như Copyscape. Điều này tìm kiếm trên web cho các lần xuất hiện khác của nội dung trên (các) trang của bạn.
Dù bạn sử dụng phương pháp nào, hầu hết các kết quả sẽ đến từ các trang web spam và chất lượng thấp.
Nói chung, những điều này không có gì phải lo lắng. Tuy nhiên, nếu bạn thấy rằng một trang web hợp pháp đã loại bỏ nội dung của bạn và lo ngại rằng nó có thể đánh cắp lưu lượng truy cập của bạn, hãy ném URL vào Ahrefs Site Explorer để xem ước tính lưu lượng truy cập không phải trả tiền.
Nếu nó nhận được nhiều lưu lượng truy cập hơn trang của bạn, thì có thể có một vấn đề.
Trong trường hợp này, bạn có ba tùy chọn:
- Tiếp cận và yêu cầu họ xóa nội dung.
- Tiếp cận và yêu cầu họ thêm một liên kết chính tắc vào bản gốc trên trang web của bạn.
- Gửi yêu cầu gỡ xuống DMCA qua Google.
Nếu bạn cố tình cung cấp nội dung cho các trang web khác, thì nó đáng để yêu cầu họ thêm một liên kết chính tắc vào bản gốc. Điều đó sẽ loại bỏ nguy cơ các vấn đề nội dung trùng lặp.
NÂNG CẤP NỘI DUNG TRÊN TRANG WEB CỦA BẠN?
Nếu bạn xuất bản lại nội dung từ những người khác trên trang web của bạn, có hai cách để ngăn chặn sự cố trùng lặp nội dung:
- Canonical trở lại ban đầu.
- Noindex trang.
KẾT LUẬN
Đừng căng thẳng vì nội dung trùng lặp quá nhiều. Nó thường là một vấn đề ít hơn nhiều so với nó.
Nếu bạn có một số ít các trang trùng lặp hoặc gần trùng lặp, thì có lẽ không có vấn đề gì. Điều tương tự cũng đúng khi trích dẫn nội dung từ một trang web khác hoặc các trang khác trên trang web của bạn. Một lượng nhỏ nội dung trùng lặp hoặc soạn sẵn sẽ ổn. Google có các hệ thống để giải quyết những việc như vậy.
Những gì bạn cần phải cảnh giác là những rủi ro SEO kỹ thuật dẫn đến việc tạo ra hàng trăm hoặc hàng ngàn trang nội dung trùng lặp, chẳng hạn như việc triển khai điều hướng không đúng cách trên các trang web thương mại điện tử.
Chúng có thể tàn phá ngân sách thu thập dữ liệu của bạn, trong số những thứ khác.