Nội dung trùng lặp là những nội dung giống nhau hoặc tương tự nhau (ví dụ khác thứ tự đoạn văn) xuất hiện trong trang web của bạn. Nội dung trên trang web của bạn có thể bị coi là trùng lặp với nội dung của trang khác hay với nội dung của chính bạn. Những nguyên nhân dẫn đến nội dung trùng lặp là:
Copy nội dung của người khác. Hoặc chỉ thay đổi một số từ, câu trong văn bản khác và đăng lên trang web của mình mà không trích nguồn.
Tự động chắp vá nội dung của người khác. Chép nhiều đoạn vain từ nhiều nguồn và thay đổi thứ tự của chúng trong văn bản để biến chúng thành nội dung của mình.
Sử dụng nhiều tên miền. Nếu bạn có nhiều tên miền cùng chỉ về 1 trang web (parked domain) hoặc nhiều trang web cùng nội dung thì google sẽ xem đây là những website độc lập bị trùng lặp về nội dung.
Các phiên bản khác nhau của trang web. Những phiên bản có thể là phiên bản desktop và mobile, bản thường và bản in. Khi index, google sẽ xem nhữg bản này là những trang riêng biệt cò nội dung trùng lặp.
Các tham số trong url.
Các tham số trong url nếu không quản lý tốt sẽ trở thành thảm họa. Ví dụ như: google sẽ xem tenmien.com/lang=vi và tenmien.com/lang=vn và tenmien.com/lang=vi&country=vn là những trang web khác nhau. Nếu chúng có cùng nội dung, google sẽ đánh dấu nội dung trùng lặp và hạ thứ bậc seo của chúng.
Tính năng đệm của một số cms. Tính năng đệm (cache) và tính năng lưu trữ (archive) của một số cms tạo ra trang giống hệt trang gốc để đệm hay lưu. Những trang web này sẽ bị google xếp vào hạng nội dung trùng lặp.
Cố tình tạo nội dung trùng lặp nhằm seo. Đây là hành vi coq chủ ý, thay đổi chút ít nội dung của chính mình để tạo bài viết mới nhằm tăng kết quả tìm kiếm trên google và chiếm các từ khóa khác.
Những yếu tố không phải là nội dung trùng lặp:
Giao thức. Nhiều người nghĩ google xem http://tenmien.com và https://tenmien.com là 2 trang web độc lập và bị trùng lặp. Tuy vậy thì hiện nay google đã xem đây là 1 trang web. Chỉ cần thêm cả 2 thuộc tính trong search console và lựa chọn tên miền ưa thích (prefered domain) là ok.
Www. Sự khác biệt giữa www và không www cũng đã được google bỏ qua. Tuy vậy bạn vẫn cần lựa chọn tên miền ưa thích giống như trường hợp http và https.
Rel=canonical. Thẻ meta rel=canonical là thẻ chỉ dẫn cho google đâu là bản gốc và google có thể bỏ qua các bản khác. Thẻ này cũng được thêm vào những cms gần đây. Khi sử dụng những bản cập nhật mới bạn không lo các phiên bản trùng lặp nội dung trên trang web của mình nữa.
Tác hại của nội dung trùng lặp: nội dung trùng lặp khiến cho google khó xác định đâu là bài viết gốc. Thêm vào đó, google cũng sẽ nghĩ trang web của bạn là trang web chuyên copy bài và dĩ nhiên hiệu quả seo sẽ giảm.
Hãy đọc phần sau để tìm cách khắc phục lỗi nội dung trùng lặp nhé bạn.