Trùng lặp nội dung, duplicate content là gì? Cách khắc phục trùng lặp nội dung
Xây dựng nội dung content cho website là công việc thường xuyên và liên tục, việc các nội dung bị trùng nhau, giống nhau do copy past hoặc do lỗi kỹ thuật có thể dẫn đến website bị phạt, khó lên top tìm kiếm.
Trong bài viết này, chúng ta sẽ cùng nhau tìm hiểu lỗi trùng lặp nội dung, duplicate content là gì, cách phát hiện, nguyên nhân và phương hướng khắc phục khi phát hiện lỗi trùng lặp nội dung này.
Nội dung chính
Trùng lặp nội dung, duplicate content là gì?
Trùng lặp nội dung (Duplicate Content) là thuật ngữ chuyên môn trong xây dựng nội dung, bài viết marketing online. Việc trùng lặp nội dung gây ảnh hướng xấu đến thứ hạng vị trí cũng như điểm chất lượng của trang web.
- Trùng lặp nội dung hay duplicate là website có bài viết giống với bài viết trên chính website đó hoặc 1 trang web khác.
- Hiểu đơn giản là có 2 url link bài viết nhưng nội dung lại giống nhau.
Trùng lặp nội dung có 2 dạng chính:
- Trùng lặp toàn bộ trang web
- Trùng lặp bài viết tin tức dịch vụ hoặc bài viết sản phẩm
Duplicate content gây tác hại gì?
Google cũng như các công cụ tìm kiếm luôn mong muốn kết quả tốt nhất cho người dùng. Vì thế các nội dung sao chép, nhân bản là 1 trong những tiêu chí đánh giá xếp hạng top cho trang web. Làm giảm tranffic truy cập.
- Thứ hạng website: Trùng lặp nội dung ảnh hướng đến điểm chất lượng của website, DR PR sẽ thấp
- Thứ hạng từ khóa: Ảnh hưởng đến việc SEO từ khóa, phát triển marketing online cho trang web. Google và các công cụ tìm kiếm đánh giá không tốt, ảnh hưởng đến thứ hạng vị trí trên top tìm kiếm.
- Trải nghiệm người dùng bị ảnh hưởng, không đem lại thông tin hữu ích cho người dùng
- Thuật toán Panda chuyên xử phạt về nội dung kém chất lượng, trùng lặp, copy thường xuyên được update và đưa ra các hình phạt nặng tay khi vi phạm duplicate Content.
- Google rất thích các bài viết độc nhất, chuyên biệt, không trùng lặp với các nội dung đã có trên internet nhằm mang lại thông tin hữu ích cho người tìm kiếm.
- Loại bỏ index: Số lượng trang index sẽ bị loại bỏ, giảm xuống
- Tốn công sức bot google: Tốn công sức thời gian thu thập dữ liệu của trang web, tốn dung lượng lưu trữ, mất thời gian sử lý các bài viết trùng lặp
Nguyên nhân gây ra trùng lặp nội dung?
Sử dụng SSL, HTTP/HTTPS
- SSL là chứng chỉ bảo mật, hiện đang được google khuyến cáo dùng cho trang web. Việc cài chứng chỉ bảo mật SSL sẽ tạo thành https dẫn đến bị trùng lặp bài viết nếu ko cấu hình chuyển từ http sang https.
- Việc cấu hình cài đặt ssl rất đơn giản, bạn có thể tự làm hoặc báo bên code web hỗ trợ.
- VD: https//:google.com và không có SSL http://google.com là 2 website khác nhau
Có www và không có www
- Việc website bạn chon có www và non-www là do cấu hình trong webmaster tool. Bạn hoàn toàn có thể tự làm.
- Cần thống nhất chọn www hoặc non-www ngay từ đầu, tránh lúc nọ lúc kia
- VD: https//:www.google.com và không có SSL https://google.com là 2 website khác nhau
Phiên bản điện thoại mobile lỗi
- Phiên bản website trên mobile có nhiều dạng
- Có thể là 1 bản khác độc lập so với website
- Có thể là bản responsive web (thu nhỏ trang web theo kích thước màn hình hiển thị)
- Chính vì thế, rất có thể phát sinh lỗi duplication content nếu phiên bản mobile không được cấu hình cẩn thận, sẽ bị trùng nhau giữa 2 phiên bản mobile và PC
Bị chơi xấu, đối thủ copy/past
- Việc bị đối thủ chơi xấu bằng cách nhân bản, copy nội dung là hoàn toàn có thể xẩy ra. Nội dung bài viết trên website là công khai, ai cũng có thể đọc và dễ dàng copy được.
- Bị copy vì bài viết bạn quá hay, chất lượng cao, hướng tới người dùng và đã lên top tìm kiếm. Khiến bài viết của bạn dễ bị các bạn Seoer đối thủ cùng ngành nghề copy về.
Thao tác nhầm
- Thao tác nhầm là hành vi của admin quản trị trang web, trong quá trình viết bài, chỉnh sửa có thể vô tình nhân bản bài viết thành 2.
URL có gạch / và không gạch /
- URL chính là đường link truy cập vào trang web, do cấu hình chưa chuẩn dẫn đến đường link có thêm / sau và không có. Dẫn đến google hiểu lầm là 2 bài viết khác nhau có cùng nội dung.
- VD: https://www.google.com/dong-ho-nam/ và không có gạch https://www.google.com/dong-ho-nam
Nhân bản website :
Tạo 1 bản sao y hệt trang web của bạn
- Do đơn vị thiết kế website: Đơn vị thiết kế website có thể nhân bản website của bạn để bán cho 1 đơn vị khác, cùng ngành nghề lĩnh vực, hoặc khác. Nhưng do chưa kịp chỉnh sửa nội dung, hình ảnh mà Google đã index lập chỉ mục dẫn đến lỗi trùng lặp nội dung.
Sao chép copy từ website khác
- Các bạn làm content đi sao chép, tham khảo bài viết khác mà không chịu copywriter chỉnh sửa bài viết đó.
Cách check trùng lặp nội dung?
- Sử dụng công cụ google webmaster tool để kiểm tra các bài viết bị trùng lặp.
- Truy cập trang google webmaster tool để check
- Kiểm tra thủ công bằng cách check từng link trên google với cú pháp: site:domain.com intitle: nhập tiêu đề bài viết cần kiểm tra
- Kết quả trả lại là các bài viết có chứa tiêu đề như tiêu đề bạn cần check.
- Copy 1 đoạn văn bản trong bài viết cần kiểm tra và tìm kiếm trên google.com
- Kết quả trả lại sẽ hiển thị toàn bộ các bài viết có chứa đoạn văn bản đó, bạn cần check cẩn thận xem có giống nhau không
- Các công cụ phần mềm hỗ trợ: phần mềm Serpstat, ứng dụng Scramfrog thu thập dữ liệu
Cách khắc phục trùng lặp nội dung?
Sau khi đã phát hiện và có được danh sách các bài viết tin tức, sản phẩm bị trùng lặp. Bạn cần thực hiện 1 trong các phương án sau để khắc phục.
Dưới đây là các phương pháp triển khai ngăn chặn khi trang web bị lỗi trùng lặp nội dung. Google có khuyến cáo 2 phương án là sử dụng thẻ rel=”canonical” và chuyển hướng 301. Bạn nên ưu tiên sử dụng 2 phương án xử lý này trước nhé. Xem chi tiết bài viết khuyến nghị bởi google: https://developers.google.com/search/docs/advanced/guidelines/duplicate-content?hl=vi
Lưu ý: Lựa chọn 1 và thực hiện 1 phương án thôi nhé, không cần thực hiện tất cả các phương án.
Chuyển hướng 301
- Điều hướng trang bị trùng lặp sang 1 url khác. Giúp người dùng và công cụ tìm kiếm hiểu là bài viết đó đã được xử lý, chuyển sang 1 bài viết khác.
Robots.txt
- Cấu hình file robots.txt chặn bót google truy cập link bị trùng lặp nội dung
- Ưu điểm là bài viết đó vẫn hiển thị với người dùng nhưng bị chặn không cho bót google truy cập index
- Nhược điểm là nếu bài viết trùng lặp đó đã được index thi không có tác dụng gì. Vì thế bạn cần check xem bài viết trùng lặp đó đã được index lập chỉ mục chưa.
Gắn thẻ rel=canonical
- Thêm thẻ rel=”canonical” vào trang trùng lặp nội dung
- Khi bót đọc thấy thẻ rel canonical sẽ tự hiểu và loại bỏ nội dung trùng lặp trên link này. Phương án ưu tiên bởi google đã khuyến nghị dùng
Tránh index nội dung chưa xong
- Các bài viết chưa hoàn thiện, bạn hãy hạn chế chúng index
- Trang web mới thiết kế dạng theo khung có sẵn, hãy chặn bót ngay từ đầu, khi chỉnh sửa xong hãy mở bót
Check trùng lặp unique ngay khi viết bài
- Sau khi viết bài xong, bạn cần kiểm tra xem bài viết này tỉ lệ unique có đạt không, tối thiểu 80%
Đăng ký bản quyền DCMA:
- Đạo luật bảo vệ quyền tác giả tại Hoa Kỳ. Tất nhiên nó chưa hỗ trợ nhiều cho trang web tại Việt Nam. Nhưng bạn cũng nên cài, để được bảo vệ chút nào hay chút đó.
- Đăng ký hoàn toàn miễn phí hoặc có thể sử dụng bản mất phí để có nhiều option hơn
Kết luận
Bài viết này đã giúp bạn tìm hiểu rõ hơn về lỗi thường gặp trong xây dựng nội dung content cho website, Nguyên nhân và cách khắc phục lỗi trùng lặp nội dung.
Việc trùng lặp nội dung duplicate content dẫn đến giảm thứ hạng website, giảm tranffic truy cập. Thứ hạng vị trí từ khóa SEO bị ảnh hưởng, thậm chí có thể bị phạt nếu lỗi vi phạm nặng.
Google đưa ra cả 1 thuật toán chuyên đi phạt về nội dung đó là thuật toán Panda (Gấu Trúc)
- Để tránh việc bị trùng lặp duplication content bạn nên tự viết nội dung. Đảm bảo bài viết khác biệt, đọc đáo, duy nhất.
- Không sao chéo nội dung từ trang web khác
- Trong khi lên bài viết cần check xem tỉ lệ unique là bao nhiêu, Unique giúp bạn check từng đoạn ngắn văn bản có trùng lặp trên internet không.
- Thường xuyên check xem trang web mình có bị đối thủ sao chép, copy nội dung không.
VIDEO
Chúc bạn may mắn!
Tham gia khóa học
Bạn quan tâm có thể tham khảo những khóa học Content Marketing, SEO… từ Học Viện MDCOP để có thêm nhiều thông tin cũng như kỹ năng viết content cho mình.
Có thể bạn quan tâm:
- Viết bài chuẩn SEO là gì? tại sao cần viết bài chuẩn SEO
- Title là gì? cách viết title chuẩn SEO
- Description là gì? Cách viết mô tả chuẩn SEO
- Từ khóa là gì? Có những loại từ khóa nào? Cách xác định bộ từ khóa cho website
- Landingpage – PageSEO là gì? Cách xác định page seo
- Interlink là gì? Cách làm interlink
- Tối ưu ảnh, chèn hình ảnh trong bài viết chuẩn SEO
- Bố cục bài viết chuẩn SEO
Leave a Reply
Want to join the discussion?Feel free to contribute!