Quỳnh Chi Châu: Trùng lặp nội dung là gì và hướng giải quyết

Thứ Năm, 14 tháng 3, 2019

Trùng lặp nội dung là gì và hướng giải quyết

Nội dung web trùng lặp làm gián đoạn khả năng của bạn để làm cho trang web của bạn hiển thị để duyệt các cá nhân với:

Mất thứ hạng cho các trang riêng biệt vô tình tranh giành các cụm từ tìm kiếm rất giống nhau
Thiếu khả năng xếp hạng các trang web trong một cụm vì Google đã chọn một trang làm tiêu chuẩn
Mất quyền hạn trang web cho số lượng lớn vật liệu mỏng

Sự nguy hiểm của việc sao chép nội dung web

Chính xác làm thế nào các thiết bị nhận ra nội dung web trùng lặp

Google sử dụng các thuật toán để xác định xem 2 trang web hoặc các thành phần của trang có phải là nội dung web trùng lặp hay không, mà Google chỉ định là tài liệu "có thể so sánh đáng kể".

Bạn xem video để biết thêm chi tiết nhé!!!

Phát hiện sự tương đồng của Google dựa trên công thức Simhash đã đăng ký nhãn hiệu của họ, kiểm tra các khối tài liệu trên trang web. Sau đó, nó sẽ tính toán một mã định danh riêng biệt cho mỗi khối, cũng như tạo ra một hàm băm hoặc "in dấu vân tay" cho mỗi trang.

Vì sự đa dạng của các trang web là khổng lồ, khả năng mở rộng là rất quan trọng. Hiện tại, Simhash là phương pháp khả thi duy nhất để tìm kiếm nội dung web nhân rộng ở phạm vi.

Dấu vân tay Simhash là:

Chi phí thấp để tính toán. Chúng được phát triển trong một lần thu thập thông tin của trang web.
Dễ tương phản, nhiều nhờ kích thước cố định của họ.

Có thể xác định vị trí gần trùng lặp. Chúng đánh đồng các thay đổi nhỏ trên một trang với các sửa đổi nhỏ trong hàm băm, không giống như nhiều thuật toán khác.

Điều cuối cùng này có nghĩa là sự khác biệt giữa bất kỳ hai dấu vân tay có thể được đánh giá bằng thuật toán cũng như được tiết lộ như một phần. Để giảm chi phí đánh giá từng bộ trang, Google sử dụng các chiến lược như:

Video về Marketing sáng tạo !!!

Phân cụm: bằng cách nhóm các bộ sưu tập của các trang web có thể so sánh đầy đủ với nhau, chỉ cần lấy dấu vân tay trong một yêu cầu cụm, bởi vì bất cứ điều gì khác đã được xác định là khác nhau.
Đánh giá: đối với các cụm đặc biệt lớn, tính tương tự thông thường được sử dụng sau khi tính toán một số cặp in ngón tay nhất định.

Cuối cùng, Google sử dụng một mức giá tương tự nặng mà bỏ qua các khối nội dung web giống hệt nhau (soạn sẵn: tiêu đề, điều hướng, thanh bên, chân trang; từ chối trách nhiệm ...). Nó xem xét chủ đề của trang web sử dụng đánh giá n-gram để xác định từ nào trên trang diễn ra thường xuyên nhất và-- trong ngữ cảnh của trang web-- là quan trọng nhất.

Phân tích nhân rộng nội dung với Simhash.

Chúng ta sẽ xem bản đồ của các bộ sưu tập nội dung web được gắn cờ là sử dụng Simhash tương tự. Biểu đồ này từ OnCrawl sẽ phân tích chiến lược nội dung web trùng lặp của bạn trên các cụm nội dung trùng lặp.

Phân tích nội dung web của OnCrawl cũng như vậy bao gồm các tỷ lệ tương tự, các cụm vật liệu, cũng như phân tích n-gram. OnCrawl cũng tương tự như vậy đối phó với một bản đồ nhiệt đầu cơ cho thấy sự tương đồng trên mỗi khối vật liệu có thể được đặt chồng lên trên một trang web.

Ánh xạ một trang web bằng sự tương tự vật chất. Mỗi khối đại diện cho một cụm nội dung web so sánh. Màu sắc cho thấy tính dễ hiểu của phương pháp chuẩn hóa cho mỗi và mọi bộ sưu tập. Nguồn: OnCrawl.

Xác nhận các cụm với canonicals.

Sử dụng URL chuẩn để đề xuất trang web chính trong một nhóm các trang có thể so sánh là một phương tiện phân cụm các trang có chủ ý. Lý tưởng nhất là các cụm được phát triển bởi canonicals và cả những cụm được phát triển bởi Simhash phải giống hệt nhau.

Quỳnh Chi Châu