Cách nén dữ liệu có thể được sử dụng để phát hiện các trang chất lượng thấp

Đăng bởi: Linh Nguyễn • Ngày: 01/11/2024

Nén dữ liệu có thể được sử dụng bởi các công cụ tìm kiếm để phát hiện các trang có chất lượng thấp. Mặc dù không được biết đến rộng rãi, kiến thức này lại rất hữu ích cho chiến lược tối ưu hóa công cụ tìm kiếm (SEO) của bạn. Việc nén giúp tiết kiệm không gian lưu trữ và băng thông, góp phần cải thiện hiệu suất và tốc độ của website.

Khái niệm về khả năng nén như một tín hiệu chất lượng không phổ biến trong giới SEO, nhưng lại rất quan trọng. Các công cụ tìm kiếm có thể sử dụng khả năng nén của một trang web để xác định các trang trùng lặp, các trang cửa với nội dung tương tự, và những trang có từ khóa lặp lại. Thực tế đã chỉ ra rằng khả năng nén một trang càng cao, nguy cơ trang đó bị đánh giá là có chất lượng thấp càng lớn.

Mặc dù có nhiều nghiên cứu chỉ ra rằng các công cụ tìm kiếm có thể áp dụng khả năng nén như một phương pháp phát hiện spam, nhưng sự thiếu minh bạch trong quy trình làm việc của chúng có thể khiến người làm SEO khó xác định chính xác các kỹ thuật này đang được sử dụng như thế nào.

Khả năng nén là gì?

Trong lĩnh vực công nghệ thông tin, khả năng nén đề cập đến mức độ một tệp (dữ liệu) có thể giảm kích thước trong khi vẫn giữ lại thông tin cần thiết. Việc nén này thường được thực hiện để tối đa hóa không gian lưu trữ hoặc cho phép nhiều dữ liệu hơn được truyền qua Internet mà không làm giảm chất lượng.

Tóm tắt về nén dữ liệu

Nén dữ liệu thay thế các từ và cụm từ lặp lại bằng các tham chiếu ngắn hơn, giúp giảm đáng kể kích thước tệp. Các công cụ tìm kiếm thường tiến hành nén các trang web đã được lập chỉ mục nhằm tối đa hóa không gian lưu trữ, giảm băng thông và cải thiện tốc độ truy xuất. Điều này có thể làm tăng hiệu quả hoạt động của máy chủ và mang lại trải nghiệm tốt hơn cho người dùng trong việc truy cập nội dung trên web.

Giải thích đơn giản về cách nén hoạt động:

Khi một trang được nén, việc này không chỉ giảm kích thước tệp mà còn có thể giúp xác định các trang có nội dung trùng lặp. Tác động bổ sung này có thể là yếu tố giúp các chuyên gia SEO phát hiện và phân tích các trang có chất lượng thấp trong chiến lược tối ưu hóa nội dung và từ khóa.

Nghiên cứu về phát hiện spam

Nghiên cứu này thực sự rất quan trọng, vì nó được thực hiện bởi những nhà khoa học máy tính hàng đầu, nổi tiếng thông qua những phát minh trong lĩnh vực trí tuệ nhân tạo (AI), tính toán phân tán, thu thập thông tin, và nhiều lĩnh vực công nghệ khác.

Marc Najork

Marc Najork, một trong những đồng tác giả của nghiên cứu này, hiện đang giữ vị trí Nhà Khoa Học Nghiên Cứu Xuất Sắc tại Google DeepMind. Ông được biết đến với nhiều đóng góp nghiên cứu có ảnh hưởng lớn đến độ chính xác trong việc sử dụng các phản hồi người dùng ngầm như cú nhấp chuột và phát triển hệ thống thu thập thông tin dựa trên AI mạnh mẽ hơn.

Dennis Fetterly

Một đồng tác giả khác là Dennis Fetterly, hiện đang là kỹ sư phần mềm tại Google, được công nhận với việc phát minh ra thuật toán xếp hạng dựa trên các liên kết. Ông cũng có nhiều nghiên cứu nổi bật trong lĩnh vực tính toán phân tán và thu thập thông tin trên mạng.

Trong số nhiều nhà nghiên cứu tham gia vào nghiên cứu về sự xác định spam thông qua các đặc điểm nội dung của trang, khả năng nén đã chứng minh có thể được sử dụng như một bộ phân loại để chỉ ra rằng một trang web có khả năng là spam.

Phát hiện các trang web spam thông qua phân tích nội dung

Mặc dù nghiên cứu này được công bố vào năm 2006, nhưng các kết quả và kết luận của nó vẫn hết sức có giá trị cho đến ngày nay.

Người dùng thường cố xếp hạng hàng trăm hoặc hàng ngàn trang web dựa trên vị trí mà hầu hết nội dung đều là trùng lặp, ngoại trừ tên thành phố, khu vực hoặc tiểu bang. Các SEO thường tạo ra các trang cho các công cụ tìm kiếm bằng cách lặp đi lặp lại các từ khóa trong tiêu đề, mô tả meta, tiêu đề và nội dung, nhằm tăng cường khả năng hiển thị của trang đó trong kết quả tìm kiếm.

Mục 4.6 của nghiên cứu nhấn mạnh:

“Một số công cụ tìm kiếm có trọng số cao hơn cho các trang chứa từ khóa truy vấn nhiều lần. Ví dụ, một trang chứa từ khóa một lần có thể bị xếp hạng thấp hơn so với trang chứa nó mười lần. Nhằm tận dụng công cụ này, một số trang spam sao chép nội dung của họ nhiều lần trong nỗ lực để tăng xếp hạng của mình.”

Nghiên cứu cũng cho biết rằng các công cụ tìm kiếm tăng cường nén các trang web và sử dụng phiên bản nén để tham chiếu đến trang web gốc. Bằng cách này, họ có thể xử lý hiệu quả các trang có nội dung dư thừa và từ đó phát hiện spam.

Họ đã viết:

“Phương pháp của chúng tôi trong nghiên cứu này nhằm xác định nội dung dư thừa trong một trang là nén trang đó. Để tiết kiệm không gian và thời gian đĩa, các công cụ tìm kiếm thường nén các trang web sau khi lập chỉ mục chúng nhưng trước khi thêm chúng vào bộ nhớ cache.”

…”Chúng tôi đo lường độ dư thừa của các trang web bằng tỷ lệ nén, đó là kích thước của trang không nén chia cho kích thước của trang đã nén. Chúng tôi sử dụng GZIP để nén các trang, một thuật toán nén nhanh chóng và hiệu quả.”

Tương quan cao về khả năng nén với spam

Kết quả thu được từ nghiên cứu cho thấy rằng các trang web có tỷ lệ nén ít nhất 4.0 thường là các trang chất lượng thấp, mang tính spam. Tuy nhiên, các tỷ lệ nén cao hơn không nhất quán do có ít dữ liệu điểm hơn, khiến cho việc đánh giá trở nên khó khăn hơn.

Các nhà nghiên cứu đã kết luận:

“70% trong số tất cả các trang mẫu có tỷ lệ nén ít nhất 4.0 đã được đánh giá là spam.”

Tuy nhiên, việc sử dụng tỷ lệ nén đơn lẻ vẫn dẫn đến những trường hợp dương tính sai, tức là nhiều trang không phải spam bị nhận nhầm.

“Tín hiệu tỷ lệ nén hoạt động đúng đắn với 660 (27.9%) trong số các trang spam trong bộ mẫu của chúng tôi, nhưng dẫn đến sai số 2.068 (12.0%) trong tất cả các trang đã được đánh giá.”

Với tất cả những đặc điểm đã nêu, độ chính xác của phân loại sau quá trình xác thực chéo mười lần là đầy hứa hẹn:

95.4% trong số các trang đã đánh giá của chúng tôi được phân loại một cách chính xác, trong khi 4.6% bị phân loại không chính xác.”

Phần tiếp theo của nghiên cứu cung cấp thông tin bổ ích về cách mà tín hiệu nén có thể được cải thiện để tăng độ chính xác trong việc nhận diện spam.

Nhận thức về xếp hạng chất lượng

Nghiên cứu đã xem xét nhiều tín hiệu trên trang, trong số đó có khả năng nén. Một kết quả quan trọng mà họ phát hiện là sử dụng nhiều tín hiệu khác nhau có thể tăng cường độ chính xác trong việc nhận diện spam và giảm thiểu khả năng bị dương tính sai. Đáng chú ý, tín hiệu nén chỉ giúp xác định một loại spam cụ thể, không phải tất cả các loại.

Điều này có nghĩa rằng, mặc dù khả năng nén giúp xác định trang spam, nhưng còn nhiều loại spam khác không thể được phát hiện bởi tín hiệu này. Đây là điều mà mọi SEO và nhà xuất bản nên nhận thức rõ.

“Trong nghiên cứu trước, chúng tôi đã trình bày một số phương pháp để phát hiện các trang web spam. Tức là, chúng tôi đã đo đạc một số đặc điểm của các trang và tìm thấy nhiều khoảng có tương quan với spam. Tuy nhiên, khi được sử dụng riêng lẻ, không có phương pháp nào phát hiện hầu hết spam trong bộ dữ liệu mà không đánh dấu nhiều trang không phải spam như spam.”

Thậm chí, có những tín hiệu hứa hẹn cũng chỉ phát hiện một phần spam mà thôi.

Kết hợp nhiều tín hiệu

Kết quả nghiên cứu chỉ ra rằng việc sử dụng các tín hiệu chất lượng thấp một cách riêng lẻ sẽ cho ra kết quả không chính xác, do đó các nhà nghiên cứu đã thử nghiệm việc kết hợp nhiều tín hiệu lại với nhau. Kết quả thu được từ việc này đáng khích lệ hơn so với việc sử dụng từng tín hiệu riêng lẻ.

Các nhà nghiên cứu giải thích rằng việc kết hợp nhiều phương pháp là điều cần thiết:

“Một trong những cách để kết hợp các phương pháp phát hiện spam là coi đây như một bài toán phân loại. Chúng tôi mục tiêu là tạo ra một mô hình phân loại sử dụng các đặc điểm của một trang web để (hy vọng) phân loại chính xác đó là spam hay không phải spam.”

Họ kết luận rằng việc sử dụng nhiều tín hiệu đã mang lại hiệu quả cao trong việc phát hiện spam:

“Chúng tôi đã nghiên cứu nhiều khía cạnh của spam dựa trên nội dung web, sử dụng bộ dữ liệu thực tế từ trình thu thập dữ liệu MSNSearch. Các phương pháp phát hiện spam mà chúng tôi đưa ra hiệu quả hơn các phương pháp thông thường, song không thể xác định chính xác tất cả các trang spam. Do đó, chúng tôi đã kết hợp các phương pháp của mình để phát triển bộ phân loại C4.5 có độ chính xác cao, có khả năng nhận diện 86.2% spam trong tất cả các trang, đồng thời giảm thiểu đánh dấu sai các trang hợp pháp là spam.”

Nhận thức chính

Việc xác định không chính xác cho thấy rằng “rất ít trang hợp pháp bị đánh giá là spam” là một bước tiến quan trọng. Bài học quan trọng mà mọi người làm SEO nên rút ra là tín hiệu đơn lẻ có thể dẫn đến dương tính sai. Cách tốt nhất để tăng cường độ chính xác là sử dụng kết hợp nhiều tín hiệu.

Điều này đòi hỏi các bài kiểm tra SEO về tín hiệu xếp hạng hoặc chất lượng đơn lẻ sẽ không đem lại hiệu quả cao khi đưa ra quyết định về chiến lược hoặc kinh doanh.

Dù hiện nay chúng ta chưa có thông tin rõ ràng về việc khả năng nén có được áp dụng tại các công cụ tìm kiếm hay không, nhưng đây là một tín hiệu dễ dàng để sử dụng, kết hợp với các tín hiệu khác nhằm phát hiện các loại spam như hàng ngàn trang cửa với nội dung tương đương. Ngay cả khi công cụ tìm kiếm không áp dụng tín hiệu này, các nghiên cứu đã chỉ ra rằng việc phát hiện spam là cực kỳ khả thi và là điều mà các công cụ tìm kiếm có khả năng xử lý hiệu quả hiện nay.