Phân tích thuật toán Google Penguin 2.1: Những yếu tố đóng vai trò quan trọng?
Thứ Tư, 22 tháng 1, 2014
Phân tích thuật toán Penguin của Google là công việc đam mê đối với nhiều chuyên gia SEO kể từ lần đầu tiên tìm hiểu về các bản cập nhật.
Mổ xẻ thuật toán Penguin của Google là công việc đam mê đối với nhiều chuyên gia SEO kể từ lần đầu tiên tìm hiểu về các bản cập nhật. Năm ngoái, MathSight có trụ sở tại Vương quốc Anh đã sử dụng kỹ thuật đảo ngược để xác định các yếu tố mà Penguin 2.0 tập trung hướng đến trên một website. Gần đây hơn, MathSight đã tập trung vào các con số để mổ xẻ Penguin 2.1, và tiết lộ thêm những manh mối về thuật toán đặc biệt này.
Trước Penguin 2.1, Andreas Voniatis - Giám đốc điều hành của MathSight đã nói rằng khi đề cập đến thuật toán Penguin, điều quan trọng là chúng ta cần phải suy nghĩ vượt ra ngoài giới hạn liên kết bằng việc hiểu rõ các nguyên nhân gốc rễ của nó. Tìm hiểu về thuật toán pengin
Ông đã nói: "Nhiều người quên mất rằng hồ sơ inbound/outbound link bắt nguồn từ các trang trên website, vì vậy, bằng cách phân tích SEO on-page, chúng tôi đang tìm kiếm các thuộc tính phong cách của các trang liên kết bên ngoài một cách hiệu quả, cung cấp giá trị tiên đoán cho Penguin 2.0."
Nhưng đó là với Penguin 2.0, tất cả đều tập trung vào mức độ "dễ đọc thấp" của nội dung trên website, đặc biệt đối với body text, anchor text, hyperlinks, và thông tin trong thẻ meta. Vậy còn thuật toán Penguin 2.1 thì sao?
Dữ liệu của MathSight đã cho thấy các website thu được hay làm mất lưu lượng truy cập do Penguin 2.1 có liên kết đến các trang web chứa:
Tỷ lệ các từ hiếm (từ ít gặp) cao hơn (tốt) hoặc thấp hơn (xấu) trong body text.
Số lượng các từ trong mỗi câu cao hơn (tốt) hoặc thấp hơn (xấu) trong body text.
Số lượng âm tiết trên mỗi từ cao hơn (tốt) hoặc thấp hơn (xấu) trong body text.
Dữ liệu của MathSight có thể hỗ trợ cho lý thuyết liên quan đến ưu điểm SEO khi chứa liên kết đến những trang web chất lượng thấp, và yếu tố "chất lượng" đó bị hạn chế trên nội dung.
Voniatis nói "Nội dung dễ đọc từ một trang web liên kết chính là yếu tố ảnh hưởng lớn đến cách Penguin nhìn nhận website đích - website được liên kết đến. Websites nên loại bỏ liên kết từ những trang không đáp ứng nhu cầu dễ đọc của thuật toán Penguin."
Ông còn bổ sung thêm "Khả năng dễ đọc của nội dung là cách Penguin dọn dẹp hệ sinh thái liên kết dựa trên giả thuyết rằng văn bản càng dễ hiểu thì nội dung càng đáng tin." Vậy Penguin 2.1 khác các số liệu thực chất như thế nào? "Khi so sánh Penguin 2.0 với 2.1, chúng tôi nhận thấy thuật toán mới đã được tinh chỉnh để các số liệu liên quan đến khả năng dễ đọc của chỉ số Flesch-Kincaid quan trọng hơn so với chỉ số Dale-chall. Có vẻ như Google đang cố gắng tìm ra những giới hạn của web spam bằng cách tinh chỉnh công thức tính toán mức độ dễ đọc của nội dung."
Voniatis cho biết công thức được sử dụng để xác định khả năng dễ đọc sử dụng chỉ số Flesh Kincaid như sau:
RE = 206.835 – (1.015 x ASL) – (84.6 x ASW)
RE = Khả năng dễ đọc
ASL = Độ dài trung bình của câu (số lượng từ chia cho số câu trong đoạn)
ASW = Số lượng âm tiết trung bình trên mỗi từ (số lượng âm tiết chia cho số lượng từ)
Voniatis cho biết "Kết quả thấp hơn, có nghĩa là, văn bản càng khó đọc, nội dung càng có lợi cho các bản cập nhật Penguin. Các số liệu thống kê ANOVA (phân tích phương sai) đã thể hiện sự chắc chắn của Flesch-Kinkaid đang gây ra sự thay đổi trong lưu lượng truy cập do Penguin chiếm 99,999%."
Theo số liệu của MathSight, các thanh màu đỏ trong đồ thị trên thể hiện những yếu tố trên website đã được kiểm tra do Penguin gây ra, các thanh màu xanh thể hiện những yếu tố mà website được hưởng lợi từ Penguin 2.1.
Vậy tất cả những điều này có nghĩa là gì, SEOer có thể làm gì với dữ liệu thu được?
Voniatis cho biết các số liệu thống kê "nói cho chúng ta biết những thành phần bí mật nhưng nó không phải là lý do tại sao Google lại sử dụng khả năng dễ đọc làm yếu tố đánh giá. Tôi nghi ngờ Google đã tìm thấy khả năng dễ đọc của các liên kết trích dẫn từ những bài viết theo hình thức guest post do các chuyên gia không chuyên tạo nên."
Ông nói thêm rằng các chuyên gia SEO có thể kiểm tra thủ công mọi nội dung liên kết trên trang web theo chỉ số dễ đọc Flesch-Kincaid và Dale-chall bằng cách sử dụng các công cụ trực tuyến miễn phí. Tuy nhiên ông cũng cho biết Giao diện lập trình ứng dụng của MathSight có thể thực hiện việc này hiệu quả hơn bằng cách thu thập dữ liệu liên kết on-page và off-page, sau đó đánh giá khả năng dễ đọc và trả lại " dễ đọc tối ưu, để các SEOer có thể từ chối liên kết hoặc chỉnh sửa nội dung trên trang đích. Ngưỡng giới hạn này được cập nhật theo quá trình update của mỗi thuật toán".
Comments[ 0 ]
Đăng nhận xét