百度、Google页面相似度收录情况实验
读者junstyle在留言中询问“对百度而言,网页相似度控制在多少比较好啊,我的80%左右,不知道百度会不会认为是相识网页?”这个问题Kyw没有切身体会,只有弄个实验,进行对比观察。
实验目的:
体会一下百度、GOOGLE对相似页面的收录情况,最好能得到一个个大概的百分比数值。
实验步骤:
1. 建立一个页面几乎相似的站点:我折腾了2天,用SEO021当模板,弄了个SEO中国
2. 计算页面的相似度:
页面相似度是指页面相同部分站总页面的比例。这里我用 100%-不同部分的密度(关键词密度百分比) 来计算。
关键词密度是个什么概念?Kyw对这个的理解有2个方面:
(1) 整体关键词密度 = 关键词字符数 ÷ 整体页面HTML源代码字符总数 × 100%
用CHINAZ的工具查出,关键词“广州”的密度2.98%
(2) BODY关键词密度 = BODY内关键词字符数 ÷ BODY内文字字符数 × 100%
这个我人工查了下, 8(出现4次“广州”占8个字符) ÷ 240(BODY内的字数) = 3.33%
从这2个密度看出,的内页相似度约97%。
3. 对百度、GOOGLE的收录情况进行观察。
收录整站需要多久?
百度基本1个多月整理一次索引,整站收录后2个月内是否会被百度清理?