|
|
|
 |
|
|
随着信息时代的到来,尤其是互联网技术的高速发展,网络中网站的数量成倍增长,根据http://www.netcraft.com/survey/的统计,在2008年1月共统计到155,583,825个网站的记录,而且网站正以很高的速率增长。这些网站为我们提供了大量的信息,但不同的网站中存在着大量的重复信息,这些信息被搜索引擎反复的索引,因此在用户使用搜索引擎检索信息的时候就会发现有很多是来自不同网站的相同信息。对于用户来说相同的文章只检索出一篇就够了,但对于搜索引擎来说保存相同内容的网页,也会造成存储资源的浪费和检索时的低效率。现阶段取出相同或相似网页的技术还没有很好的应用在现有的搜索引擎上,如果这一技术能应用到现有的搜索引擎中,势必会极大地方便用户的检索信息,同时通过去掉重复的网页,减少的需要检索的信息量,从而提高了检索的效率。用在信息采集中,可以有效地提高采集的效率和存储空间,以及以后的检索速度等。
因此,文本/网页的去重有很大的应用前景。去重的基本原理是文档相似度的计算。 |
|
 |
·排除内容相似的文档/网页
·去除重复信息
|
|
 |
·文档相似度计算
|
|
 |
·速度快
·准确性高
·相似度阈值可以自定义
|
|
|
|
 |
|
|