|
|
|
 |
|
|
文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。
文本聚类是基于相似性算法自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并可在以后的后续操作中自动提取该类别的关键词,可以用来指导分类。文本聚类是一种无指导的学习过程。 |
|
 |
·自动对大量无类别的文档进行归类
·自动提取归类后的类别特征
·提供可视化分析工具
|
|
 |
· 与TF/IDF方法相结合的特征提取与选择方法
·文档相似度计算技术
·可视化技术
|
|
 |
·聚类速度50篇/秒
·准确率70%以上
|
|
|
|
 |
|
|