首页 | 关于我们 | 在线体验 | 招贤纳士 | 联系我们
  - 中文分词及词性标著
  - 短/小文本分类
  - 信息过滤
  - 自动文本分类
    
  - 自动文本聚类
  - 自动文本摘要
  - 文本/网页去重
    文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。
    文本聚类是基于相似性算法自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并可在以后的后续操作中自动提取该类别的关键词,可以用来指导分类。文本聚类是一种无指导的学习过程。
   
    ·自动对大量无类别的文档进行归类
    ·自动提取归类后的类别特征
    ·提供可视化分析工具
   
    · 与TF/IDF方法相结合的特征提取与选择方法
    ·文档相似度计算技术
    ·可视化技术
   
    ·聚类速度50篇/秒
    ·准确率70%以上