首页 | 关于我们 | 在线体验 | 招贤纳士 | 联系我们
  - 中文分词及词性标著
  - 短/小文本分类
  - 信息过滤
  - 自动文本分类
    
  - 自动文本聚类
  - 自动文本摘要
  - 文本/网页去重
    中文分词是中文信息处理的基础,我们采用规则与统计方法相结合的方法进行中文文本的分词,可以有效地解决中文词语切分过程中的歧义问题。中文分词可以有效地用于解决中文信息处理中如信息检索、信息抽取、搜索、文本内容理解等所有领域的问题。
   
    ·完成汉语词语的自动切分与词性标注
    ·内嵌规则库与模型库可以有效解决歧义问题
    ·采用隐马尔科夫模型(HMM)进行词性标注,准确率高
    ·准确识别人名、地名、组织机构名等信息
    ·提供开放词典,词条在12万条以上,提供词典管理工具
   
    ·规则与统计相结合的方法
    ·正向最大匹配与逆向最大匹配相结合
    ·隐马尔科夫模型
   
    ·分词与词性标注速度150篇/秒
    ·分词准确率在99.6%