|
|
|
 |
|
|
| 中文分词是中文信息处理的基础,我们采用规则与统计方法相结合的方法进行中文文本的分词,可以有效地解决中文词语切分过程中的歧义问题。中文分词可以有效地用于解决中文信息处理中如信息检索、信息抽取、搜索、文本内容理解等所有领域的问题。 |
|
 |
·完成汉语词语的自动切分与词性标注
·内嵌规则库与模型库可以有效解决歧义问题
·采用隐马尔科夫模型(HMM)进行词性标注,准确率高
·准确识别人名、地名、组织机构名等信息
·提供开放词典,词条在12万条以上,提供词典管理工具
|
|
 |
·规则与统计相结合的方法
·正向最大匹配与逆向最大匹配相结合
·隐马尔科夫模型
|
|
 |
·分词与词性标注速度150篇/秒
·分词准确率在99.6%
|
|
|
|
 |
|
|