详细请访问:http://www.hightman.cn
[SCWS 简介]
SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,所以如何准确快速的分词一直是中文分词的攻关难点。
本分词法并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于 2005 年底。
本系统支持的汉字编码包括 GBK、UTF-8
Recent Comments