-
SCWS简体中文分词辞典以txt格式提供
资源介绍
这是我在研究中文分词时找到的一个辞典。感谢hightman的基础工作。
==============================================
SCWS-1.x.x 自述文件 (Written by hightman)
HomePage: http://www.hightman.cn
...
[SCWS 简介]
SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。
它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的
切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词之间
用空格分开,所以如何准确快速的分词一直是中文分词的攻关难点。
本分词法并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专
有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大
概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取
等场合运用。首次雏形版本发布于 2005 年底。
本系统支持的汉字编码包括 GBK、UTF-8
在线分词演示:
G B K: http://www.hightman.cn/demo/scws/v4.php
UTF-8: http://www.hightman.cn/demo/scws/v48.php
详情可参看:http://www.hightman.cn/?scws
==============================================
SCWS-1.x.x 自述文件 (Written by hightman)
HomePage: http://www.hightman.cn
...
[SCWS 简介]
SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。
它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的
切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词之间
用空格分开,所以如何准确快速的分词一直是中文分词的攻关难点。
本分词法并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专
有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大
概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取
等场合运用。首次雏形版本发布于 2005 年底。
本系统支持的汉字编码包括 GBK、UTF-8
在线分词演示:
G B K: http://www.hightman.cn/demo/scws/v4.php
UTF-8: http://www.hightman.cn/demo/scws/v48.php
详情可参看:http://www.hightman.cn/?scws