中文分词模块

本模块以盘古分词组件中的词库为基础, 算法设计也部分参考了盘古分词组件中的算法。

在线演示地址:http://segment.ucdok.com/

本分词模块具有以下特点:

纯JavaScript编写,可以在任何支持ECMAScript5的引擎上执行(需要稍微修改部分代码)

基于词性进行联想识别

可使用JavaScript编写自定义的分词模块

安装:

$ npm install segment --save

使用方法:

var Segment = require ( 'segment' ); var segment = new Segment(); segment.useDefault(); console .log(segment.doSegment( '这是一个基于Node.js的中文分词模块。' ));

返回结果格式:

[ { w : '这是' , p : 0 }, { w : '一个' , p : 2097152 }, { w : '基于' , p : 262144 }, { w : 'Node.js' , p : 8 }, { w : '的' , p : 8192 }, { w : '中文' , p : 1048576 }, { w : '分词' , p : 4096 }, { w : '模块' , p : 1048576 }, { w : '。' , p : 2048 } ]

其中 w 表示词的内容, p 表示词性(具体参考 https://github.com/leizongmin/node-segment/blob/master/lib/POSTAG.js 中的定义)

不返回词性

var text = '这是一个基于Node.js的中文分词模块。' ; var result = segment.doSegment(text, { simple : true }); console .log(result);

结果:

[ '这是' , '一个' , '基于' , 'Node.js' , '的' , '中文' , '分词' , '模块' , '。' ]

去除标点符号

var text = '这是一个基于Node.js的中文分词模块。' ; var result = segment.doSegment(text, { stripPunctuation : true }); console .log(result);

结果:

[ { w : '这是' , p : 0 }, { w : '一个' , p : 2097152 }, { w : '基于' , p : 262144 }, { w : 'Node.js' , p : 8 }, { w : '的' , p : 8192 }, { w : '中文' , p : 1048576 }, { w : '分词' , p : 4096 }, { w : '模块' , p : 1048576 } ]

转换同义词

载入同义词词典:

segment.loadSynonymDict( 'synonym.txt' );

词典格式:

在分词时设置 convertSynonym=true 则结果中的 "什么时候" 将被转换为 "何时" , "入眠" 将被转换为 "入睡" :

var text = '什么时候我也开始夜夜无法入睡' ; var result = segment.doSegment(text, { convertSynonym : true }); console .log(result);

结果:

[ { w : '何时' , p : 0 }, { w : '我' , p : 65536 }, { w : '也' , p : 134217728 }, { w : '开始' , p : 4096 }, { w : '夜夜' , p : 131072 }, { w : '无法' , p : 134217728 }, { w : '入睡' , p : 4096 } ]

去除停止符

载入词典:

segment.loadStopwordDict( 'stopword.txt' );

词典格式:

在分词时设置 stripStopword=true 则结果中的 "之所以" 和 "因为" 将被去除:

var text = '之所以要编写一个纯JS的分词器是因为当时没有一个简单易用的Node.js模块' ; var result = segment.doSegment(text, { stripStopword : true }); console .log(result);

结果:

[ { w : '编写' , p : 4096 }, { w : '纯' , p : 1073741824 }, { w : 'JS' , p : [ 16 ] }, { w : '分词' , p : 4096 }, { w : '器' }, { w : '当时' , p : 16384 }, { w : '没有' , p : 4096 }, { w : '简单' , p : 1073741824 }, { w : '易用' }, { w : 'Node.js' , p : 8 }, { w : '模块' , p : 1048576 } ]

词典文件为纯文本文件,每行定义一个词,格式为: 词|词性|词权值 ,如: 工信处|0x0020|100

词性 的定义可参考文件 https://github.com/leizongmin/node-segment/blob/master/lib/POSTAG.js

词权值 越大表示词出现的频率越高

词典文件可参考:https://github.com/leizongmin/node-segment/tree/master/dicts

var Segment = require ( 'segment' ); var segment = new Segment(); segment.use( 'URLTokenizer' ); segment.loadDict( 'dict.txt' ); console .log(segment.doSegment( '这是一个基于Node.js的中文分词模块。' ));

一般可通过 segment.useDefault() 来载入默认的配置,若要自定义加载,可参考 useDefault() 的代码:

segment .use( 'URLTokenizer' ) .use( 'WildcardTokenizer' ) .use( 'PunctuationTokenizer' ) .use( 'ForeignTokenizer' ) .use( 'DictTokenizer' ) .use( 'ChsNameTokenizer' ) .use( 'EmailOptimizer' ) .use( 'ChsNameOptimizer' ) .use( 'DictOptimizer' ) .use( 'DatetimeOptimizer' ) .loadDict( 'dict.txt' ) .loadDict( 'dict2.txt' ) .loadDict( 'names.txt' ) .loadDict( 'wildcard.txt' , 'WILDCARD' , true ) .loadSynonymDict( 'synonym.txt' ) .loadStopwordDict( 'stopword.txt' )

自定义分词器:

segment.use({ type : 'tokenizer' , init : function ( segment ) { }, split : function ( words ) { return words; } });

自定义优化器:

segment.use({ type : 'optimizer' , init : function ( segment ) { }, doOptimize : function ( words ) { return words; } })

分词器和优化器可参考默认模块:https://github.com/leizongmin/node-segment/tree/master/lib/module

其中 *Tokenizer 表示分词器, *Optimizer 表示优化器。

注意

请勿用此模块来对较长且无任何标点符号的文本进行分词,否则会导致分词时间成倍增加。

MIT License