Chinse Tokenizer: IKAnalyzer - Multi-Language Analysis in Solr

http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html
IKAnalyzer扩展词库
IKAnalyzer.cfg.xml:
<entry key="ext_dict">/dicdata/use.dic.dic;/dicdata/googlepy.dic</entry> 
<entry key="ext_stopwords">/dicdata/ext_stopword.dic</entry> 

分词器的词典文件格式是无BOM 的UTF-8 编码的中文文本文件,文件扩展名不限。词典中,每个中文词汇独立占一行,使用\r\n 的DOS 方式换行。

Java开源分词系统IKAnalyzer学习
http://blog.csdn.net/lengyuhong/article/details/6010123

http://linliangyi2007.iteye.com/blog/429960 <fieldType name="text_zh_ik" class="solr.TextField"> 
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> 
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/> 
</fieldType> 
isMaxWordLength,这个参数是标识IK是否采用最大词长分词,还是采用最细粒度切分两种分词算法。实际两种算法的实现,最大词长切分是对最细粒度切分的一种后续处理,是对最细粒度切分结果的过滤,选择出最长的分词结果。

使用IKAnalyzer分词计算文章关键字并分享几个分词词典
http://my.oschina.net/zimingforever/blog/142000

No comments:

Post a Comment