Life Long Programmer's Community Log: Chinse Tokenizer: IKAnalyzer

http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html
IKAnalyzer扩展词库
IKAnalyzer.cfg.xml:
<entry key="ext_dict">/dicdata/use.dic.dic;/dicdata/googlepy.dic</entry>
<entry key="ext_stopwords">/dicdata/ext_stopword.dic</entry>

分词器的词典文件格式是无BOM 的UTF-8 编码的中文文本文件，文件扩展名不限。词典中，每个中文词汇独立占一行，使用\r\n 的DOS 方式换行。

Java开源分词系统IKAnalyzer学习
http://blog.csdn.net/lengyuhong/article/details/6010123

http://linliangyi2007.iteye.com/blog/429960 <fieldType name="text_zh_ik" class="solr.TextField">
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
isMaxWordLength，这个参数是标识IK是否采用最大词长分词，还是采用最细粒度切分两种分词算法。实际两种算法的实现，最大词长切分是对最细粒度切分的一种后续处理，是对最细粒度切分结果的过滤，选择出最长的分词结果。

使用IKAnalyzer分词计算文章关键字并分享几个分词词典
http://my.oschina.net/zimingforever/blog/142000

Life Long Programmer's Community Log

Chinse Tokenizer: IKAnalyzer - Multi-Language Analysis in Solr

No comments:

Post a Comment