http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html
IKAnalyzer扩展词库
IKAnalyzer.cfg.xml:
<entry key="ext_dict">/dicdata/use.dic.dic;/dicdata/googlepy.dic</entry>
<entry key="ext_stopwords">/dicdata/ext_stopword.dic</entry>
分词器的词典文件格式是无BOM 的UTF-8 编码的中文文本文件,文件扩展名不限。词典中,每个中文词汇独立占一行,使用\r\n 的DOS 方式换行。
Java开源分词系统IKAnalyzer学习
http://blog.csdn.net/lengyuhong/article/details/6010123
http://linliangyi2007.iteye.com/blog/429960 <fieldType name="text_zh_ik" class="solr.TextField">
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
isMaxWordLength,这个参数是标识IK是否采用最大词长分词,还是采用最细粒度切分两种分词算法。实际两种算法的实现,最大词长切分是对最细粒度切分的一种后续处理,是对最细粒度切分结果的过滤,选择出最长的分词结果。
使用IKAnalyzer分词计算文章关键字并分享几个分词词典
http://my.oschina.net/zimingforever/blog/142000
IKAnalyzer扩展词库
IKAnalyzer.cfg.xml:
<entry key="ext_dict">/dicdata/use.dic.dic;/dicdata/googlepy.dic</entry>
<entry key="ext_stopwords">/dicdata/ext_stopword.dic</entry>
分词器的词典文件格式是无BOM 的UTF-8 编码的中文文本文件,文件扩展名不限。词典中,每个中文词汇独立占一行,使用\r\n 的DOS 方式换行。
Java开源分词系统IKAnalyzer学习
http://blog.csdn.net/lengyuhong/article/details/6010123
http://linliangyi2007.iteye.com/blog/429960 <fieldType name="text_zh_ik" class="solr.TextField">
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
isMaxWordLength,这个参数是标识IK是否采用最大词长分词,还是采用最细粒度切分两种分词算法。实际两种算法的实现,最大词长切分是对最细粒度切分的一种后续处理,是对最细粒度切分结果的过滤,选择出最长的分词结果。
使用IKAnalyzer分词计算文章关键字并分享几个分词词典
http://my.oschina.net/zimingforever/blog/142000
No comments:
Post a Comment