查看分词器分出的词组
import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.apache.lucene.analysis.tokenattributes.OffsetAttribute; import org.apache.lucene.util.Version; import org.junit.Test; public class AnalyzerTest { @Test public void analyzer() throws IOException { String text = "小笑话_总统的房间 Room .txt"; Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_4_9); TokenStream tokenStream = analyzer.tokenStream("name", text); OffsetAttribute attribute = tokenStream.addAttribute(OffsetAttribute.class); tokenStream.reset(); while (tokenStream.incrementToken()) { System.out.println("token: " + tokenStream.reflectAsString(true)); System.out.println("token start offset: " + attribute.startOffset()); System.out.println("token end offset: " + attribute.endOffset()); } tokenStream.end(); tokenStream.close(); } /** * 测试分词器输出 * WhitespaceAnalyzer 以空格作为切词标准,不对语汇单元进行其他规范化处理 SimpleAnalyzer 以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符 StopAnalyzer 该分析器会去除一些常有a,the,an等等,也可以自定义禁用词 StandardAnalyzer Lucene内置的标准分析器,会将语汇单元转成小写形式,并去除停用词及标点符号 CJKAnalyzer 能对中,日,韩语言进行分析的分词器,对中文支持效果一般。 SmartChineseAnalyzer 对中文支持稍好,但扩展性差 * @throws IOException */ @Test public void testCharTermAttribute () throws IOException { String text = "小笑话_总统的房间 Room .txt"; //Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_4_9); //Analyzer analyzer = new CJKAnalyzer(Version.LUCENE_4_9); Analyzer analyzer = new SmartChineseAnalyzer(Version.LUCENE_4_9); TokenStream tokenStream = analyzer.tokenStream("name", text); CharTermAttribute termAtt = tokenStream.addAttribute(CharTermAttribute.class); tokenStream.reset(); while (tokenStream.incrementToken()) { System.out.println(termAtt.toString()); } tokenStream.end(); tokenStream.close(); } }
相关推荐
基于ICTCLAS中科院分词器实现Lucene4.9版本的中文分词功能,新增中英文停用词库,直接导入即可使用。
solr的IK分词器JAR及配置文件 jar包和配置文件的放置位置不一样,详情可搜索 IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。...org.wltea.analyzer.lucene.IKAnalyzer jar
lucene4.9全包
Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器 Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器
lucene3.5 IKAnalyzer3.2.5 实例中文分词通过,目前在网上找的lucene 和IKAnalyzer 的最新版本测试通过。内含:示例代码,以及最新jar包。 lucene lucene3.5 IKAnalyzer IKAnalyzer3.2.5 jar 中文 分词
最全、最新的lucene技术,包含所有的代码以及文档等内容,是学习lucene最全的文档。
利用IKAnalyzer结合LUCENE.4.9进行中文分词的高亮显示。
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
关于lucene的IKAnalyzer分词器以及与lucene4.3共同使用时发生的问题解决包
NULL 博文链接:https://w62268458.iteye.com/blog/2180659
lucene-IKAnalyzer2012_u6-lukeall.rar压缩包中包含lucene-4.10.3依赖包、中文分词器IKAnalyzer2012_u6的依赖包和索引库查看工具lukeall-4.10.0.jar(将jar拷贝到相应的索引库中双击打开即可查看)。解压后就可以...
官网的lucene全文检索引擎工具包,下载后直接解压缩即可使用
基于lucene与IKAnalyzer的中文搜索demo及学习记录 Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎,部分文本分析引擎。 Lucene的目的是为软件开发人员提供一个简单易用的...
该jar包之前只支持Lucene4.7.2,因为我自己的项目用到的是Lucene5.3.1,所以我自己重写了IKAnalyzer.java以及IKTokenizer.java,并且重新编译之后替换了之前的.class文件,现在可以适用于Lucene5.3.1
提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。
IKAnalyzer是一个开源的,基于Java语言开发的轻量级的中文分词语言包,它是以Lucene为应用主体,结合词典分词和文法分析算法的中文词组组件。从3.0版本开始,IK发展为面向java的公用分词组件,独立Lucene项目,同时...
使用Lucene 分词器Jsceg IkAnalyzer jar包 ucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了...
java1.5环境下创建修改删除增加模糊查询索引文件包 使用Lucene3.01+IKAnalyzer3.2 范例java文件,有兴趣的可以看看 欢迎指教
Lucene5.21+IkAnalyzer2012_V5入门案例,看不懂你来打我。
使用lucene-3.5和IKAnalyzer2012,实现基础的全文检索实现