lucene中文索引初探

作者: mingongtou
发布时间:2015-07-08 16:57:26

lucene提供的demo程序中只支持英文的索引,下文将介绍如何在demo中添加中文索引

1.下载lucene的源码和中文解析器源码
其中中文解析器的下载地址是:http://svn.Apache.org/repos/asf/lucene/java/trunk/contrib/

2.重新打包lucene-1.4.3.jar使其包含中文解析器

修改demo程序中语言解析器的调用:
...
try {
      IndexWriter writer = new IndexWriter("index", new StandardAnalyzer(),
true);
      indexDocs(writer, new File(args[0]));
...

改为
...
try {
      IndexWriter writer = new IndexWriter("index", new ChineseAnalyzer(),
true);
      indexDocs(writer, new File(args[0]));
...

重新打包lucene-demos-1.4.3.jar

3.按照lucene帮助建立索引,之后我们就可以进行中文检索了

由于lucene提供的中文解析器没有配合字典使用,并且采用的是多元分词,效率可能会比较低,
但是为二次开发提供了比较好的基础。

版权声明:本文为博主原创文章,未经博主允许不得转载。

标签: Lucene
来源:http://blog.csdn.net/mingongtou/article/details/542422

推荐: