Lucene

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。

Lucene 4.7 学习及实例demo

  很早就听说Lucene的大名了,但一直没空研究,今天抽了一个下午时间,学习了一下Lucene,写了一个简单的Demo,总的感受是使用起来简单方便,在使用之前,首先要理解以下关键的类: Document Document 是用来描述文档的,这里的文档可以指一个 HTML 页面,一封电子邮件,或者是一个文本文件。一个 Document 对象由多个

2015-07-08 16:56:37

Lucene.Net 按类别统计搜索结果数

今天群里有个朋友问\"如何按类别统计搜索结果数?是不是要循环一个个类别去查询出总数啊?\" 以Lucene.Net现在的API,只能这样做。当然这样做一般会带来性能问题,所以更好的解决方案就是改动库文件了。   注意:本文内容仅适用于Lucene.Net,以2.1版为例,其它版本可能会有出入,Java版本差别更大一些。 改动库先要有个思路。Lucene

2015-07-08 16:56:36

Lucene的分析过程

Lucene的分析过程 回顾倒排索引的构建 收集待建索引的原文档(Document) 将原文档传给词条化工具(Tokenizer)进行文本词条化 将第二步得到的词条(Token)传给语言分析工具(Linguistic modules)进行语言学预处理,得到词项(Term) 将得到的词项(Term)传给索引组件(Indexer),建立倒排索引

2015-07-08 16:56:36

初识Lucene

     以前听过Lucene的大名,但是实际项目中一直没机会用到。直到今天,无事看看,发现者东西真是厉害,很多知名公司都已经在用了,包括google和apple。 这篇文章将分3部分介绍lucene, 1. Lucene简单的介绍  2.如何创建索引  3.如何搜索   1. Lucen

2015-07-08 16:56:36

Lucene.net索引文件的并发访问和线程安全性

通常,Lucene的初学者们对Lucene.net索引文件的并发访问、IndexReader和IndexWriter的线程安全性存在一定的误解。而准确地理解这些内容是十分重要的。此文简单的论述下这两个问题。并发访问的规则 Lucene提供了一些修改索引的方法,例如索引新文档、更新文档和删除文档;在执行这些操作时,为了避免对索引文件造成损坏,需要遵循一些特定

2015-07-08 16:56:35

Lucene及自动问答系统

最近接触了一个项目,一个简单的中文自动问答系统。之所以说它简单,是因为,首先,这是一个Domain-Specific的问答系统,有一个特定的领域背景。其次,它有一个固定的、封闭的、格式化的知识库,具体而言就是一个“问题-答案对”的集合。最后,它没有任何的关于答案的分析、抽取和生成技术,对于用户的提问,系统仅仅是在知识库中所有的问题中寻找最匹配的一个,然后把该

2015-07-08 16:56:35

Lucene 中文分词、分页、高亮 索引TXT

1、所用的Jar包 lucene-core-4.7.2.jar lucene-analyzers-common-4.7.2.jar lucene-queryparser-4.7.2.jar lucene-highlighter-4.7.2.jar  //高亮 IKAnalyzer2012FF_u1.jar   //中

2015-07-08 16:56:35

[ lucene高级 ] lucene准实时(near realtime)检索

先撇开其他的不谈,我们先看看下面几段代码,他们均能实现“实时”检索。 注意: 1.笔者目前采用的lucene版本为3.5. 2.为了检查是否“实时”,采用了numDocs是否发生变化进行简易判断。 3.请正确理解这里的提到的“实时”,并与“准实时”予以区分

2015-07-08 16:56:34

仿造Baidu简单实现基于Lucene.net的全文检索的功能

  转载自:http://www.cnblogs.com/OceanEyes/archive/2012/07/31/2616178.html Lucene.Net Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,是一个Librar

2015-07-08 16:56:34

我完成的C#关于在lucene下的中文切词

经过一天的研究,终于完成了在lucene.net下可以使用的中文切词方法。感到有些复杂,不过我还是拿下了。颇有点成就感的,发上来跟大家分享一下! 在实现了中文切词的基础方法上,我将其封装在继承lucene的Analyzer类下 chineseAnalzer的方法就不用多说了。 using System; using System.

2015-07-08 16:56:34

基于Lucene.NET的文件搜索工具

  本文要介绍的是利用Lucene.NET写的一个简单的文档搜索器。实现最基本的索引和搜索功能。编写这个小工具的初衷之一是因为我收集的专业资料文档越来越多,有时想要在计算机中找到自己想要的文档却不知道自己之前把那些资料放到了什么地方,而且现在的硬盘越来越大,目录结构也越来越复杂,常常要花很多时间去查找自己想要的资料。有了这个搜索工具,只要定期重新建立索引,就

2015-07-08 16:56:33

Lucene系列-分析器

分析器介绍 搜索的基础是对文本信息进行分析,Lucene的分析工具在org.apache.lucene.analysis包中。分析器负责对文本进行分词、语言处理得到词条,建索引和搜索的时候都需要用到分析器,两者应当是同一个,否则没法很好的匹配。 Lucene的分析器往往包括一个分词器(Tokenizer)和多个过滤器(TokenFilter),过滤器负责

2015-07-08 16:56:33

用Java lucene 写的一个搜索引擎 .

package org.itat.test; import java.io.File; import java.io.FileReader; import java.io.IOException; import org.apache.lucene.analysis.standard.StandardAnalyzer;

2015-07-08 16:56:32

Lucene.Net 系列

Lucene.Net 系列一本文介绍了什么是Lucene,Lucene能做什么. 如何从一个文件夹下的所有txt文件中查找特定的词? 本文将围绕该个实例介绍了lucene.net的索引的建立以及如何针对索引进行搜索.最后还将给出源代码供大家学习. 源代码下载 What’s Lucene Lucene是一个信息检索的函数库(Libra

2015-07-08 16:56:32

PyLucene是基于Python的Lucene

原文首发: http://www.laozizhu.com/view.jsp?articleId=153     PyLucene是基于Python的Lucene,现在已经成为官方的Lucene的子项目了。         What is PyLucene ? PyLuce

2015-07-08 16:56:32

Lucene.Net使用探秘

  对于满足全文检索的需求来说,Lucene.Net无疑是一个很好的选择。它引入了增量索引的策略,解决了在数据频繁改动时重建索引的问题,这对于提高web的性能至关重要(其他相关特性大家可以参看官方文档)。Lucene.Net是基于文档性的全文搜索,所以使用Lucene.Net时要把数据库中的数据先导出来,这也是一个建立索引的过程。代码如下: 1 //

2015-07-08 16:56:32

lucene自定义QueryParser

QueryParser的自定义和扩展个别方法的功能,其实也就是重写一些方法 package org.itat.lucene.util; import java.text.SimpleDateFormat; import java.util.regex.Pattern; import org.apache.lucene.analysis.Analyze

2015-07-08 16:56:30

Lucene.NET-1.4.3索引架构研究

Lucene索引架构研究   Lucene索引部分主要分为三大块:索引内容读取器,项在文档中的统计信息,项和域的数据结构。   一. 索引内容读取器 图1. 索引内容读取器   IndexReader封装对外的统一接口,可以获取指定term的tf,df等信息。获取Do

2015-07-08 16:56:30

Lucene.Net 2.3.1开发介绍 —— 三、索引(七)

5、IndexWriter 索引这部分最后讲的是IndexWriter。如果说前面提到的都是数据的结构,那么IndexWriter就是业务的封装。无论述Document,Field还是看不见的Segment,Term都是对数据存储逻辑的抽象,IndexWriter包装了操作的过程。 当然,这里不会讨论IndexWriter的每个细节,这里主要介绍Inde

2015-07-08 16:56:30

lucene tis和 tii 文件

        在lucene 中使用 tis 保存了所有term的信息,为了加速检索,还保存了tii文件,他是tis文件的索引,下面图简单的表示了他们之间的关系   上图的左边表示tis中保存的所有的term ,右边tii是保存需要索引的term以及在tis中的位置,这

2015-07-08 16:56:30