Lucene

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。

[发布]Lucene索引分析工具Luke.Net 0.5升级版 (兼容Lucene.Net 2.9.4.1)

Luke.Net 一个从Luke移植的.net版本作者Pasha Bizhan,地址:https://issues.apache.org/jira/browse/LUCENENET-391但是作者后续没有更新,无奈只好自己升级,跟java版本的luke差距不是一点点大,如果不是为了用盘古分词用java版本挺好的,所以这里我建议除非有必要还是用luke in

2015-07-08 16:56:13

Lucene学习资料总结

简介&概览篇: Lucene:基于Java的全文检索引擎简介 车东先生的学习总结,概览Lucene的快速参考。 入门&实战篇: [Lucene.Net] 基本用法 提供了Lucene索引建立,建立查询,排序,设置权重等等语句的基本用法 Lucene 2.1 API DOC 这个不用说什么了,官方的API

2015-07-08 16:56:13

Lucene+IKAnalyzer搭建全文检索引擎

一直都在.Net下做开发,偶尔也写写C和C++的小程序。当然,Java也写过,不过比较少。一个学期没去上JSP的课,突然收到没交作业就挂科的消息,没办法,做作业吧。既然要做作业,那就要做点特别的,不要总是什么学生管理系统这些增删改查的老掉牙的。。。 上次比赛需要在.Net平台下用Lucene.Net搭建过全文检索引擎,所以这次想尝试下用java开发试试,虽

2015-07-08 16:56:12

案例一(HBase+Lucene)

1、核心工具类 package junit; import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.util.List; import java.util

2015-07-08 16:56:12

基于lucene的搜索服务器(二)搜索端

上文: 基于lucene的搜索服务器 写的是创建索引端。 今天写一下搜索端的实现思路。   Restful Service的搜索服务: 搜索服务接受URL请求,通过Config解析一下url中的参数,得到有用的参数。如(关键字,搜索目标项目名,项目dll名,索引文件夹路径,xml配置文件路径,搜索关系,等等。) 再

2015-07-08 16:56:12

Lucene:依据索引查找文档

功能描述:为某个文件夹下的所有后缀名为.txt的文件创建索引后,依据关键字查找相关文档。 为文本文件创建索引请参考:http://www.cnblogs.com/eczhou/archive/2011/11/21/2257753.html 开发环境:Lucene 3.4.0 + eclipse indigo + jdk1.6.0,配置如下: 依据关

2015-07-08 16:56:11

Lucene索引库的简单优化

  根据实际情况对索引库进行优化,可以提升创建索引和搜索的速度。   1、合并索引库片段文件   IndexWriter的optimize()方法已经过时,因为这个方法的效率很低。合并文件主要是使用IndexWriter的setMergeFactor(int)方法,但是在Lucene3.6版本中,该方法已过时,直接使用LogMergePolicy.set

2015-07-08 16:56:10

lucene与sql server数据库实现索引的简单实例(vs.net2008)

// lucene建立索引,原理很简单,只要能够得到你想检索内容的文本形式,任何的数据库都可以建立你想实现的索引功能多数据库,多表都可以建立索引   using System;using System.Configuration;using System.Data;using System.L

2015-07-08 16:56:10

基于ASP.NET的lucene.net全文搜索(一)

在做项目的时候,需求添加全文搜索,选择了lucene.net方向,调研了一下,基本实现了需求,现在将它分享给大家。理解不深请多多包涵。 在完成需求的时候,查看的大量的资料,本文不介绍详细的lucene.net工程建立,只介绍如何对文档进行全文搜索。对于如何建立lucene.net的工程请大家访问 lucene.net开发。 使用lucene.net搜索

2015-07-08 16:56:10

Lucene学习总结之七:Lucene搜索过程解析(1)

一、Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程。 其可用如下图示: 总共包括以下几个过程: IndexReader打开索引文件,读取并打开指向索引文件的流。 用户输入查询语句 将查询语句转换为查询对象Query对象树 构造Weight对象

2015-07-08 16:56:09

Lucene学习总结之七:Lucene搜索过程解析

本系列文章将详细描述几乎最新版本的Lucene的基本原理和代码分析。 其中总体架构和索引文件格式是Lucene 2.9的,索引过程分析是Lucene 3.0的。 鉴于索引文件格式没有太大变化,因而原文没有更新,原理和架构的文章中引用了前辈的一些图,可能属于早期的Lucene,但不影响对原理和架构的理解。 本系列文章尚在撰写之中,将会有Java CC,

2015-07-08 16:56:09

利用Lucene.net对附件做搜索

    最近研究了个全文搜索的,Lucene.net,很有名的开源组件(有Java版本)。其实谈不上研究,就是以前客户有个需要,要能搜索上传文件(如 word Excel Txt 等等),项目中这些附件都存在一个image字段中的,一直没有办法来搜索,本文就讲一下如何利用Lucene.net对附件做搜索功能,并且利用com组件来

2015-07-08 16:56:09

盘古分词修改支持mono和lucene.net3.03

盘古分词平台兼容性 在使用Lucece.net,需要一个中文的分词组件,比较好的是盘古分词,但是我希望能够在mono的环境下运行,就使用moma检查了一下盘古分词 Assembly Version Missing Not Implemented Todo P/InvokePanGu.dll 2.3.1.0 3 0 5 0Calling Method Met

2015-07-08 16:56:08

【分享】Lucene.Net的中文分词组件AdvancedChineseAnalyzer

库名称:AdvancedChineseAnalyzer 高级中文文本分析器 描述:A Chinese Analyzer that utilizes HMM. 基于隐马尔科夫模型的中文分析器。 运行环境:Microsoft .Net Framework 2.0 依存软件:Lucene.Net 作者:Kelvin ZHANG (kelvin.cn{@t

2015-07-08 16:56:07

影响Lucene索引速度原因以及提高索引速度技巧

在网上看了一篇外文文章,里面介绍了提高Lucene索引速度的技巧,分享给大家。先来看下影响索引的主要因素: MaxMergeDocs该参数决定写入内存索引文档个数,到达该数目后就把该内存索引写入硬盘,生成一个新的索引segment文件。所以该参数也就是一个内存buffer,一般来说越大索引速度越快。MaxBufferedDocs这个参数默认是disable

2015-07-08 16:56:07

Lucene.Net+KTDictSeg中文分词搭建全文检索引擎

2015-07-08 16:56:07

写一点应用关于 Lucene.Net,snowball的重新组装(一)在Lucene.Net中加入词性标注与词根还原功能

  作者:finallyliuyu (资料使用,博文引用请您表面出处) 本专题是有关借助于Lucene.Net工具如何对英文文章进行分词,词性标注,词根还原的。如果是借助于Lucene.net框架对中文进行分词,词性标注,那么原理上更简单。我在《也谈贝叶斯分类C#版》中给出了如何在Lucene中嵌入河北理工大学吕震宇老师(根据张华平老师的ICT

2015-07-08 16:56:06

Lucene 3.0.0的细节初窥(2)-研究在索引过程中的缓存

    Lucene有一个问题一直困扰着我, 就是如何在索引文件的时候节省空间, 合理的分配不大也不小的空间有助于在提高搜索速度的同时也能够监测内存的使用情况, 在内存使用到达某个阈值的时候可以触发合并的操作     之前在写一个小程序, 来实现类似于Lucene索引文件的时候, 我是用c++写的

2015-07-08 16:56:06

Lucene.Net 2.3.1开发介绍 —— 二、分词(六)

Lucene.Net的上一个版本是2.1,而在2.3.1版本中才引入了Next(Token)方法重载,而ReusableStringReader类也是在新版本中引入的。这样改变,导致了2.3.1版本不得不修改2.1版以前的所有分词器。带来的另外一个问题的是,以前的一些现有分词器,拿到这里可能就不能用了。   要使用ReadToEnd还有另外一个

2015-07-08 16:56:06

Lucene.Net 2.3.1开发介绍 —— 三、索引(二)

2、索引中用到的核心类 在Lucene.Net索引开发中,用到的类不多,这些类是索引过程的核心类。其中Analyzer是索引建立的基础,Directory是索引建立中或者建立好存储的介质,Document和Field类是逻辑结构的核心,IndexWriter是操作的核心。其他类的使用都被隐藏掉了,这也是为什么Lucene.Net使用这么方便的原因。 &n

2015-07-08 16:56:05