Echo Blog

江湖无名安心练剑

Lucene in action-05-IndexSearcher 与 Query 和 Explanation
场景如果我们不能通过搜索找到某个文档，那么这个文档就不能为我们所用。即使我们已经对文档进行了索引，如果不能够快速可靠地找到这些文档，我们仍然会徒劳无功。例如，考虑如下情景：假设我们需要找出最近12个月出版的有关 Java 的书籍列表，这些书的内容里一定要包含“open source”或“Jakarta”这样的关键字，此外还要求它们是特价书籍。另外请别忘了，还要加上一点，关键字...
2022-01-10 13:01:55 | Lucene

Lucene in action-04-indexing 索引过程控制
2.7 控制索引过程在对中小型文档集合进行索引的情况下，默认配置的Lucene能够很好地工作。但是，如果应用程序要处理很大的索引，你可能想在Lucene的索引过程中添加一些控制，以保证应用程序获得最佳的索引性能。例如，你可能正在索引几百万个文档，并想加速这一过程，使花费的时间从几个小时缩短到几分钟。而你的计算机有空闲的内存(RAM) ，所以你有必要知道如何使Lucene能更好地...
2022-01-10 13:01:55 | Lucene

Lucene in action-03-indexing 索引
索引 2.1.1 转换成文本在用Lucene索引数据之前，首先必须将数据转换成Lucene能够处理的格式——纯文本字符流。在第1章中，我们将索引和搜索的对象规定为.txt文件，这样我们就能简便地用这些文件的内容来填充域的实例。然而，事情并非都如此简单。假定你需要索引一套PDF格式的手册。首先，需要从PDF文档中提取文本信息，然后用这些提取出来的数据来创建Lucene...
2022-01-10 13:01:55 | Lucene

Lucene in action-02-lucene 核心类简介
1.5 理解索引过程的核心类正如你在 Indexer 类中所看到的，执行最简单的索引过程需要用到下列几个类： IndexWriter Directory Analyzer Document Field 接下来是这些类的一个简要的讲解，通过这些讲解可以使你对这些类有一个初步的印象。 ...
2022-01-10 13:01:55 | Lucene

Lucene in action-01-lucene 是什么？
初识Lucene Lucene的简单易用性是它广受欢迎和成功的关键因素之一。Lucene是一个设计得非常优秀的软件，因为它向用户提供了简单易用的索引和搜索API，并屏蔽了复杂的实现过程。因此，当开始使用Lucene时，不必很深入地了解它的信息索引及检索的内部工作原理。而且由于Lucene API的简单直接，你只需要学会如何使用它提供的类就可以了。在本章中，我们通过一些现成的代码...
2022-01-10 13:01:55 | Lucene

Lucene in action-00-overview 概览
简介官方地址源码下载地址：源码 Lucene Lucene 是开源世界中的一颗宝石——一个高度可扩展的快速搜索引擎。它提供了性能并且非常易于使用。 Lucene in Action 是 Lucene 的权威指南。它描述了如何索引您的数据，包括您肯定需要知道的类型，例如 MS Word、PDF、HTML 和 XML。它向您介绍搜索、排序、过滤和突出显示搜索结果。关...
2022-01-10 13:01:55 | Lucene

Lucene-22-lucene增量更新和NRT(near-real-time)Query近实时查询
增量更新的必要性有时候我们创建完索引之后，数据源可能有更新的内容，而我们又想像数据库那样能直接体现在查询中，这里就是我们所说的增量索引。对于这样的需求我们怎么来实现呢？ lucene内部是没有提供这种增量索引的实现的；这里我们一般可能会想到，将之前的索引全部删除，然后进行索引的重建。对于这种做法，如果数据源的条数不是特别大的情况下倒还可以，如果数据源的条数特别大的话，势必会造成...
2022-01-10 13:01:55 | Lucene

Lucene-21-lucene索引时join和查询时join使用示例
join 了解sql的朋友都知道，我们在查询的时候可以采用join查询，即对有一定关联关系的对象进行联合查询来对多维的数据进行整理。这个联合查询的方式挺方便的，跟我们现实生活中的托人找关系类似，我们想要完成一件事，先找自己的熟人，然后通过熟人在一次找到其他，最终通过这种手段找到想要联系到的人。有点类似于”世间万物皆有联系“的感觉。 lucene的join包提供了索引时join和查...
2022-01-10 13:01:55 | Lucene