-
Lucene-15-highlighter 语法高亮
highlighter介绍
我们在做查询的时候,希望对我们自己的搜索结果与搜索内容相近的地方进行着重显示。
搜索引擎展示的结果中对用户的输入信息进行了配色方面的处理,这种区分正常文本和输入内容的效果即是高亮显示;
这样做的好处:
视觉上让人便于查找有搜索对应的文本块;
界面展示更友好;
lucene提供了highlighter插件来体现类...
2022-01-10 13:01:55 |
Lucene
-
Lucene-14-suggest lucene 搜索之联想词提示之 suggest 原理和应用
InputIterator说明
联想词
lucene的联想词是在org.apache.lucene.search.suggest包下边,提供了自动补全或者联想提示功能的支持。
InputIterator 是一个支持枚举term,weight,payload三元组的供suggester使用的接口,目前仅支持AnalyzingSuggester,FuzzySuggester andAnal...
2022-01-10 13:01:55 |
Lucene
-
Lucene-13-suggest lucene 搜索之拼写检查和相似度查询提示 spellcheck
suggest应用场景
用户的输入行为是不确定的,而我们在写程序的时候总是想让用户按照指定的内容或指定格式的内容进行搜索,这里就要进行人工干预用户输入的搜索条件了;
我们在用百度谷歌等搜索引擎的时候经常会看到按键放下的时候直接会提示用户是否想搜索某些相关的内容,恰好lucene在开发的时候想到了这一点,lucene提供的suggest包正是用来解决上述问题的。
包介绍
suggest...
2022-01-10 13:01:55 |
Lucene
-
Lucene-12-lucene 搜索之 IndexSearcher 实现分页查询
IndexSearcher 常用方法
文档信息本身
IndexSearcher.doc(int docID) 获取索引文件中的第n个索引存储的相关字段,返回为Document类型,可以据此读取document中的Field.STORE.YES的字段;
IndexSearcher.doc(int docID, StoredFieldVisitor fieldVisitor) 获取S...
2022-01-10 13:01:55 |
Lucene
-
Lucene-11-lucene 搜索之 IndexSearcher 构建过程
IndexSearcher
搜索引擎的构建分为索引内容和查询索引两个大方面,这里要介绍的是lucene索引查询器即IndexSearcher的构建过程;
首先了解下IndexSearcher:
IndexSearcher提供了对单个IndexReader的查询实现;
我们对索引的查询,可以通过调用search(Query,n)或者search(Query,Filter,n)方法;
...
2022-01-10 13:01:55 |
Lucene
-
Lucene-10-lucene 的索引构建原理
lucene创建索引的原理
IndexWriter的addDocument方法详解
今天看了IndexWriter类的addDocument方法,IndexWriter对此方法的说明如下:
将文档添加到此索引。
请注意,如果遇到异常(例如磁盘已满),则索引将保持一致,但可能尚未添加此文档。
此外,即使使用复合文件(当合并部分成功时),索引也可能有一个非复合格式的段。
此方法定期...
2022-01-10 13:01:55 |
Lucene
-
Lucene-09-segment 中文分词
为什么要使用lucene中文分词器
在lucene的开发过程中,我们常会遇到分词时中文识别的问题,lucene提供了 lucene-analyzers-common.jar 包来支持分词,但多的是对英国,法国,意大利等过语言的支持,
因此我们需要引入中文分词的概念。
各种中文分词器及其对比
jcseg 中文分词器
jcseg 是使用Java开发的一款开源的中文分词器, 使用mmse...
2022-01-10 13:01:55 |
Lucene
-
Lucene-08-analysis 分析器
analysis说明
lucene ananlysis应用场景
lucene提供了analysis用来将文本转换到索引文件或提供给IndexSearcher查询索引;
对于lucene而言,不管是索引还是检索,都是针对于纯文本输入来讲的;
通过lucene的强大类库我们可以访问各种格式的文档,如HTML、XML、PDF、Word、TXT等,
我们需要传递给lucene的只是文件中的...
2022-01-10 13:01:55 |
Lucene