在我们之前的章节中,我们已经了解到Lucene使用IndexWriter对文档进行分析,使用Analyzer创建/打开/编辑所需的索引。在本章中,我们将讨论各种类型的Analyzer对象和其他相关对象,这些对象在分析过程中使用。理解分析过程以及分析器的工作原理将使您深入了解Lucene如何索引文档。

以下是我们将在适当时讨论的对象列表。

序号 类名及描述
1 Token Token表示文档中的文本或单词,并包含相关的详细信息,如其元数据(位置、起始偏移量、结束偏移量、令牌类型及其位置增量)。
2 TokenStream TokenStream是分析过程的输出,它由一系列令牌组成。它是一个抽象类。
3 Analyzer 这是每种类型的分析器的抽象基类。
4 WhitespaceAnalyzer 此分析器根据空白符拆分文档中的文本。
5 SimpleAnalyzer 此分析器根据非字母字符拆分文档中的文本,并将文本转换为小写。
6 StopAnalyzer 此分析器的工作方式与SimpleAnalyzer相同,并删除常见词汇,如’a’、’an’、’the’等。
7 StandardAnalyzer 这是最复杂的分析器,能够处理名称、电子邮件地址等。它将每个令牌转换为小写,并删除常见词汇和标点符号(如果有)。

参考资料

https://www.tutorialspoint.com/lucene/lucene_search_operation.htm