Lucene 的索引里面存了些什么,如何存放的,也即 Lucene 的索引文件格式,是读懂 Lucene源代码的一把钥匙。
当我们真正进入到 Lucene 源代码之中的时候,我们会发现:
(1)Lucene 的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。
(2)Lucene 的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程。
本文详细解读了 Apache Lucene - Index File Formats (http://lucene.apache.org/java/2_9_0/fileformats.html) 这篇文章。