场景是:给定几个关键词,找出包含关键词的文档
倒排索引: 不是由记录来确定属性值,而是由属性值来确定记录的位置
lucene 是基于倒排索引实现的。
倒排文件(inverted file):存储倒排索引的物理文件
倒排索引组成:单词词典和倒排文件。
倒排索引一般表示为一个关键词,然后是它的频度(出现的次数),位置(出现在哪一篇文章或网页中,及有关的日期,作者等信息),它相当于为互联网上几千亿页网页做了一个索引,好比一本书的目录、标签一般。
读者想看哪一个主题相关的章节,直接根据目录即可找到相关的页面。