网络爬虫让我们高效地从网页获取到信息,但网页的重复率很高,网页需要按内容做文档排重,而判断文档的内容重复有很多种方法,语义指纹是其中比较高效的方法。
本文选自《网络爬虫全解析——技术、原理与实践》。
用途
文章相似度,杜绝论文抄袭等等。
语义指纹的由来
提到“指纹”就想到了人手的指纹。
那么指纹能干嘛呢?
我们看到最多的是警匪片中验指纹,还有公司考勤打卡用指纹等。其目的在于识别个体。
当然作为指纹特征,需要它是可唯一确定的、不容易更改的、方便携带的。
2020年1月9日大约 26 分钟