个人简介

Echo Blog


江湖无名 安心练剑
  • 开源中文的繁简体转换 opencc4j-05-日文转换支持
    Opencc4j Opencc4j 支持中文繁简体转换,考虑到词组级别。 开源中文的繁简体转换 opencc4j-01-使用入门概览 开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char? 开源中文的繁简体转换 opencc4j-03-简体还是繁体,你说了算! 开源中文的繁简体转换 opencc4j-04-香港地区转换支持 开源中文的繁简体转换 openc...
    2020-01-09 02:09:32 | Search
  • 开源中文的繁简体转换 opencc4j-04-香港地区转换支持
    Opencc4j Opencc4j 支持中文繁简体转换,考虑到词组级别。 开源中文的繁简体转换 opencc4j-01-使用入门概览 开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char? 开源中文的繁简体转换 opencc4j-03-简体还是繁体,你说了算! 开源中文的繁简体转换 opencc4j-04-香港地区转换支持 开源中文的繁简体转换 openc...
    2020-01-09 02:09:32 | Search
  • 开源中文的繁简体转换 opencc4j-03-简体还是繁体,你说了算!
    Opencc4j Opencc4j 支持中文繁简体转换,考虑到词组级别。 开源中文的繁简体转换 opencc4j-01-使用入门概览 开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char? 开源中文的繁简体转换 opencc4j-03-简体还是繁体,你说了算! 开源中文的繁简体转换 opencc4j-04-香港繁简体的支持 开源中文的繁简体转换 openc...
    2020-01-09 02:09:32 | Search
  • java 开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char?
    Opencc4j Opencc4j 支持中文繁简体转换,考虑到词组级别。 开源中文的繁简体转换 opencc4j-01-使用入门概览 开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char? 开源中文的繁简体转换 opencc4j-03-简体还是繁体,你说了算! 开源中文的繁简体转换 opencc4j-04-香港繁简体的支持 开源中文的繁简体转换 openc...
    2020-01-09 02:09:32 | Search
  • java 开源中文的繁简体转换工具 opencc4j 使用入门-01-overview
    Opencc4j Opencc4j 支持中文繁简体转换,考虑到词组级别。 开源中文的繁简体转换 opencc4j-01-使用入门概览 开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char? 开源中文的繁简体转换 opencc4j-03-简体还是繁体,你说了算! 开源中文的繁简体转换 opencc4j-04-香港繁简体的支持 开源中文的繁简体转换 openc...
    2020-01-09 02:09:32 | Search
  • TF-IDF 找出相似文章算法
    相似性文章 今天,我们再来研究另一个相关的问题。 有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。 比如,”Google新闻”在主新闻下方,还提供多条相似的新闻。 余弦相似性 为了找出相似的文章,需要用到 “余弦相似性”(cosine similiarity)。 下面,我举一个例子来说明,什么是”余弦相似性”。 例子 句子 为了简单起见,我们先从句子着手。 ...
    2020-01-09 02:09:32 | Search
  • 相似文章算法之语义指纹-文本内容去重
    引言 网络爬虫让我们高效地从网页获取到信息,但网页的重复率很高,网页需要按内容做文档排重,而判断文档的内容重复有很多种方法,语义指纹是其中比较高效的方法。 本文选自《网络爬虫全解析——技术、原理与实践》。 用途 文章相似度,杜绝论文抄袭等等。 语义指纹的由来 提到“指纹”就想到了人手的指纹。 那么指纹能干嘛呢? 我们看到最多的是警匪片中验指纹,还有公司考勤打卡用指纹等。其目的...
    2020-01-09 02:09:32 | NLP
  • TF-IDF 自动提取关键词
    自动提取关键词 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。 它简单到都不需要高...
    2020-01-09 02:09:32 | Search