个人简介

Echo Blog


江湖无名 安心练剑
  • TF-IDF 自动生成文章摘要
    自动摘要 有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。 仅仅依靠统计词频,就能找出关键词和相似文章。 虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。 今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。 如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大...
    2020-01-09 02:09:32 | Search
  • 倒排索引原理与实现 reverse-index
    关于倒排索引 场景是:给定几个关键词,找出包含关键词的文档 倒排索引: 不是由记录来确定属性值,而是由属性值来确定记录的位置 lucene 是基于倒排索引实现的。 倒排文件(inverted file):存储倒排索引的物理文件 倒排索引组成:单词词典和倒排文件。 倒排索引一般表示为一个关键词,然后是它的频度(出现的次数),位置(出现在哪一篇文章或网页中,及有关的日期,作者等信息)...
    2020-01-09 02:09:32 | Search
  • tess4j 实现 OCR 图片文字识别
    OCR图像识别技术的JAVA实现 最近有个需求需要用图像识别,学习记录一下。 目前网络上的开源的图像识别技术有很多,例如 OCRE(OCR Easy)、Clara OCR、OCRAD、TESSERACT-OCR 等。 今天本blog将记录下tesseract-ocr的JAVA实现,便于以后查阅使用。 开源 ocr 引擎 https://github.com/search?q=ocr...
    2020-01-09 02:09:32 | OCR
  • java 实现 OCR 图片文字识别中文
    背景 我们上一节讲过了针对英文的 ocr 实现,现在我们来尝试一下中文识别。 我们准备一张简单的中文图片: 准备工作 下载中文训练集 下载地址 所有语言的训练集 此处直接下载 简体中文训练集,然后将其拷贝到我们的 tessdata 文件夹中: C:\Program Files (x86)\Tesseract-OCR\tessdata maven 引入 <dep...
    2020-01-09 02:09:32 | OCR
  • special chars 特殊符号汇总
    特殊符号 特殊符号列表 ≠≡⁄≤≥«#©¨!¯&®'$¬%£*+¢¡(≈)§./¦¥,»¸¾¿¼½;:°±¶?·>=´<@♠←↑→♣↓↔♥∩♦∫–—‚’ב^„”◊“†‡•∂€…∏™‰″′˜−∑‹∞÷~|›√‾¥` QQ ︻︼︽︾〒↑↓☉⊙●〇◎¤★☆■▓「」『』◆◇▲△▼▽◣◥◢◣◤ ◥№↑↓→←↘↙Ψ※㊣∑⌒∩【】〖〗@ξζω□∮〓※》∏卐√ ╳々♀♂∞①ㄨ...
    2020-01-08 02:09:32 | Java
  • number 数字与中文
    数字的写法转换 代码 private static final String NUM_ONE = "⓪0零º₀⓿○" + "123456789" + "一二三四五六七八九" + "壹贰叁肆伍陆柒捌玖" + "¹²³⁴⁵⁶⁷⁸⁹" + "₁₂₃₄₅₆₇₈₉" + ...
    2020-01-08 02:09:32 | Java
  • NLP segment-21-分词开源项目介绍 ansj_seg
    拓展阅读 分词系列专题 jieba-fenci 01 结巴分词原理讲解 segment jieba-fenci 02 结巴分词原理讲解之数据归一化 segment jieba-fenci 03 结巴分词与繁简体转换 segment jieba-fenci 04 结巴分词之词性标注实现思路 speechTagging segment jieba-fenci 05 结巴分词之简单聊一...
    2020-01-08 02:09:32 | NLP
  • NLP segment-20-分词开源项目介绍 HanLP 未来十年的自然语言处理
    拓展阅读 分词系列专题 jieba-fenci 01 结巴分词原理讲解 segment jieba-fenci 02 结巴分词原理讲解之数据归一化 segment jieba-fenci 03 结巴分词与繁简体转换 segment jieba-fenci 04 结巴分词之词性标注实现思路 speechTagging segment jieba-fenci 05 结巴分词之简单聊一...
    2020-01-08 02:09:32 | NLP