-
java 实现 OCR 图片文字识别中文
背景
我们上一节讲过了针对英文的 ocr 实现,现在我们来尝试一下中文识别。
我们准备一张简单的中文图片:
准备工作
下载中文训练集
下载地址 所有语言的训练集
此处直接下载 简体中文训练集,然后将其拷贝到我们的
tessdata 文件夹中:
C:\Program Files (x86)\Tesseract-OCR\tessdata
maven 引入
<dep...
2020-01-09 02:09:32 |
OCR
-
special chars 特殊符号汇总
特殊符号
特殊符号列表
≠≡⁄≤≥«#©¨!¯&®'$¬%£*+¢¡(≈)§./¦¥,»¸¾¿¼½;:°±¶?·>=´<@♠←↑→♣↓↔♥∩♦∫–—‚’ב^„”◊“†‡•∂€…∏™‰″′˜−∑‹∞÷~|›√‾¥`
QQ
︻︼︽︾〒↑↓☉⊙●〇◎¤★☆■▓「」『』◆◇▲△▼▽◣◥◢◣◤ ◥№↑↓→←↘↙Ψ※㊣∑⌒∩【】〖〗@ξζω□∮〓※》∏卐√ ╳々♀♂∞①ㄨ...
2020-01-08 02:09:32 |
Java
-
number 数字与中文
数字的写法转换
代码
private static final String NUM_ONE = "⓪0零º₀⓿○" +
"123456789" +
"一二三四五六七八九" +
"壹贰叁肆伍陆柒捌玖" +
"¹²³⁴⁵⁶⁷⁸⁹" +
"₁₂₃₄₅₆₇₈₉" +
...
2020-01-08 02:09:32 |
Java
-
NLP segment-21-分词开源项目介绍 ansj_seg
拓展阅读
分词系列专题
jieba-fenci 01 结巴分词原理讲解 segment
jieba-fenci 02 结巴分词原理讲解之数据归一化 segment
jieba-fenci 03 结巴分词与繁简体转换 segment
jieba-fenci 04 结巴分词之词性标注实现思路 speechTagging segment
jieba-fenci 05 结巴分词之简单聊一...
2020-01-08 02:09:32 |
NLP
-
NLP segment-20-分词开源项目介绍 HanLP 未来十年的自然语言处理
拓展阅读
分词系列专题
jieba-fenci 01 结巴分词原理讲解 segment
jieba-fenci 02 结巴分词原理讲解之数据归一化 segment
jieba-fenci 03 结巴分词与繁简体转换 segment
jieba-fenci 04 结巴分词之词性标注实现思路 speechTagging segment
jieba-fenci 05 结巴分词之简单聊一...
2020-01-08 02:09:32 |
NLP
-
NLP segment-05-文本相似度计算 similarity java 开源实现
拓展阅读
分词系列专题
jieba-fenci 01 结巴分词原理讲解 segment
jieba-fenci 02 结巴分词原理讲解之数据归一化 segment
jieba-fenci 03 结巴分词与繁简体转换 segment
jieba-fenci 04 结巴分词之词性标注实现思路 speechTagging segment
jieba-fenci 05 结巴分词之简单聊一...
2020-01-08 02:09:32 |
NLP
-
NLP segment-04-自动摘要 auto-summary java 开源实现
拓展阅读
分词系列专题
jieba-fenci 01 结巴分词原理讲解 segment
jieba-fenci 02 结巴分词原理讲解之数据归一化 segment
jieba-fenci 03 结巴分词与繁简体转换 segment
jieba-fenci 04 结巴分词之词性标注实现思路 speechTagging segment
jieba-fenci 05 结巴分词之简单聊一...
2020-01-08 02:09:32 |
NLP
-
NLP segment-03-基于 TF-IDF 实现关键词提取 java 开源实现
拓展阅读
分词系列专题
jieba-fenci 01 结巴分词原理讲解 segment
jieba-fenci 02 结巴分词原理讲解之数据归一化 segment
jieba-fenci 03 结巴分词与繁简体转换 segment
jieba-fenci 04 结巴分词之词性标注实现思路 speechTagging segment
jieba-fenci 05 结巴分词之简单聊一...
2020-01-08 02:09:32 |
NLP