个人简介

Echo Blog


江湖无名 安心练剑
  • NLP 中文整体规划设计应用
    前沿 NLP 可以做很多事情,可以非常的简单,但是效果却非常的好。 概率 SA 情感分析 文本分类 性别推断 垃圾邮件识别 基本语料(chinese-basic) 字 词 成语 相关基础工具 拼音 繁简体 形近字 词语拓展 同义词、近义词、反义词、否定词、停顿词 敏感词 【汉字拆字】 【汉字词语缩写】 应用 拼写纠正:基于困惑集+编辑距离,结合中文的...
    2020-01-20 02:09:32 | NLP
  • ML 机器学习概览-01-overview
    机器学习领域,除了 NLP,opencv 还有哪些主要研究方向? 机器学习领域除了自然语言处理(NLP)和计算机视觉(如使用OpenCV库进行图像处理)之外,还包括多个主要研究方向,这些方向不断推动着人工智能技术的发展和应用。以下是一些核心的机器学习研究方向: 深度学习(Deep Learning):深度学习是机器学习的一个子领域,主要研究如何使用深层神经网络进行数据分析...
    2020-01-20 02:09:32 | ML
  • maven 打包成可执行的文件 jar
    业务背景 直接生成一个可执行的 jar,而不是一个麻烦的 war 包之类的。 maven 打包方式 配置 pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://w...
    2020-01-09 02:09:32 | Devops
  • maven 打包报错 Return code is 501 , ReasonPhrase:HTTPS Required.
    报错场景 今天 maven 打包,报错如下: [ERROR] Failed to execute goal on project pinyin: Could not resolve dependencies for project com.github.houbb:pinyin:jar:0.0.2-SNAPS HOT: Failed to collect dependencies at ...
    2020-01-09 02:09:32 | Devops
  • 如何解决分词的繁简体问题?
    分词的繁简体问题 分词是基本所有 nlp 的基础,那么分词中的繁简体如何解决? 方案1-HMM预测 不依赖字典,直接根据繁题的字频预测。 优点:降低内存消耗 缺点:不知道 jieba 有没有对应的繁体字频统计。 而且我想在 HMM 服务降级的时候依然可以支持。 方案2-繁体字典预处理 基于 jieba-fenci + opencc4j 首先做一次预处理。 将所有的繁体词组处...
    2020-01-09 02:09:32 | Search
  • 如何为 java 设计一款高性能的拼音转换工具 pinyin4j
    拼音转换工具 拼音转换工具的思路不难: (1)词语分词 (2)基于词库进行拼音的映射 (3)拼接最后的结果 可以认为主要下面的部分值得留意 准确性 作为拼音转换算法,准确性优先级应该是在性能之前的。 如果我们能保证高准确性,应该尽可能的去提高准确性。 词库来源 这里的词库,不包括分词的词库,仅仅指拼音的词库。 指拼音的词库,收集可以在各种优秀词库的基础上,不应该在收集上...
    2020-01-09 02:09:32 | Search
  • 拼音转汉字实现方式
    基于HMM的拼音转汉字 这里的拼音一般不带声调。 将汉字作为隐藏状态,拼音作为观测值,使用viterbi算法可以将多个拼音转换成合理的汉字。 例如给出ti,chu,le,jie,jue,fang,an,viterbi算法会认为提出了解决方案是最合理的状态序列。 HMM 需要三个分布,分别是: 初始时各个状态的概率分布 各个状态互相转换的概率分布 ...
    2020-01-09 02:09:32 | Search
  • pinyin4j 声母与韵母的基础知识
    汉语拼音是拼写汉民族标准语的拼音方案。 汉语拼音是以北京语音系统作为语音标准的。 北京音也是中国地域最辽阔、人口最多的北方方言的典型代表。 解释汉语拼音用法和标准的《汉语拼音方案》是中国拼音文字方案的国家标准,也是联合国规定用来拼写中国人名地名和专用词语的国际标准。 它是中华人民共和国法定的拼音方案,是世界文献工作中拼写有关中国的专用名词和词语的国际标准。 1958年2月11日,第...
    2020-01-09 02:09:32 | Search