maven 打包报错 Return code is 501 , ReasonPhrase:HTTPS Required.
报错场景
今天 maven 打包,报错如下:
[ERROR] Failed to execute goal on project pinyin: Could not resolve dependencies for project com.github.houbb:pinyin:jar:0.0.2-SNAPS
HOT: Failed to collect dependencies at ...
2020-01-09 02:09:32 |
Devops
如何解决分词的繁简体问题?
分词的繁简体问题
分词是基本所有 nlp 的基础,那么分词中的繁简体如何解决?
方案1-HMM预测
不依赖字典,直接根据繁题的字频预测。
优点:降低内存消耗
缺点:不知道 jieba 有没有对应的繁体字频统计。
而且我想在 HMM 服务降级的时候依然可以支持。
方案2-繁体字典预处理
基于 jieba-fenci + opencc4j 首先做一次预处理。
将所有的繁体词组处...
2020-01-09 02:09:32 |
Search
如何为 java 设计一款高性能的拼音转换工具 pinyin4j
拼音转换工具
拼音转换工具的思路不难:
(1)词语分词
(2)基于词库进行拼音的映射
(3)拼接最后的结果
可以认为主要下面的部分值得留意
准确性
作为拼音转换算法,准确性优先级应该是在性能之前的。
如果我们能保证高准确性,应该尽可能的去提高准确性。
词库来源
这里的词库,不包括分词的词库,仅仅指拼音的词库。
指拼音的词库,收集可以在各种优秀词库的基础上,不应该在收集上...
2020-01-09 02:09:32 |
Search
拼音转汉字实现方式
基于HMM的拼音转汉字
这里的拼音一般不带声调。
将汉字作为隐藏状态,拼音作为观测值,使用viterbi算法可以将多个拼音转换成合理的汉字。
例如给出ti,chu,le,jie,jue,fang,an,viterbi算法会认为提出了解决方案是最合理的状态序列。
HMM 需要三个分布,分别是:
初始时各个状态的概率分布
各个状态互相转换的概率分布
...
2020-01-09 02:09:32 |
Search
pinyin4j 声母与韵母的基础知识
汉语拼音是拼写汉民族标准语的拼音方案。
汉语拼音是以北京语音系统作为语音标准的。
北京音也是中国地域最辽阔、人口最多的北方方言的典型代表。
解释汉语拼音用法和标准的《汉语拼音方案》是中国拼音文字方案的国家标准,也是联合国规定用来拼写中国人名地名和专用词语的国际标准。
它是中华人民共和国法定的拼音方案,是世界文献工作中拼写有关中国的专用名词和词语的国际标准。
1958年2月11日,第...
2020-01-09 02:09:32 |
Search
pinyin4j 之中文拼音的基础知识
拼音声调
声调
拼音声调是指普通话中的声调,通常叫四声,即阴平(第一声),用“ˉ”表示,如lā;阳平第二声,用“ˊ”表示,如lá;上声(第三声),用“ˇ”表示,如lǎ;去声(第四声),用“ˋ”表示,如;là。
汉语中还存在着一种特殊声调,叫做轻声,有时也叫第五声,在汉语拼音中不标调。有些学者认为“第五声”的说法并不确切。轻声虽然能够起分辨语义的作用,但是通常不列入汉语“四声”之一,因为...
2020-01-09 02:09:32 |
Search
java 开源中文的繁简体转换工具 opencc4j 使用入门-01-overview
Opencc4j
Opencc4j 支持中文繁简体转换,考虑到词组级别。
拓展阅读
pinyin 汉字转拼音
pinyin2hanzi 拼音转汉字
segment 高性能中文分词
opencc4j 中文繁简体转换
nlp-hanzi-similar 汉字相似度
word-checker 拼写检测
sensitive-word 敏感词
Features 特点
...
2020-01-09 02:09:32 |
Search
TF-IDF 找出相似文章算法
相似性文章
今天,我们再来研究另一个相关的问题。
有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。
比如,”Google新闻”在主新闻下方,还提供多条相似的新闻。
余弦相似性
为了找出相似的文章,需要用到 “余弦相似性”(cosine similiarity)。
下面,我举一个例子来说明,什么是”余弦相似性”。
例子
句子
为了简单起见,我们先从句子着手。
...
2020-01-09 02:09:32 |
Search