-
pinyin4j 之中文拼音的基础知识
拼音声调
声调
拼音声调是指普通话中的声调,通常叫四声,即阴平(第一声),用“ˉ”表示,如lā;阳平第二声,用“ˊ”表示,如lá;上声(第三声),用“ˇ”表示,如lǎ;去声(第四声),用“ˋ”表示,如;là。
汉语中还存在着一种特殊声调,叫做轻声,有时也叫第五声,在汉语拼音中不标调。有些学者认为“第五声”的说法并不确切。轻声虽然能够起分辨语义的作用,但是通常不列入汉语“四声”之一,因为...
2020-01-09 02:09:32 |
Search
-
开源中文的繁简体转换 opencc4j-05-日文转换支持
Opencc4j
Opencc4j 支持中文繁简体转换,考虑到词组级别。
开源中文的繁简体转换 opencc4j-01-使用入门概览
开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char?
开源中文的繁简体转换 opencc4j-03-简体还是繁体,你说了算!
开源中文的繁简体转换 opencc4j-04-香港地区转换支持
开源中文的繁简体转换 openc...
2020-01-09 02:09:32 |
Search
-
开源中文的繁简体转换 opencc4j-04-香港地区转换支持
Opencc4j
Opencc4j 支持中文繁简体转换,考虑到词组级别。
开源中文的繁简体转换 opencc4j-01-使用入门概览
开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char?
开源中文的繁简体转换 opencc4j-03-简体还是繁体,你说了算!
开源中文的繁简体转换 opencc4j-04-香港地区转换支持
开源中文的繁简体转换 openc...
2020-01-09 02:09:32 |
Search
-
开源中文的繁简体转换 opencc4j-03-简体还是繁体,你说了算!
Opencc4j
Opencc4j 支持中文繁简体转换,考虑到词组级别。
开源中文的繁简体转换 opencc4j-01-使用入门概览
开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char?
开源中文的繁简体转换 opencc4j-03-简体还是繁体,你说了算!
开源中文的繁简体转换 opencc4j-04-香港繁简体的支持
开源中文的繁简体转换 openc...
2020-01-09 02:09:32 |
Search
-
java 开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char?
Opencc4j
Opencc4j 支持中文繁简体转换,考虑到词组级别。
开源中文的繁简体转换 opencc4j-01-使用入门概览
开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char?
开源中文的繁简体转换 opencc4j-03-简体还是繁体,你说了算!
开源中文的繁简体转换 opencc4j-04-香港繁简体的支持
开源中文的繁简体转换 openc...
2020-01-09 02:09:32 |
Search
-
java 开源中文的繁简体转换工具 opencc4j 使用入门-01-overview
Opencc4j
Opencc4j 支持中文繁简体转换,考虑到词组级别。
开源中文的繁简体转换 opencc4j-01-使用入门概览
开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char?
开源中文的繁简体转换 opencc4j-03-简体还是繁体,你说了算!
开源中文的繁简体转换 opencc4j-04-香港繁简体的支持
开源中文的繁简体转换 openc...
2020-01-09 02:09:32 |
Search
-
TF-IDF 找出相似文章算法
相似性文章
今天,我们再来研究另一个相关的问题。
有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。
比如,”Google新闻”在主新闻下方,还提供多条相似的新闻。
余弦相似性
为了找出相似的文章,需要用到 “余弦相似性”(cosine similiarity)。
下面,我举一个例子来说明,什么是”余弦相似性”。
例子
句子
为了简单起见,我们先从句子着手。
...
2020-01-09 02:09:32 |
Search
-
相似文章算法之语义指纹-文本内容去重
引言
网络爬虫让我们高效地从网页获取到信息,但网页的重复率很高,网页需要按内容做文档排重,而判断文档的内容重复有很多种方法,语义指纹是其中比较高效的方法。
本文选自《网络爬虫全解析——技术、原理与实践》。
用途
文章相似度,杜绝论文抄袭等等。
语义指纹的由来
提到“指纹”就想到了人手的指纹。
那么指纹能干嘛呢?
我们看到最多的是警匪片中验指纹,还有公司考勤打卡用指纹等。其目的...
2020-01-09 02:09:32 |
NLP