-
NLP abbreviation 文本缩写
缩写
我们在中文中经常会有各种缩写。
我觉得本缩写词库可以有几层:
(1)基本词库。缩写词固定
根据 key 获取 value,或者反过来。
(2)英文词库
拓展词库,可以获取对应的英文缩写。
(3)训练
根据缩写词+原始词的词性等进行训练,初期可以采用简单的方式。
后期学习更好的算法,可以进行替换。
词库
中文系统词库
中文自定义词库
v0.0.1
基本的映射关...
2020-01-20 02:09:32 |
NLP
-
NLP 句法分析 syntactic parsing
场景
把一句话按照句法逻辑组织成一棵树,由人来做这件事是可行的,但是由机器来实现是不可思议的,然而算法世界就是这么神奇,把一个十分复杂的过程抽象成仅仅几步操作,甚至不足10行代码,就能让机器完成需要耗费人脑几十亿脑细胞的工作,本文我们来见识一下神奇的句法分析树生成算法
句法分析
先来解释一下句法分析。
句法分析分为句法结构分析和依存关系分析。
句法结构分析也就是短语结构分析,比如提...
2020-01-20 02:09:32 |
NLP
-
NLP STT 语音转文字-02-opensource 开源项目
理论资料
语音识别理论,论文和PPT
发现一个问题,那就是 9 成都是 python 的。
参考资料
https://github.com/search?q=stt&type=repositories
https://github.com/search?q=stt&type=repositories
https://github.com/xdcesc/my_ch_...
2020-01-20 02:09:32 |
NLP
-
NLP STT 语音转文字-01-入门概览
chat
详细介绍一下语音转文字
语音转文字(Speech-to-Text, STT)是一种将人类的语音转换成书面文字的技术。
这项技术在多个领域有着广泛的应用,包括但不限于:
辅助工具:帮助听力障碍人士理解语音内容。
自动记录:在会议、讲座或访谈中自动生成文字记录。
命令和控制:在智能设备和汽车中通过语音命令进行操作。
搜索和导航:通过语音输入进行网络搜索或获取导...
2020-01-20 02:09:32 |
NLP
-
NLP 情感分析简介
情感分析名词概述
是什么
情感分析是文本分类的一个分支,是对带有情感色彩(褒义贬义/正向负向)的主观性文本进行分析,以确定该文本的观点、喜好、情感倾向。
例如说,文本”这是书读来爱不释手”归为正向,”这本书很难看”归为负向。
当然也有层次更多的分类。
为什么
被研究的主观性文本包括顾客对某个产品的评论,大众对某个新闻热点事件的观点等。
通过这些文本,商家可以为消费者提供决策参考...
2020-01-20 02:09:32 |
NLP
-
NLP Number 数字工具类
背景
当我们看到一串数字时:
123 456 7890
1989-10-01
12:35
121212.23
12'23''
同样的都是数字,可能读法是不同的。
转换为中文读音和英文读音也是不同的。
为了方便,此处优先转换为中文。
基础预料
0
1
2
3
4
5
6
7
8
9
按照单个中文去读,转换为对应的中文。
标点符号另算。
金额转换
12000
...
2020-01-20 02:09:32 |
NLP
-
NLP 开源形近字算法之相似字列表(番外篇)
创作目的
国内对于文本的相似度计算,开源的工具是比较丰富的。
但是对于两个汉字之间的相似度计算,国内基本一片空白。国内的参考的资料少的可怜,国外相关文档也是如此。
本项目旨在抛砖引玉,实现一个基本的相似度计算工具,为汉字 NLP 贡献一点绵薄之力。
推荐阅读:
NLP 中文形近字相似度计算思路
中文形近字相似度算法实现,为汉字 NLP 尽一点绵薄之力
当代中国最贵的汉字是什么?...
2020-01-20 02:09:32 |
NLP
-
NLP 开源形近字算法补完计划(完结篇)
前言
所有的故事都有开始,也终将结束。
本文将作为 NLP 汉字相似度的完结篇,为该系列画上一个句号。
起-NLP 中文形近字相似度计算思路
承-中文形近字相似度算法实现,为汉字 NLP 尽一点绵薄之力
转-当代中国最贵的汉字是什么?
不足之处
之所以有本篇,是因为上一次的算法实现存在一些不足。
巴别塔
《圣经》中有关于巴别塔建造,最终人们因为语言问题而停工的故事。
...
2020-01-20 02:09:32 |
NLP