-
NLP STT 语音转文字-02-opensource 开源项目
理论资料
语音识别理论,论文和PPT
发现一个问题,那就是 9 成都是 python 的。
参考资料
https://github.com/search?q=stt&type=repositories
https://github.com/search?q=stt&type=repositories
https://github.com/xdcesc/my_ch_...
2020-01-20 02:09:32 |
NLP
-
NLP STT 语音转文字-01-入门概览
chat
详细介绍一下语音转文字
语音转文字(Speech-to-Text, STT)是一种将人类的语音转换成书面文字的技术。
这项技术在多个领域有着广泛的应用,包括但不限于:
辅助工具:帮助听力障碍人士理解语音内容。
自动记录:在会议、讲座或访谈中自动生成文字记录。
命令和控制:在智能设备和汽车中通过语音命令进行操作。
搜索和导航:通过语音输入进行网络搜索或获取导...
2020-01-20 02:09:32 |
NLP
-
NLP 情感分析简介
情感分析名词概述
是什么
情感分析是文本分类的一个分支,是对带有情感色彩(褒义贬义/正向负向)的主观性文本进行分析,以确定该文本的观点、喜好、情感倾向。
例如说,文本”这是书读来爱不释手”归为正向,”这本书很难看”归为负向。
当然也有层次更多的分类。
为什么
被研究的主观性文本包括顾客对某个产品的评论,大众对某个新闻热点事件的观点等。
通过这些文本,商家可以为消费者提供决策参考...
2020-01-20 02:09:32 |
NLP
-
NLP Number 数字工具类
背景
当我们看到一串数字时:
123 456 7890
1989-10-01
12:35
121212.23
12'23''
同样的都是数字,可能读法是不同的。
转换为中文读音和英文读音也是不同的。
为了方便,此处优先转换为中文。
基础预料
0
1
2
3
4
5
6
7
8
9
按照单个中文去读,转换为对应的中文。
标点符号另算。
金额转换
12000
...
2020-01-20 02:09:32 |
NLP
-
NLP 开源形近字算法之相似字列表(番外篇)
创作目的
国内对于文本的相似度计算,开源的工具是比较丰富的。
但是对于两个汉字之间的相似度计算,国内基本一片空白。国内的参考的资料少的可怜,国外相关文档也是如此。
本项目旨在抛砖引玉,实现一个基本的相似度计算工具,为汉字 NLP 贡献一点绵薄之力。
推荐阅读:
NLP 中文形近字相似度计算思路
中文形近字相似度算法实现,为汉字 NLP 尽一点绵薄之力
当代中国最贵的汉字是什么?...
2020-01-20 02:09:32 |
NLP
-
NLP 开源形近字算法补完计划(完结篇)
前言
所有的故事都有开始,也终将结束。
本文将作为 NLP 汉字相似度的完结篇,为该系列画上一个句号。
起-NLP 中文形近字相似度计算思路
承-中文形近字相似度算法实现,为汉字 NLP 尽一点绵薄之力
转-当代中国最贵的汉字是什么?
不足之处
之所以有本篇,是因为上一次的算法实现存在一些不足。
巴别塔
《圣经》中有关于巴别塔建造,最终人们因为语言问题而停工的故事。
...
2020-01-20 02:09:32 |
NLP
-
当代中国最贵的汉字是什么?
最贵的汉字
“你说,当代中国最贵的汉字是什么?”,有一天同事忽然问我。
“【诺】,因为一诺千金”,我脱口而出。
“不对。”
“【字】,一字千金?”
同事摇头。
“爱?”
“这个是无价的,不算。”
“人才。不是说 21 世纪最贵的是人才吗?”
“一个字,你这不算。你咋不说家书抵万金呢?”
“算了,不猜了。”,我脑海里为数不多的几个字转了一圈,没有一个符合的。
我有些疑惑地...
2020-01-20 02:09:32 |
NLP
-
GPT2-Chinese 中文版 GPT2 训练代码,使用 BERT 分词器。
GPT2-Chinese
中文的GPT2训练代码,使用BERT的Tokenizer或Sentencepiece的BPE model(感谢kangzhonghua的贡献,实现BPE模式需要略微修改train.py的代码)。
可以写诗,新闻,小说,或是训练通用语言模型。支持字为单位或是分词模式或是BPE模式(需要略微修改train.py的代码)。支持大语料训练。
项目状态
在本项目公布时...
2020-01-20 02:09:32 |
NLP