-
数据结构与算法学习目录
学习方式
书籍
《算法 第四版》
《数据结构与算法分析》
《算法导论》
《大话数据结构》
做题
leetcode + c语言实现
书籍的目录就是学习的大纲
学习方式
书籍
做题
书籍的目录就是学习的大纲
2020-01-23 02:09:32 |
Data-Struct
-
NLP 骂人夸人+jsoup 爬虫代理
骂人
我想干他妈的不会下雨吧,你说呢?——圣女贞德
夸人
情话(渣男语录)
毒鸡汤
jsoup 爬虫代理
获取方式
可以指定几个网站,然后做全网的动态代理聚合。
学习整理 jsoup 的动态代理方式
实战使用
参考资料
骂丫–对骂机器人。君子动口不动手,科技改变骂丫
句子大全
脏话
脏话
脏话
chp
彩虹屁
万能的彩虹屁生成器
夸夸群
“夸夸群”5分...
2020-01-20 02:09:32 |
NLP
-
NLP WSD (Word Sense Disambiguation) 歧义消除
语义消歧
可以看作分类问题。一个词W有K个含义,对W消歧 就是确定W在特定句子中究竟使用了哪一个含义,即把W分到K类中的一个。
分类的依据则是和W邻近的词,即W的上下文C。
歧义可以分为两类:一类是词的语义有多种,如“bank”,可以是银行,也可以是河岸;另一类是词本身的词性也是多样的,如predicate,既能作为名字,也能作为动词。
对于前者,可能需要与W相隔较远的其他词参与消歧...
2020-01-20 02:09:32 |
NLP
-
NLP TTS 文本转语音
基本原理
从文本中攫取足量信息至少我们要知道需要合成什么单词,以及单词顺序吧。
这就需要一套语言学标注系统,先给文本分词,再把文本转换成只有单词串起来的句子(例如把 1989 转成 nineteen eighty nine)后,再给这句话标注音素级别(上一个音素/下一个音素)、音节级别(单词的第几个音节)、单词级别(词性/在句子中的位置)等对语音合成有帮助的信息。
生成波...
2020-01-20 02:09:32 |
NLP
-
NLP TTS 文本转语音-Google 翻译实现例子
最简单的实现思路
基础预料
获取所有单个字的读音,常见的标点符号。
音频的压缩
针对中文,只需要获取每个读音的5个声调即可。
针对汉字,首先进行拼音转换(带声调),然后统一去重处理。
分词的处理
可以针对句子分词,然后获取对应的词语读音。
如果没有对应的词语读音,再去寻找对应的单个声字读音。
词语也可以使用拼音进行音频的压缩。
标点符号
标点符号...
2020-01-20 02:09:32 |
NLP
-
NLP 文本生成
序言
其实个人比较希望学会实现自动文本生成,目前的 level 还很低,所以这次做一个概览。
但是我不满足于只会使用,我希望可以懂得背后的数学原理,可以用任何一种语言去实现。
引入
AI写诗?? AI创作小说?? 近年来人们时常听到这类新闻,听上去很不可思议,那么今天我们来一探究竟,这种功能是如何通过深度学习来实现的。
通常文本生成的基本策略是借助语言模型,这是一种基于概率的模型,...
2020-01-20 02:09:32 |
NLP
-
NLP abbreviation 文本缩写
缩写
我们在中文中经常会有各种缩写。
我觉得本缩写词库可以有几层:
(1)基本词库。缩写词固定
根据 key 获取 value,或者反过来。
(2)英文词库
拓展词库,可以获取对应的英文缩写。
(3)训练
根据缩写词+原始词的词性等进行训练,初期可以采用简单的方式。
后期学习更好的算法,可以进行替换。
词库
中文系统词库
中文自定义词库
v0.0.1
基本的映射关...
2020-01-20 02:09:32 |
NLP
-
NLP 句法分析 syntactic parsing
场景
把一句话按照句法逻辑组织成一棵树,由人来做这件事是可行的,但是由机器来实现是不可思议的,然而算法世界就是这么神奇,把一个十分复杂的过程抽象成仅仅几步操作,甚至不足10行代码,就能让机器完成需要耗费人脑几十亿脑细胞的工作,本文我们来见识一下神奇的句法分析树生成算法
句法分析
先来解释一下句法分析。
句法分析分为句法结构分析和依存关系分析。
句法结构分析也就是短语结构分析,比如提...
2020-01-20 02:09:32 |
NLP