-
名字,名称打分策略之三才五格
1.天格
1)单姓,姓氏笔划+1,如“丁”姓,天格数理为2+1=3.
2)复姓,姓氏笔划数相加,如“司马”姓,司5+马10=15.
天格是由姓氏决定的,姓氏又是祖先传下来的,其数理对人影响不大。
例子
如司马光,司马是复姓,天格是5+10=15;李刚,李是单姓,天格是7+1=8。天格乃祖先留下来的,其数理对人影响不大。
2.人格
人格为人的主运,是整个姓名的中心点,可以推断人一...
2020-01-20 02:09:32 |
NLP
-
NLP 中文人名生成器,性别识别实现思路
随机生成人名的原理
基本信息
所有的姓氏
男性名称
女性名称
单字
双字
诗词+各种古代文学+单字+词的解释。
随机
性 + 对应性别的候选词==》自动生成。
性别推测思路
数学
贝叶斯公式: P(Y|X) = P(X|Y) * P(Y) / P(X)
当X条件独立时, P(X|Y) = P(X1|Y) * P(X2|Y) * ...
应用到猜名字上
P(gen...
2020-01-20 02:09:32 |
NLP
-
NLP 中英文转换
英语基础语料
中文到英文的翻译有一些比较重要的作用:
作为基础的语料
作为后期翻译的字典
计算机相关命名等等。
词典获取思路
使用已有的字典
结合相关列表,进行扩充(爬虫)
Free English to Chinese Dictionary Database 算是比较全的一...
2020-01-20 02:09:32 |
NLP
-
NLP 中文对联实现思路
基础的词库
笠翁对韵 全部韵脚系列
整体思路
词库中优先使用
结合算法:无论这个算法是深度学习还是其他。
分词
词库中的长词要想被使用,首先就需要对【上联】进行中文分词,然后查询词典,获取对应映射关系。
词库不能太大
比如对联的训练集合有 70w 的对联,将这些数据都存储起来,显然不现实。
最核心的原理应该还是词向量+n-gram。
平仄
文字的平仄可以简单的按照拼音来...
2020-01-20 02:09:32 |
NLP
-
NLP ATC (automation text classification) 文本分类
文本分类概述
文本分类问题: 给定文档p(可能含有标题t),将文档分类为n个类别中的一个或多个
文本分类应用: 常见的有垃圾邮件识别,情感分析
文本分类方向: 主要有二分类,多分类,多标签分类
文本分类方法: 传统机器学习方法(贝叶斯,svm等),深度学习方法(fastText,TextCNN等)
本文的思路: 本文主要介绍文本分类的处理过程,主要哪些方法。致力让读者明白在处理文本...
2020-01-20 02:09:32 |
NLP
-
NLP ATC (automation text classification) 文本分类实战之 java 实现
文本分类:
1. 啥是文本分类(Text Classification):
将一篇文档分到其中一个或者多个类的过程,例 :判断分类出垃圾邮件
类型:包括类别数目(Binary、multi-class)、每篇文章赋予的标签数目(Single label、Multi label)
基础知识
一. 概率论基础
条件概率公式:
全概率公式:
由条件概率公...
2020-01-20 02:09:32 |
NLP
-
NLP ATC (automation text classification) 文本分类实战
简介
这这一篇博客中,将系统介绍中文文本分类的流程和相关算法。
先从文本挖掘的大背景开始,以文本分类算法为中心,介绍中文文本分类项目的流程以及相关知识,知识点涉及中文分词,向量空间模型,TF-IDF方法,几个典型的文本分类算法和评价指标等。
本篇主要有:
朴素的贝叶斯算法
KNN最近邻算法。
文本挖掘与文本分类的概念
简单来说,文本挖掘就是从已知的大量文本数据中提取一些未知的最...
2020-01-20 02:09:32 |
NLP
-
NLP ASR 语音转文本-04-basic 基本原理
MFCC提取过程
声音是模拟信号,声音的时域波形只代表声压随时间变化的关系,不能很好的代表声音的特征,因此,必须将声音波形转换为声学特征向量。
目前有许多声音特征提取方法,如梅尔频率倒谱系数MFCC、线性预测倒谱系数LPCC、多媒体内容描述接口MPEG7等,其中MFCC是基于倒谱的,更符合人的听觉原理,因而是最普遍、最有效的声音特征提取算法。
在提取MFCC前,需要对声音做前期处理,包...
2020-01-20 02:09:32 |
NLP