个人简介

Echo Blog


江湖无名 安心练剑
  • NLP 中文人名生成器,性别识别实现思路
    随机生成人名的原理 基本信息 所有的姓氏 男性名称 女性名称 单字 双字 诗词+各种古代文学+单字+词的解释。 随机 性 + 对应性别的候选词==》自动生成。 性别推测思路 数学 贝叶斯公式: P(Y|X) = P(X|Y) * P(Y) / P(X) 当X条件独立时, P(X|Y) = P(X1|Y) * P(X2|Y) * ... 应用到猜名字上 P(gen...
    2020-01-20 02:09:32 | NLP
  • NLP 中英文转换
    英语基础语料 中文到英文的翻译有一些比较重要的作用: 作为基础的语料 作为后期翻译的字典 计算机相关命名等等。 词典获取思路 使用已有的字典 结合相关列表,进行扩充(爬虫) Free English to Chinese Dictionary Database 算是比较全的一...
    2020-01-20 02:09:32 | NLP
  • NLP 中文对联实现思路
    基础的词库 笠翁对韵 全部韵脚系列 整体思路 词库中优先使用 结合算法:无论这个算法是深度学习还是其他。 分词 词库中的长词要想被使用,首先就需要对【上联】进行中文分词,然后查询词典,获取对应映射关系。 词库不能太大 比如对联的训练集合有 70w 的对联,将这些数据都存储起来,显然不现实。 最核心的原理应该还是词向量+n-gram。 平仄 文字的平仄可以简单的按照拼音来...
    2020-01-20 02:09:32 | NLP
  • NLP ATC (automation text classification) 文本分类
    文本分类概述 文本分类问题: 给定文档p(可能含有标题t),将文档分类为n个类别中的一个或多个 文本分类应用: 常见的有垃圾邮件识别,情感分析 文本分类方向: 主要有二分类,多分类,多标签分类 文本分类方法: 传统机器学习方法(贝叶斯,svm等),深度学习方法(fastText,TextCNN等) 本文的思路: 本文主要介绍文本分类的处理过程,主要哪些方法。致力让读者明白在处理文本...
    2020-01-20 02:09:32 | NLP
  • NLP ATC (automation text classification) 文本分类实战之 java 实现
    文本分类: 1. 啥是文本分类(Text Classification): 将一篇文档分到其中一个或者多个类的过程,例 :判断分类出垃圾邮件 类型:包括类别数目(Binary、multi-class)、每篇文章赋予的标签数目(Single label、Multi label) 基础知识 一. 概率论基础 条件概率公式: 全概率公式: 由条件概率公...
    2020-01-20 02:09:32 | NLP
  • NLP ATC (automation text classification) 文本分类实战
    简介 这这一篇博客中,将系统介绍中文文本分类的流程和相关算法。 先从文本挖掘的大背景开始,以文本分类算法为中心,介绍中文文本分类项目的流程以及相关知识,知识点涉及中文分词,向量空间模型,TF-IDF方法,几个典型的文本分类算法和评价指标等。 本篇主要有: 朴素的贝叶斯算法 KNN最近邻算法。 文本挖掘与文本分类的概念 简单来说,文本挖掘就是从已知的大量文本数据中提取一些未知的最...
    2020-01-20 02:09:32 | NLP
  • NLP ASR 语音转文本-04-basic 基本原理
    MFCC提取过程 声音是模拟信号,声音的时域波形只代表声压随时间变化的关系,不能很好的代表声音的特征,因此,必须将声音波形转换为声学特征向量。 目前有许多声音特征提取方法,如梅尔频率倒谱系数MFCC、线性预测倒谱系数LPCC、多媒体内容描述接口MPEG7等,其中MFCC是基于倒谱的,更符合人的听觉原理,因而是最普遍、最有效的声音特征提取算法。 在提取MFCC前,需要对声音做前期处理,包...
    2020-01-20 02:09:32 | NLP
  • NLP ASR 语音转文本-03-AI 深度学习
    机器学习并不总是一个黑盒 如果你知道神经机器翻译是如何工作的,那么你可能会猜到,我们可以简单地将声音送入神经网络中,并训练使之生成文本: 一个大问题是语速不同。 一个人可能很快地说出「hello!」而另一个人可能会非常缓慢地说「heeeelllllllllllllooooo!」。 这产生了一个更长的声音文件,也产生了更多的数据。 这两个声音文件都应该被识别为完全相同的文本「hell...
    2020-01-20 02:09:32 | NLP