个人简介

Echo Blog


江湖无名 安心练剑
  • AI技术内参-104Word2Vec算法有哪些扩展模型?
    104 Word2Vec算法有哪些扩展模型? 从上一期的分享开始,我们进入到文本分析的另外一个环节,那就是介绍一个最近几年兴起的重要文本模型,Word2Vec。这个模型对文本挖掘、自然语言处理等很多领域都有重要影响。我们讨论了Word2Vec模型的基本假设,主要是如何从离散的词包输入获得连续的词的表达,以及如何能够利用上下文从而学习到词的隐含特性。我们还聊了两个Word2Vec模型,SG(S...
    2015-01-01 15:20:27 | AI技术内参
  • AI技术内参-103为什么需要Word2Vec算法?
    103 为什么需要Word2Vec算法? 至此,关于文本分析这个方向,我们已经介绍了 LDA(Latent Diriclet Allocation),这是一个出色的无监督学习的文本挖掘模型。还有“隐语义分析”(Latent Semantic Indexing),其核心是基于矩阵分解的代数方法。接着,我们分享了“概率隐语义分析”(Probabilistic Latent Semantic In...
    2015-01-01 15:20:27 | AI技术内参
  • AI技术内参-102基础文本分析模型之三:EM算法
    102 基础文本分析模型之三:EM算法 周一我们分享的模型是“概率隐语义分析”(Probabilistic Latent Semantic Indexing),或者简称为PLSA,这类模型有效地弥补了隐语义分析的不足,在LDA兴起之前,成为了有力的文本分析工具。 不管是PLSA,还是LDA,其模型的训练过程都直接或者间接地依赖一个算法,这个算法叫作“期望最大化”(Expectation M...
    2015-01-01 15:20:27 | AI技术内参
  • AI技术内参-101基础文本分析模型之二:概率隐语义分析
    101 基础文本分析模型之二:概率隐语义分析 在上一篇的分享里,我们展开了文本分析这个方向,讨论了“隐语义分析”(Latent Semantic Indexing)这个模型。隐语义分析的核心是基于矩阵分解的代数方法。这种方法的好处自然是能够直接利用代数计算方法对文本进行分析,而短板则是无法很好地解释结果。而“解释性”是很多概率模型的一大优势,因此,自然就有很多研究者想到是否能够把概率的语言移...
    2015-01-01 15:20:27 | AI技术内参
  • AI技术内参-100基础文本分析模型之一:隐语义分析
    100 基础文本分析模型之一:隐语义分析 本周我们分享了文本挖掘中的一个重要工具LDA(Latent Diriclet Allocation),这是一个出色的无监督学习的文本挖掘模型。 今天,我们沿着文本分析这一方向继续展开。我们首先回到一个最基础的问题,那就是文本分析的基础模型都有哪些,这些最早的模型对后面的发展都有哪些贡献和启发? 带着这些问题,我们一起来看一个叫“隐语义分析”(La...
    2015-01-01 15:20:27 | AI技术内参
  • AI技术内参-099针对大规模数据,如何优化LDA算法?
    099 针对大规模数据,如何优化LDA算法? 周一,我们分享了LDA(Latent Diriclet Allocation)的各种扩展模型,介绍了基于上游的和下游的两种把额外信息融入到LDA模型中的方法。同时,我们也讨论了在时间尺度上如何把LDA模型扩展到可以“感知”不同的时间段对于模型的影响。以LDA为代表的主题模型在过去的十年间发展出了一整套的扩展,为各式各样的应用场景提供了有力的工具。...
    2015-01-01 15:20:27 | AI技术内参
  • AI技术内参-098LDA变种模型知多少
    098 LDA变种模型知多少 我们在之前的分享中曾经介绍过文本挖掘(Text Mining)中的重要工具LDA(Latent Diriclet Allocation)的基本原理。在文本挖掘中,有一项重要的工作就是分析和挖掘出文本中隐含的结构信息,而不依赖任何提前标注(Labeled)的信息。也就是说,我们希望能够利用文本挖掘技术来对无标签的数据进行挖掘,这是典型的无监督学习。 LDA就是一...
    2015-01-01 15:20:27 | AI技术内参
  • AI技术内参-097LDA模型的前世今生
    097 LDA模型的前世今生 在文本挖掘中,有一项重要的工作就是分析和挖掘出文本中隐含的结构信息,而不依赖任何提前标注的信息。今天我要介绍的是一个叫做LDA(Latent Dirichlet Allocation)的模型,它在过去十年里开启了一个领域叫主题模型。 从LDA提出后,不少学者都利用它来分析各式各样的文档数据,从新闻数据到医药文档,从考古文献到政府公文。一段时间内,LDA成了分析...
    2015-01-01 15:20:27 | AI技术内参