详细介绍一下 NLP 分词

自然语言处理（NLP）中的分词（Tokenization）是将文本分解成更小的单元，通常是单词、短语或符号的过程。分词是许多NLP任务（如文本分类、情感分析、机器翻译等）的第一步，它对后续处理步骤的质量和效率有重要影响。以下是分词的详细介绍：

1. 基本原理

分词的目标是将文本切分成有意义的单元，这些单元可以是单词、短语或其他语言元素。分词的粒度取决于任务的需求和语言的特性。

2. 分词类型

分词可以分为以下几种类型：

粗分词（Coarse-grained tokenization）：将文本分解成较大的单元，如句子或段落。
细分词（Fine-grained tokenization）：将文本分解成较小的单元，如单词或子词（subword）。

老马啸西风2024年2月20日大约 7 分钟

隐马尔可夫（HMM）实现中文分词

HMM 的应用场景有很多，我们首先来谈一谈如何实现中文分词。

本文假设读者已经对HMM有所了解，很多地方会直接提出相关概念。

理解前向算法，维特比算法是关键，关于无监督学习HMM的Baum-Welch算法在本文中没有使用，至少了解它的作用即可。

中文分词的难处

总所周知，在汉语中，词与词之间不存在分隔符（英文中，词与词之间用空格分隔，这是天然的分词标记），词本身也缺乏明显的形态标记，因此，中文信息处理的特有问题就是如何将汉语的字串分割为合理的词语序。

例如，英文句子：you should go to kindergarten now 天然的空格已然将词分好，只需要去除其中的介词“to”即可；

老马啸西风2020年1月28日大约 20 分钟

隐马尔可夫（HMM）实现中文词性标注

词性标注（Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性，也就是要确定每个词是名词、动词、形容词或其他词性的过程，又称词类标注或者简称标注。

词性标注是自然语言处理中的一项基础任务，在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。

因此，在关于自然语言处理的书籍中，都会将词性标注单列一章重点讲解，对此有兴趣的读者可参考《自然语言处理综论》第一版第8章或《统计自然语言处理基础》第10章，本文部分内容也参考自这两本自然语言处理的经典书籍。

例子

我们以Brown语料库中的句子为例，词性标注的任务指的是，对于输入句子：

老马啸西风2020年1月28日大约 30 分钟

隐马尔可夫（HMM）实现中文词性标注 MIT 笔记

a) 标注问题（Tagging）

i. 任务（Task）: 在句子中为每个词标上合适的词性（Label each word in a sentence with its appropriate part of speech）

ii. 输入（Input）: Our enemies are innovative and resourceful , and so are we. They never stop thinking about new ways to harm our country and our people, and neither do we.

老马啸西风2020年1月28日大约 9 分钟

最大熵和对数线性模型-实现中文词性标注

基于转换的标注器（Transformation-based tagger）
基于隐马尔科夫模型的标注器（HMM-based tagger）

遗留的内容（Leftovers）:

a) 词性分布（POS distribution）

i. 在Brown语料库中按歧义程度排列的词型数目（The number of word types in Brown corpus by degree of ambiguity）：

无歧义（Unambiguous）只有1个标记： 35,340

老马啸西风2020年1月28日大约 12 分钟

马尔科夫链

马尔可夫链（Markov Chain, MC）是概率论和数理统计中具有马尔可夫性质（Markov property）且存在于离散的指数集（index set）和状态空间（state space）内的随机过程（stochastic process。

适用于连续指数集的马尔可夫链被称为马尔可夫过程（Markov process），但有时也被视为马尔可夫链的子集，即连续时间马尔可夫链（Continuous-Time MC, CTMC），与离散时间马尔可夫链（Discrete-Time MC, DTMC）相对应，因此马尔可夫链是一个较为宽泛的概念。

马尔可夫链可通过转移矩阵和转移图定义，除马尔可夫性外，马尔可夫链可能具有不可约性、重现性、周期性和遍历性。

老马啸西风2020年1月28日大约 20 分钟

隐马尔可夫（HMM）算法

霍金曾经说过，你多写一个公式，就会少一半的读者。

所以时间简史这本关于物理的书和麦当娜关于性的书卖的一样好。

我会效仿这一做法，写最通俗易懂的答案。

掷骰子

还是用最经典的例子，掷骰子。

假设我手里有三个不同的骰子。

第一个骰子是我们平常见的骰子（称这个骰子为D6），6个面，每个面（1，2，3，4，5，6）出现的概率是1/6。

第二个骰子是个四面体（称这个骰子为D4），每个面（1，2，3，4）出现的概率是1/4。

第三个骰子有八个面（称这个骰子为D8），每个面（1，2，3，4，5，6，7，8）出现的概率是1/8。

老马啸西风2020年1月28日大约 21 分钟

隐马尔可夫（HMM）前向算法 Forward

拓展阅读

贝叶斯定理

马尔科夫链

EM 最大期望算法

老马啸西风2020年1月28日小于 1 分钟

隐马尔可夫（HMM）维特比算法 Viterbi

寻找最可能的隐藏状态序列(Finding most probable sequence of hidden states)

对于一个特殊的隐马尔科夫模型(HMM)及一个相应的观察序列，我们常常希望能找到生成此序列最可能的隐藏状态序列。

穷举搜索

我们使用下面这张网格图片来形象化的说明隐藏状态和观察状态之间的关系：

老马啸西风2020年1月28日大约 11 分钟

隐马尔可夫（HMM）前向算法 Forward

拓展阅读

贝叶斯定理

马尔科夫链

EM 最大期望算法

老马啸西风2020年1月28日小于 1 分钟