Tokenizer
在 DL4J 中将文本分解为单个单词以进行语言处理。
注意事项:
-
Tokenizer 工厂接口
-
Tokenizer 接口
-
如何编写自己的工厂和 tokenizer
Tokenization
什么是 Tokenization?
标记化是将文本分解为单个单词的过程。
Word 窗口也由标记组成。
Word2Vec 可以输出包含用于输入到神经网络的训练示例的文本窗口,如此处所示。
例子
TokenizerFactory tokenizerFactory = new DefaultTokenizerFactory();
Tokenizer tokenizer = tokenizerFactory.tokenize("mystring");
//iterate over the tokens
while(tokenizer.hasMoreTokens()) {
String token = tokenizer.nextToken();
}
//get the whole list of tokens
List<String> tokens = tokenizer.getTokens();
上面的代码片段创建了一个能够进行词干提取的标记器。
在 Word2Vec 中,这是推荐的一种创建词汇表的方法,因为它避免了各种词汇怪癖,例如同一个名词的单数和复数被视为两个不同的单词。
ps: 其实说白了就是分词。
参考资料
https://deeplearning4j.konduit.ai/deeplearning4j/tutorials/language-processing/tokenization