这这一篇博客中,将系统介绍中文文本分类的流程和相关算法。
先从文本挖掘的大背景开始,以文本分类算法为中心,介绍中文文本分类项目的流程以及相关知识,知识点涉及中文分词,向量空间模型,TF-IDF方法,几个典型的文本分类算法和评价指标等。
本篇主要有:
朴素的贝叶斯算法
KNN最近邻算法。
文本挖掘与文本分类的概念
简单来说,文本挖掘就是从已知的大量文本数据中提取一些未知的最终可能用过的知识的过程,也就是从非结构化的文本中寻找知识的过程。
领域
文本挖掘主要领域有:
2020年1月20日大约 12 分钟