拓展阅读

分词系列专题

关键词系列专题

NLP segment-01-聊一聊分词

NLP segment-02-聊一聊关键词提取 keyword

NLP segment-03-基于 TF-IDF 实现关键词提取 java 开源实现

NLP segment-20-分词开源项目介绍 HanLP 未来十年的自然语言处理

NLP segment-21-分词开源项目介绍 ansj_seg

倒排索引原理与实现 reverse-index

开源项目

为了便于大家学习，项目开源地址如下，欢迎 fork+star 鼓励一下老马~

nlp-hanzi-similar 汉字相似度

word-checker 拼写检测

sensitive-word 敏感词

Ansj 中文分词

这是一个基于n-Gram+CRF+HMM的中文分词的java实现。

分词速度达到每秒钟大约200万字左右（mac air下测试），准确率能达到96%以上。

目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。

可以应用到自然语言处理等方面，适用于对分词效果要求高的各种项目。

快速开始

maven

<dependency>
    <groupId>org.ansj</groupId>
    <artifactId>ansj_seg</artifactId>
    <version>5.1.1</version>
</dependency>

demo

 String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
 System.out.println(ToAnalysis.parse(str));
 
 ﻿欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!

参考资料

https://github.com/NLPchina/ansj_seg

拓展阅读
Ansj 中文分词
快速开始
- maven
- demo
参考资料