-
HanLP 未来十年的自然语言处理。 标记化、词性标注、命名实体识别、句法和语义依赖解析、文档分类
HanLP
借助世界上最大的多语种语料库,HanLP2.1支持包括简繁中英日俄法德在内的104种语言上的10种联合任务:分词(粗分、细分2个标准,强制、合并、校正3种词典模式)、词性标注(PKU、863、CTB、UD四套词性规范)、命名实体识别(PKU、MSRA、OntoNotes三套规范)、依存句法分析(SD、UD规范)、成分句法分析、语义依存分析(SemEval16、DM、PAS、PS...
2020-01-08 02:09:32 |
NLP
-
ansj_seg ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典
Ansj 中文分词
这是一个基于n-Gram+CRF+HMM的中文分词的java实现。
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。
目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。
快速开始
maven
<dependen...
2020-01-08 02:09:32 |
NLP
-
jieba-fenci 结巴分词之词性标注实现思路 speechTagging segment
拓展阅读
DFA 算法详解
为了便于大家学习,项目开源地址如下,欢迎 fork+star 鼓励一下老马~
敏感词 sensitive-word
分词 segment
词性标注
词性标注的在分词之后进行标注,整体思路也不难:
(1)如果一个词只有一种词性,那么直接固定即可。
(2)如果一个词有多种词性,那么需要推断出最大概率的一种。
这个其实有些类似分词的时候...
2020-01-08 02:09:32 |
NLP
-
jieba-fenci 结巴分词与繁简体转换 segment
拓展阅读
DFA 算法详解
为了便于大家学习,项目开源地址如下,欢迎 fork+star 鼓励一下老马~
敏感词 sensitive-word
分词 segment
结巴分词
请参考 结巴分词原理。
结巴分词的不足
这里是针对如果使用繁简体转换,仅仅想使用分词。
那么结巴分词会有哪些不足呢?
HMM 是一种面向未来的分词(预测),但是繁体是一种面向过...
2020-01-08 02:09:32 |
Java
-
jieba-fenci 结巴分词原理讲解之数据归一化 segment
拓展阅读
DFA 算法详解
为了便于大家学习,项目开源地址如下,欢迎 fork+star 鼓励一下老马~
敏感词 sensitive-word
分词 segment
结巴分词的归一化
结巴分词的字典加载有一段源码,做了数据的归一化,使用的是 log 函数。
截取如下:
for (Entry<String, Double> entry : freqs...
2020-01-08 02:09:32 |
NLP
-
jieba-fenci 结巴分词原理讲解 segment
拓展阅读
DFA 算法详解
为了便于大家学习,项目开源地址如下,欢迎 fork+star 鼓励一下老马~
敏感词 sensitive-word
分词 segment
分词的必要性
我们平时做文本分析,或者我个人想做一个繁简体转换/同义词替换等工具,分词都是必须的。
对于文本的朗读,统计等等,都是需要基于分词实现。
算法
前缀树算法+DAG 算法 其实是非常有...
2020-01-08 02:09:32 |
Java
-
sensitive-word v0.13 特性版本发布 支持英文单词全词匹配
拓展阅读
sensitive-word-admin v1.3.0 发布 如何支持分布式部署?
sensitive-word-admin 敏感词控台 v1.2.0 版本开源
sensitive-word 基于 DFA 算法实现的高性能敏感词工具介绍
更多技术交流
业务背景
对于英文单词 Disburse 之类的,其中的 sb 字母会被替换,要怎么...
2020-01-07 02:09:32 |
Java
-
v0.12.0-敏感词/脏词词标签能力进一步增强
敏感词标签
说明
有时候我们希望对敏感词加一个分类标签:比如社情、暴/力等等。
这样后续可以按照标签等进行更多特性操作,比如只处理某一类的标签。
我们在 v0.10.0 版本,开始初步支持敏感词的标签分类,不过这个方法没有和以前的方法进行整合。
让我们先做一下回顾:
入门例子
接口
这里只是一个抽象的接口,用户可以自行定义实现。比如从数据库查询等。
public inter...
2020-01-07 02:09:32 |
Java