-
sensitive-word java 如何实现一个敏感词工具?违禁词实现思路梳理
敏感词系列
sensitive-word-admin 敏感词控台 v1.2.0 版本开源
sensitive-word-admin v1.3.0 发布 如何支持分布式部署?
01-开源敏感词工具入门使用
02-如何实现一个敏感词工具?违禁词实现思路梳理
03-敏感词之 StopWord 停止词优化与特殊符号
04-敏感词之字典瘦身
05-敏感词之 DFA 算法(Trie Tre...
2020-01-07 02:09:32 |
Java
-
各大平台连敏感词库都没有的吗?sensitive-word java 开源敏感词工具入门使用
敏感词系列
sensitive-word-admin 敏感词控台 v1.2.0 版本开源
sensitive-word-admin v1.3.0 发布 如何支持分布式部署?
01-开源敏感词工具入门使用
02-如何实现一个敏感词工具?违禁词实现思路梳理
03-敏感词之 StopWord 停止词优化与特殊符号
04-敏感词之字典瘦身
05-敏感词之 DFA 算法(Trie Tre...
2020-01-07 02:09:32 |
Java
-
Regex 正则表达式原理-03-NFA 转 DFA
绕不过去的坎
原来尝试学习写 Regex,写了一半都来放弃了。
最近在看《编译原理》,发现书中提到了正则表达式。
最近在刷 leetcode,刚好到 regular-expression-matching。
可见困难是必须要面对的。
本篇文章转载自 CSDN,感觉写的很好,此处仅作为记录。
为什么需要 NFA 转 DFA
Regex 正则表达式原理及如何从零实现 中我们已经构建...
2020-01-07 02:09:32 |
Java
-
Regex 正则表达式原理及如何从零实现
有限状态机
有限状态机(Finite-state machine),也被称为有限状态自动机(finite-state automation),是表示有限个状态以及在这些状态之间的转移和动作等行为的数学计算模型(From 维基百科 状态机) 。
听起来晦涩难懂,我用大白话描述一遍,状态机其实就是用图把状态和状态之间的关系描述出来,状态机中的一个状态可以在某些给定条件下变成另外一种状态。
...
2020-01-07 02:09:32 |
Java
-
Regex 正则表达式与 DFA
业务背景
我希望通过 DFA 算法验证一个字符串中是否包含 url/邮箱/数字 等信息,这些直接使用 regex 判断起来比较简单。
因为复杂的事情已经被 regex 处理了,但是个人是在处理 DFA,就不想依赖 regex。
所以就学习下,如何将 regex 转换为 DFA 进行处理。
问题概述
随着计算机语言的结构越来越复杂,为了开发优秀的编译器,人们已经渐渐感到将词法分析独立...
2020-01-07 02:09:32 |
Java
-
NLP-03-nlp 处理平台的构建 一站式?
前言
如果我想实现一个 nlp 的全生命周期平台,有哪些方向:
经验 + 思维 = 专家 ========= AI = 算法+数据
分词:词频 keyword 相似度 摘要
拼音 互相转换(音)
繁简体 相似度(形)
字词句段篇章(意)
近义词/反义词/同义词==》(意)
SA:情感分析
TTS:文本转语音 语音=》文本
编码 =》图...
2020-01-06 02:09:32 |
Java
-
NLP-02-overview 概览
chat
传统 NLP 机械算法领域,有哪些?
传统自然语言处理(NLP)领域的机械算法主要包括以下几种:
词袋模型(Bag of Words, BoW):将文本表示为词汇表中的词出现频率的向量,不考虑词的顺序。
TF-IDF(Term Frequency-Inverse Document Frequency):衡量一个词在文档中的重要性,通过考虑词...
2020-01-06 02:09:32 |
Java
-
NLP-01-overview 概览
整体生态
分词
分词
词频
keyword
相似度
摘要
音
汉字=》拼音=》语音
语音=》拼音=》汉字
形
汉字相似度
汉字的拆分与合并
拼写纠正
繁简体
OCR==》图像识别到文字
意
字/词/句/段/篇/章==》
近义词/同义词/反义词
SA 情感分析
拓展阅读
Regex 正则表达式入门
从正则表达式(RE)到最小确定性有限状态自动机(DF...
2020-01-06 02:09:32 |
Java