敏感词系列
sensitive-word-admin 敏感词控台 v1.2.0 版本开源
sensitive-word-admin v1.3.0 发布 如何支持分布式部署?
05-敏感词之 DFA 算法(Trie Tree 算法)详解
06-敏感词(脏词) 如何忽略无意义的字符?达到更好的过滤效果
v0.19.0-敏感词新特性之敏感词单个编辑,不必重复初始化
v0.21.0 敏感词新特性之白名单支持单个编辑,修正白名单包含黑名单时的问题
开源项目
版本特性
大家好,我是老马。
有时候我们得到敏感词以后,想要进一步处理。比如只关心某些标签的敏感词,要如何实现呢?
V0.23.0 针对结果处理做了进一步增强。
结果条件拓展内置支持 wordTags(单词标签) 和 chains(链式调用)。
快速开始
maven 引入
<dependency>
<groupId>com.github.houbb</groupId>
<artifactId>sensitive-word</artifactId>
<version>0.23.0</version>
</dependency>
wordResultCondition-针对匹配词进一步判断
说明
支持版本:v0.13.0
有时候我们可能希望对匹配的敏感词进一步限制,比如虽然我们定义了【av】作为敏感词,但是不希望【have】被匹配。
就可以自定义实现 wordResultCondition 接口,实现自己的策略。
系统内置的策略在 WordResultConditions#alwaysTrue()
恒为真,WordResultConditions#englishWordMatch()
则要求英文必须全词匹配。
内置策略
WordResultConditions 工具类可以获取匹配策略
实现 | 说明 | 支持版本 |
---|---|---|
alwaysTrue | 恒为真 | |
englishWordMatch | 英文单词全词匹配 | v0.13.0 |
englishWordNumMatch | 英文单词/数字全词匹配 | v0.20.0 |
wordTags | 满足特定标签的,比如只关注【广告】标签 | v0.23.0 |
chains(IWordResultCondition …conditions) | 支持指定多个条件,同时满足 | v0.23.0 |
使用例子
原始的默认情况:
final String text = "I have a nice day。";
List<String> wordList = SensitiveWordBs.newInstance()
.wordDeny(new IWordDeny() {
@Override
public List<String> deny() {
return Collections.singletonList("av");
}
})
.wordResultCondition(WordResultConditions.alwaysTrue())
.init()
.findAll(text);
Assert.assertEquals("[av]", wordList.toString());
我们可以指定为英文必须全词匹配。
final String text = "I have a nice day。";
List<String> wordList = SensitiveWordBs.newInstance()
.wordDeny(new IWordDeny() {
@Override
public List<String> deny() {
return Collections.singletonList("av");
}
})
.wordResultCondition(WordResultConditions.englishWordMatch())
.init()
.findAll(text);
Assert.assertEquals("[]", wordList.toString());
当然可以根据需要实现更加复杂的策略。
wordTags 单词标签
支持版本: v0.23.0
我们可以只返回隶属于某一种标签的敏感词。
我们指定了两个敏感词:商品、AV
MyWordTag 是我们定义的一个敏感词标签实现:
/**
* 自定义单词标签
* @since 0.23.0
*/
public class MyWordTag extends AbstractWordTag {
private static Map<String, Set<String>> dataMap;
static {
dataMap = new HashMap<>();
dataMap.put("商品", buildSet("广告", "中文"));
dataMap.put("AV", buildSet("色情", "单词", "英文"));
}
private static Set<String> buildSet(String... tags) {
Set<String> set = new HashSet<>();
for(String tag : tags) {
set.add(tag);
}
return set;
}
@Override
protected Set<String> doGetTag(String word) {
return dataMap.get(word);
}
}
测试用例如下,我们模拟了两个不同的实现类,每一个关注的单词标签不同。
// 只关心SE情
SensitiveWordBs sensitiveWordBsYellow = SensitiveWordBs.newInstance()
.wordDeny(new IWordDeny() {
@Override
public List<String> deny() {
return Arrays.asList("商品", "AV");
}
})
.wordAllow(WordAllows.empty())
.wordTag(new MyWordTag())
.wordResultCondition(WordResultConditions.wordTags(Arrays.asList("色情")))
.init();
// 只关心广告
SensitiveWordBs sensitiveWordBsAd = SensitiveWordBs.newInstance()
.wordDeny(new IWordDeny() {
@Override
public List<String> deny() {
return Arrays.asList("商品", "AV");
}
})
.wordAllow(WordAllows.empty())
.wordTag(new MyWordTag())
.wordResultCondition(WordResultConditions.wordTags(Arrays.asList("广告")))
.init();
final String text = "这些 AV 商品什么价格?";
Assert.assertEquals("[AV]", sensitiveWordBsYellow.findAll(text).toString());
Assert.assertEquals("[商品]", sensitiveWordBsAd.findAll(text).toString());
小结
希望本文对你有所帮助,如果喜欢,欢迎点赞收藏转发一波。
我是老马,期待与你的下次相遇。