GO语言敏感词检测

bean 的个人博客 / 10 / 2 / 创建于 5年前

因为工作需求,需要一个敏感词检测的功能,本来准备接入云平台.但是后来想想还是自己做了吧.由于是第一次接触敏感词检测,刚开始的想法是使用字符串匹配,或者分词匹配,但是一想到如果敏感词有几千,而需要检测的内容又特别长的时候,效率就非常低,于是从《算法导论》里面查了一下,找到了dfa算法.于是dfa 的 go 语言包就诞生了.

DFA 全称为：Deterministic Finite Automaton，即确定有穷自动机。其特征为：有一个有限状态集合和一些从一个状态通向另一个状态的边，每条边上标记有一个符号，其中一个状态是初态，某些状态是终态。但不同于不确定的有限自动机，DFA 中不会有从同一状态出发的两条边标志有相同的符号。

这里我们用 Trie 树实现. 下面我们有and,as,at,cn,com这些关键词, 我们看下使用Tire 树怎么保存这些数据

从这个图中可以看出这个树保存的数据规律:

根节点不包含字符，除根节点外的每一个子节点都包含一个字符。
从根节点到某一节点，路径上经过的字符连接起来，就是该节点对应的字符串。
每个单词的公共前缀作为一个字符节点保存

根据这些特性,我们构建一个 Trie 树, 我实现了一个敏感词检测包.代码非常简单,有需要使用的可以直接将文件拷贝到自己的项目中使用.

GitHub地址: github.com/bean-du/dfa

DFA算法敏感词检测 Golang敏感词检测

本作品采用《CC 协议》，转载必须注明作者和本文链接

174 声望

暂无个人描述~

推荐文章：

更多推荐...

Go 语言—数据结构和算法项目推荐 39 / 4 |

讨论数量: 2

Aliliin

课程读者 537 声望 / Phper @ 转 Goer

哈哈哈，我还是选择接入云平台。

5年前评论

Runtoweb3

课程读者 340 声望

新用户注册有好多相似的用户名信息，大佬有没有好的算法来过滤这种情况，匹配两个字符串的相似度。

5年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

未填写

私信

文章归档

1 篇 2025 年 10 月 1 篇 2024 年 11 月 1 篇 2023 年 7 月 1 篇 2022 年 8 月 1 篇 2022 年 7 月 1 篇 2021 年 4 月 1 篇 2020 年 12 月 1 篇 2020 年 6 月 1 篇 2018 年 8 月 1 篇 2018 年 6 月

8个月前如何使用Claude Code + Crevo 实现 SDD高效/质量开发（规约驱动Vibe-Coding） 1年前 SpeakSense ASR Server: 高性能语音识别服务器实现 2年前 Go语言代码生成 3年前 go 语言连接池 4年前如何快速构建微服务项目(Phanes )

15 Golang 超大文件读取的两个方案 7 用 Golang 实现百万级 Websocket 服务 4 SpeakSense ASR Server: 高性能语音识别服务器实现 3 Mac 开发必备工具 3 如何使用Claude Code + Crevo 实现 SDD高效/质量开发（规约驱动Vibe-Coding）

博客标签

代码生成器

敏感词检测

Golang敏感词检测

微服务脚手架

connection pool

微服务框架

规范驱动编程

成为赞助商