文本内容安全審核

  1. 新聞資訊
  2. 技術百科
行業動态 公司新聞 案例分享 技術百科

文本内容安全審核

來(Come)源:奇站網絡 浏覽量:399 發布日期: 2023-12-28

一(one)、雲廠商

阿裏雲、百度雲、騰訊雲

二、開源項目

1、 observerss/textfilter
語言: Python,Star爲(for)1.7k。
詳情: 短文本匹配 + 某1w詞敏感詞庫。
技術: Native(for遍曆), BS(二分搜索), DFA(就是(yes)字典樹)。

2、 minitrill/TextAudit
語言: Python,star爲(for)0.056k。

詳情: 短視頻app文本審核模塊:1.二分類,惡意與否; 2.詳細分類; 3.後處理(對于(At)不(No)同頻率/不(No)同程度/不(No)同影響力的(of)言論)。

技術: DFA + 分類模型(TIDF + BayesianNetwork)

3、 houbb/sensitive-word
語言: Java,star爲(for)0.339k。
詳情: 高性能敏感詞工具。
技術: DFA + 某6W敏感詞庫。支持用(use)戶自定義敏感詞和(and)白名單、支持數據的(of)數據動态更新,實時(hour)生(born)效。

4、 elulis/sensitive-words
語言: Java,star爲(for)0.411k。
詳情: Java快速中文敏感詞過濾,在(exist)15k敏感詞庫上的(of)過濾速度超過50M字符每秒。
方法: DFA + 2字符hash優化。

5、 youzan/YZSpamFilter
語言: Python,star爲(for)0.266k。
詳情: 有贊垃圾内容過濾工具,可爲(for)帖子、郵件、博客等提供中文垃圾信息過濾服務。
方法: 二分類模型,數據爲(for)垃圾郵件過濾。

6、 toolgood/ToolGood.Words
語言: C#,star爲(for)2.9k。
詳情: C#語言,使用(use)StringSearchEx2.Replace過濾,在(exist)48k敏感詞庫上的(of)過濾速度超過3億字符每秒。(cpu i7 8750h)
方法: 正則轉DFA,C#改進版AC自動機, 可設置跳字長度,默認全角轉半角,忽略大(big)小寫,跳詞,重複詞,黑名單。

标簽:

廈門極極網絡科技有限公司

電話:13313868605

QQ:3413772931

地(land)址:廈門集美區軟件園三期


                    掃一(one)掃加我(I)咨詢