贝叶斯垃圾邮件过滤是基于贝叶斯规则的,贝叶斯规则是一个统计定理,告诉你事件的概率。在贝叶斯过滤中,它是用来告诉你某封邮件是垃圾邮件的概率。

这个名字

以统计学家Rev。托马斯·贝叶斯他提供了一个公式,基本上允许新的信息来更新概率计算的结果。这个规则也被称为贝叶斯-普莱斯规则,以数学家的名字命名理查价格当他意识到这个定理的重要性时,他对贝叶斯的工作做了一些修正,并将这个规则应用到实践中。

垃圾邮件

当处理垃圾邮件时,这个定理被用来根据标题和消息中的单词计算某条消息是否是垃圾邮件的概率,从被识别为垃圾邮件的消息和被识别为非垃圾邮件的消息(有时称为ham)中学习。

假阳性

学习能力的目的是减少假阳性的数量。就像收到垃圾邮件可能会很烦人一样,更糟糕的是,仅仅因为客户使用了一个触发了过滤器的词而没有收到他的邮件。

得分

其他方法通常使用简单的评分过滤器。如果一条信息包含了特定的单词,那么该信息的分数会被加几个分数,当它超过某个分数时,该信息就被视为垃圾信息。这不仅是一个非常随意的方法,而且这也会导致垃圾邮件发送者改变他们的措辞。以“伟哥”为例,这个词肯定会给你打高分。一旦垃圾邮件发送者发现这一点,他们就会切换到“V!阿格拉”等等。这是一个让你忙着创造新规则的猫鼠游戏。

学习

如果允许对单个输入进行过滤,则可以在每个用户基础上提高精度。不同的用户可能会根据他们的网上活动吸引特定形式的垃圾邮件。或者,对一个人来说是垃圾邮件的东西对另一个人来说是“必读”的通讯。每当用户确认或否认一条消息是垃圾邮件时,过滤过程就可以计算出下一次出现的更精确的概率。

中毒

贝叶斯过滤的一个缺点是,在多或少针对垃圾邮件的情况下,垃圾邮件发送者将开始使用单词或整段文本,这将降低得分。如果长时间使用,这些词可能会与垃圾邮件联系在一起,这被称为中毒。

绕过

一些绕过“坏词”过滤的方法。

  • 用图像代替已知的单词来提高分数

  • 如前所述,故意拼写错误。
  • 使用同形字母,这是来自其他字符集的字符,看起来类似于信息字符集中的字母。例如,来自希腊语的Omicron看起来与“O”完全相同,但有不同的字符编码。

结论

贝叶斯过滤是一种垃圾邮件过滤方法,具有学习能力,尽管有限。了解垃圾邮件过滤器的工作原理将使你更清楚一些信息是如何通过的,以及如何使你自己的邮件不容易被垃圾邮件过滤器捕获。

链接:

贝叶斯垃圾邮件过滤器和支持向量机垃圾邮件过滤器的评价

垃圾邮件过滤中的机器学习技术

Pieter Arntz