对抗电子邮件滥用:EMPE方法解析
1. 电子邮件垃圾过滤技术概述
在当今数字化时代,电子邮件已成为人们日常沟通和工作的重要工具,但同时也面临着垃圾邮件的严重困扰。为了有效过滤垃圾邮件,人们开发了多种技术,下面将对常见的过滤技术进行介绍。
1.1 基于签名的过滤器
基于签名的过滤器通过为每个字符分配一个数字,然后将所有数字相加生成签名,并将其与已知的垃圾邮件签名进行比较来识别垃圾邮件。然而,这种过滤器存在明显的局限性。一方面,它不能保证避免误判,即把正常邮件误分类为垃圾邮件;另一方面,垃圾邮件发送者会在每封新的垃圾邮件中添加随机文本,生成不同的签名,从而轻易骗过过滤器。这就是为什么有时垃圾邮件的主题中会出现随机的垃圾内容,其目的就是欺骗基于签名的过滤器。一旦过滤器开发者找到忽略某类随机插入内容的方法,垃圾邮件发送者就会切换到另一种方式,因此基于签名的过滤器性能一直不太理想。
1.2 贝叶斯过滤器
贝叶斯过滤器是最新的垃圾邮件过滤技术,它通过查看邮件中包含的标记(如标点符号和关键词)来识别垃圾邮件。具体来说,贝叶斯过滤器首先有两个邮件集合,一个是垃圾邮件集合,另一个是合法邮件集合。对于这些邮件中的每个单词,它会根据垃圾邮件出现的比例计算该单词的垃圾邮件概率。
在邮件用户代理(MUA)层面使用贝叶斯过滤器能提供最佳性能。这是因为不同用户收到的垃圾邮件具有不同的特征。例如,在某个用户的个人过滤器数据库中,一个单词可能有97%的垃圾邮件概率,因为它主要出现在该用户认为的垃圾邮件中;而另一个单词的垃圾邮件概率可能为48%,因为它在垃圾邮件和合法邮件中出现的频率几乎相同。当新邮件到达时,过滤器会收集15或20个垃圾邮件概率与