1、 SMTP 路径分析 摘要摘要 大部分域名认证的支持者建议合并域名认证和信誉服务.这篇论文为你介绍一种学习邮件域名和 IP 地址声誉的新算法,它以分析传输已知的垃圾邮件和好邮件的路径为基础它将产生一个有效的算法来 提供合并域名认证需要的信誉信息,以此来进行过滤的决定 这个算法实现了许多由域名认证系统提供的 有益的服务,如黑名单服务,白名单服务,不需要任何基础设施成本和首次展示的需要 简介简介 验证发送邮件域名的机制已经变得越来越普遍,规范而且受到激烈的争论最短路径优先算法的目 标,访客 ID,发送者 ID 基本上是相同的它们都被设计为通过使域名所有者发布一个包含外发邮件服务 器的名单来阻止”欺
2、骗”通过这些测试的消息可以可靠的与一个参与发送消息的域名关联然而这个信 息不能充分的过滤垃圾邮件此外,想知道一个负责任的域名,垃圾邮件过滤需要了解哪些域名发送垃 圾邮件因此大多数域名认证的支持者建议合并域名认证和信誉服务 这篇论文为你介绍一种学习邮件域名和 IP 地址声誉的新算法, 它以分析传输已知的垃圾邮件和好邮 件的路径为基础此信息结合一个新算法用于过滤欺骗性邮件标题,以确保垃圾邮件发送者不能规避分 析。其结果是一个有效的算法,它提供域名认证所需要的信誉信息用来做过滤决定. 有趣的是,该算法的分析表明,部分或大部分域名认证系统,黑名单,白名单所得到的优势,可以通过 本地学习而不需要大量的采
3、取域名认证或者第三方的黑白名单服务. 我们描述的算法只使用来自收到的邮件的头部中的标准”收到”行中提到的 IP 地址,来分析此消息是否是 垃圾邮件.这是一个学习算法,在此算法中我们假设它在一种具有代表性的根据选定的 IP 地址分类的邮件 上锻炼.隐含在此算法后的直觉是来自相同或相似 IP 地址的邮件很可能享有共同的分类.实验证据证明,此 直觉是正确的. 该算法在识别垃圾邮件或者非垃圾邮件上是非常精确的,但是它不能准确的标记含有资源很少的网 站.对于其他的,使用其他技术比如朴素贝叶斯或者重桂的筛选器可以更精确的区分.例如,虽然 SMTP 路径 分析不如普通使用了贝叶斯的垃圾邮件筛选器精确,它认为
4、贝叶斯筛选器处理的信息通常最优,在那个领 域的那些方面它做的更好.其结果可以纠正贝叶斯筛选器做出的错误评估,而贝叶斯筛选器可以在数据信 息不足的时候做有效的路径分析.一个聚合的分析器使用两种结果比只用其中任何一个结果更有效. 比较这种方法和域名验证计划如 SPF 是非常有趣的.SPF 让一个域名声明它的传出邮件网关.如果 SPF 信息是正确的所有通过那个域的邮件必须通过这些网关.如果一个消息通过 SPF 检查,而且主要的域不发 送垃圾邮件,那么直接通过这个邮件通路传给用户是安全的.由于垃圾邮件发送者同时也注册了域名发布 了SPF记录,我们不能假设通过SPF验证的邮件来自于无垃圾邮件的域名.这就
5、需要一些方法来决定这些域 名的信誉. 这里所描述的算法直接使用IP地址,建立了它们的信誉,有时候基于附近的IP地址,而不是由一个外部 的声明集对它们进行分组然后根据分组学习它们的信誉.在这一点 SPF 拥有的主要的优势是: 1 1 SPF 可以将不同的地址分到一个组,所以为这个组产生一个信誉信息会需要较少的信息. 2 2 SPF,明确的说明这些范围的边界. SPF 或许可以声明另一种优势,在这种优势里它可以(如果声称的发送域发布了 SPF)区分通过合法的 网关发送的邮件和从僵尸进程直接发往互联网的邮件.然而我们的算法事实上擅于识别合法的网关以及 筛选直接从僵尸进程主机(或者”僵尸网络”;查阅
6、Honeynet, 2005)发送的邮件,所以这个优势并不会像它被 认为的那样优秀.SPF 信息无疑可以在适当的时候和我们的算法结合,如果不结合那么我们的算法将依靠 自己.注意,虽然 SPF 在声明的域名没有发布 SPF 信息的时候不能识别任何东西,但是我们的算法可以从发 送路径来学习而不管什么域名被声明为信息源. 这篇论文剩下的部分包括此算法更详细的描述-对我们所做实验的解释,对实验的讨论以及我们的结 论. 2 2 收到的头部收到的头部 SMTP 协议指定,每个用于发送邮件信息的 SMTP 中继必须在消息头部列表中添加”received”行,包括 (至少)收到消息的服务器的信息和从哪里收到的消息,以及一个说明添加头部时间的时间戳.这些头部共 同提供了用于传递消息的 SMTP 路径的记录. 然而,收到消息中的 SMTP 路径信息不能完全相信.消息头部没有署名或者以任何方式验证,所以很容 易被伪造.沿路径的任何 SMTP 服务器可以插入虚假头部,使此消息好像来自发送者选择的任何一个路径. 尽管如此,某些收到的消息的头部是可信任的.例如,所有你自己的域的入站