中国互联网协会2006年第一次中国反垃圾邮件状况调查显示,从2005年11月到2006 年3月期间,中国互联网用户收到的垃圾邮件比例由61.53%上升到63.97%,上升了2.44个百分点,远远高于上次调查的0.9个百分点。中国网民平均每周收到垃圾邮件数量已达19.33封,比2005年10月的每周17.25封上升了2.08封。垃圾邮件形势日益严重!
面对这些令人厌恶的垃圾邮件,我们损失的不仅仅是时间,而邮件服务器处理垃圾邮件的额外付出和用于处理垃圾邮件的技术人力付出所造成的损失则更为巨大。面对这些不请自来的垃圾邮件,如何采用技术手段进行治理,成为我们普遍关心的问题。为此,《计算机世界》评测实验室于近期进行了反垃圾邮件产品横向比较评测。本次测试得到了业界的普遍关注,最后共有来自冠群金辰、IronPort Systems、SurfControl、敏讯科技、趋势科技以及硕琦科技等6家国内外厂商的6款优秀的软硬件产品参加了本次测试。另外,在本次测试中,我们采用了业界先进的测试仪器,并选择了尽量贴近用户实际应用的测试标准,为帮助读者了解反垃圾邮件技术、产品以及应用,并为用户选择反垃圾邮件产品提供有益的指导。
垃圾邮件不请自来
说起垃圾邮件,我们有必要先回顾一下它的发展历史。首次关于垃圾邮件的记录是1985年8月出现的一封通过电子邮件发送的连锁信,该信一直持续流传到 1993年。1993年6月,在Internet上出现了“发财之道(Make Money Fast)”的电子邮件。1994年4月,Canter和Siegel的法律事务所把一封信发给了6000 多个新闻组,宣传获得美国国内绿卡的法律支持。这是历史上第一次使用Spam (垃圾邮件)一词描述新闻或电子邮件的主动性发布。同时,垃圾邮件也开始引起了人们的注意和反感。
一些触觉敏锐的商人立刻意识到了电子邮件带来的商机,许多人开始利用电子邮件做商业广告,1995年5月有人写出了第一个专门的应用程序 Floodgate,一次可以自动把邮件发给很多人。同年8月,有人拿200万个邮件地址出售,垃圾邮件越来越多地与商业联系起来。1996年4月,人们开始使用“未经许可的商业邮件”(UCE,Unsolicited Commercial E-mail)来称呼垃圾邮件,并开始积极想办法阻止垃圾邮件在Internet上泛滥。
后来,垃圾邮件的发送技术也开始被黑客攻击程序和病毒程序所利用,为了施行攻击甚至仅仅为了浪费网络带宽资源,而发送的垃圾邮件大量出现。因此,业界也开始使用“未经许可的大宗邮件(UBE,Unsolicited Bulk E-mail)”这种称谓。虽然垃圾邮件的称谓很多,但有一点是可以肯定的,即它们都是不请自来,并且多半是不怀好意的不速之客。
应该说垃圾邮件的泛滥只是互联网快速发展的一个副产品。究其根源在于,目前互联网上普遍应用的发送邮件的基础协议——SMTP(简单邮件传输协议)在安全性方面存在明显不足。SMTP协议的缔造者之一Sluizer曾经表示,SMTP协议无法杜绝垃圾邮件,因为SMTP是基于默认信任的原则设计的,缺乏核实发送者身份的有效机制。虽然后来经过层层弥补,但是毕竟SMTP先天不足,“补丁”终究只是“补丁”。
除了SMTP安全性不高这一内因之外,还有很多外界的因素造成了垃圾邮件日益泛滥。
第一,带宽问题。近年来宽带网络快速发展,为垃圾邮件的泛滥提供了带宽支持;
第二,成本问题。随着网络通信成本不断下降,计算机硬件性能不断提升以及软件群发技术的不断成熟,发送垃圾邮件的成本变得极低;
第三,利益问题。对于垃圾邮件发送者来说,他们低廉的投入成本,往往能够换取丰厚的回报;
第四,监督问题。对于铺天盖地的垃圾邮件,我们还缺乏相关法律、规范的约束。
垃圾邮件防范有术
邮件过滤是目前对付垃圾邮件的主要方法,它按照在邮件系统结构中的不同角色可以分为三类:MTA(邮件传输代理)过滤、MDA(邮件递交代理)过滤,以及MUA(邮件用户代理)过滤。
MTA过滤是指MTA在会话过程中对会话的数据进行检查,对于符合过滤条件的邮件进行过滤处理。MDA过滤是指MDA在从MTA中接收到信件,在本地或远程进行递交时进行检查,对于符合过滤条件的邮件进行过滤处理。而MUA过滤是邮件客户端的过滤,多数流行的邮件客户端,如Outlook、Outlook Express、Netscape Mail、Foxmail等都支持MUA过滤。下面所涉及的过滤技术都是基于MTA或MDA的过滤,也就是说都基于邮件服务器端的。
1. 黑白名单
黑白名单是垃圾邮件过滤最传统的方式,它通过基于IP地址、域名以及邮件地址等信息的黑名单技术对垃圾邮件进行屏蔽,通过白名单技术对允许的邮件进行放行。这种技术的优势在于不占用系统资源,易部署; 缺点是需要用户手动维护,而且垃圾邮件发送者可以通过更改相关信息来逃避过滤。
RBL(实时黑名单)技术是从黑名单技术发展而来的,它可以通过RBL运营服务商提供的公共RBL数据进行更新,弥补了单纯黑名单需要手工维护的缺陷。遗憾的是,目前很多黑名单数据库具有很强的区域歧视性,例如,北美的RBL包含了我国大量的主机名字和IP地址,其中有些是早期的Open Relay造成的,有些则是由于误报造成的。但这些迟迟得不到纠正,在一定程度上阻碍了我国与北美地区的邮件联系,也妨碍了我国的用户使用这些黑名单服务。
2. SMTP连接频度控制
垃圾邮件发送者经常会在一段时间内发送大量的垃圾邮件,阻塞邮件服务器。SMTP连接频度控制可以保证邮件服务器不响应异常的连接请求,保证正常邮件的顺利通行。
3. 逆向域名验证
无论哪一种认证,其目的都是避免MTA被垃圾邮件发送者所利用,但是对于发送到本地的垃圾邮件可能仍然无可奈何。要解决这个问题,最简单有效的方法是对发送者的IP地址进行逆向域名验证。
通过DNS查询来判断发送者的IP与其声称的名字是否一致,例如其声称的名字为mx.yahoo.com,而其连接地址为10.10.10.10,与其 DNS记录不符,则予以拒收。这种方法可以有效过滤掉来自动态IP的垃圾邮件,对于某些使用动态域名的发送者,也可以根据实际情况进行屏蔽。
4. 内容过滤
即使使用了前面诸多环节中的技术,仍然会有相当一部分垃圾邮件漏网。对此情况,目前常用的方法是基于邮件标题或正文的内容过滤。本次参加测试的厂家除了硕琦科技一家之外,其他均具备内容过滤能力。
关键词过滤法是通过邮件内容扫描引擎,对邮件的常用标题语,垃圾邮件受益者的姓名、电话号码等信息进行过滤。由于不同时期垃圾邮件的关键词会发生变化,因此需要定期更新关键词过滤集。
基于贝叶斯概率理论的统计方法更加复杂,但又同时更具智能性。这种方法的理论基础是通过对大量垃圾邮件中常见关键词进行分析后得出其分布的统计模型,并由此推算目标邮件是垃圾邮件的可能性。这种方法具有一定的自适应、自学习能力,目前已经得到了广泛的应用。
还有一种基于规则评分的过滤技术,目前比较有代表性的是SpamAssassin,它是一种人工智能技术应用系统,它对邮件中发现的每一个关键词进行打分,分数越高,垃圾邮件的可能性就越高,当所有关键词得分超过一定数值时,该邮件将被判定为垃圾邮件。
需要指出的是,内容过滤是以上所有各种方法中耗费系统资源最多的。因此,在邮件流量较大的场合,最好配合高性能服务器使用。
5. 病毒扫描
很多垃圾邮件往往是由病毒程序产生的,而且病毒会随邮件在网络上传播。因此病毒扫描也是减少垃圾邮件的一个重要手段。本次参测的所有产品均具备杀毒引擎。
6. 行为分析技术
行为分析技术是最近兴起的一种邮件过滤技术,它的优势在于可以对垃圾邮件进行空中拦截,减少了因接收邮件并进行内容分析所占用的系统资源和网络带宽。虽然目前行为过滤技术还不完全成熟,而且对网络环境要求较高,但是行为分析技术凭借其良好的应用前景还是引起了各大安全厂商的关注。本次参加测试的产品或多或少均具备一定的行为分析能力,特别是硕琦科技的SpamTrap 120,是一款完全基于行为分析的产品。
我们如何测试
1. 关于邮件样本的说明
测试反垃圾邮件产品,我们要面临的首要问题就是如何界定垃圾邮件,这往往是存在争议的。考虑到目前绝大多数垃圾邮件制造者的邮件地址数据库都是从 Internet网页中搜集整理而来的,所以我们使用了在网站上发布与背景同色的诱饵邮件地址的方法来收集垃圾邮件样本。由于这种地址是肉眼无法看到的,因此我们可以确定,发送到这些信箱的邮件都是垃圾邮件范畴。经过处理,我们使用其中的12072封垃圾邮件(其中包含50封病毒邮件),并加上其他途径得到的100封正常邮件,总计12172封样本邮件对参测产品进行邮件过滤能力测试。
事实上,对于反垃圾邮件产品,采用在线测试也是一种有效的方法。但是在线测试需要被测设备进行足够长时间(至少2~4周)的持续测试,才能保证结果的有效性,而且在测试周期内,各种潜在的、不可控的因素都会对测试结果造成影响,可操作性较差。因此,我们采取了尽量模拟真实环境、使用真实邮件样本的折衷方法。这样既可以保证较客观地反映受测产品的能力,又可以保证测试可控、可重现、可操作。
2. 邮件过滤能力测试
在邮件过滤能力测试中,我们采用了自行研发的测试工具,结合qmail系统进行邮件的发送。虽然开发一个邮件发送程序非常简单,但单一的邮件发送模式无法模拟垃圾邮件多变的制造环境,而qmail是一种很常见的MTA,使用qmail可以有效地确保邮件发送的兼容性和真实性。例如,所有垃圾邮件的邮件路由信息都被保留,其中往往包括了假的IP、主机名或E-mail地址信息。这些信息都可以成为被测设备判别垃圾邮件的条件。
我们所采用的测试环境,如图1所示。通过一台配有MTA的发信服务器向被测设备发送样本邮件,被测设备对邮件进行过滤处理后再发给收信服务器。我们在收信服务器上建立了若干专用于收信的邮件账号,每次测试完毕后对处理结果进行统计和分析。
图1 测试拓扑1
我们在测试环境中建立了实验域ccwtlab.com,为测试环境中的邮件服务器建立相应的A纪录,并将MX纪录指向被测设备,然后设置被测设备将邮件转发到收信服务器。我们使用的样本邮件共12172封,其中80%为汉字编码邮件,着重考察设备对于中文垃圾邮件的处理能力。邮件样本的平均长度为 16KB,其中约30%含有附件。全部样本邮件中,除了垃圾邮件外,有100封正常邮件,包括普通的工作往来信函和订阅的邮件列表,以及朋友间的群发邮件等。
3. 邮件处理性能测试
本项测试,我们将重点放在考察被测设备对于SMTP连接的处理能力上。测试中,我们使用思博伦公司的Avalanche 2500和Reflector 2500流量发生器来模拟一定流量的邮件压力,考察反垃圾邮件产品所支持的SMTP处理速率、延迟等重要参数。
在该项测试中,我们所采用的拓扑结构与邮件过滤能力测试类似,如图2所示。我们以Avalanche 2500模拟客户端向反垃圾邮件网关发送邮件,然后由反垃圾邮件网关转投给由Reflector 2500模拟的邮件服务器。
图2 测试拓扑2
为了避免重复IP的出现,我们采用了一个A类地址来模拟源发送IP,为了模拟真实的环境,模拟邮件的大小是在0.3~30KB之间平均分布的(即每封邮件的平均大小为15.15KB)。
通过Reflector 2500,我们设置了接收邮件服务器的域名(ccwtest.com)、IP地址。在Avalanche 2500发送测试邮件的同时,Reflector 2500开始对从反垃圾邮件产品转投过来的邮件进行分析统计,一直到反垃圾邮件网关结束整个投递过程时停止测试。
需要说明的是,我们测得的参数是在反垃圾邮件产品开启默认过滤策略时的数据,它们较好地反映了反垃圾邮件产品在实际应用环境中能够达到的能力。
4. 如何看待评测结果
对于用户来说,部署反垃圾邮件产品时除了尽量减少垃圾邮件的侵扰外,最重要的是不能导致正常邮件的丢失。事实上,对于少量无恶意的垃圾邮件,多数用户并无反感,如果大部分垃圾邮件能够被有效过滤掉,即可认为产品的正常作用已经发挥。
在邮件过滤方面,参测产品各有特色,最适合的应用环境也各不相同,用户在选择产品时,应根据自身的实际情况来进行取舍。另外,我们测试的是受测设备处在默认的反垃圾邮件功能启用时的过滤情况,即测试用户刚进行完毕产品部署时的过滤情况(各厂家产品的默认过滤级别并不完全相同)。在实际应用中,经过定制契合自身需要的策略和优化系统,通常过滤的成功率会更高。
在转发能力方面,由于我们设定的邮件负载较大,这对于受测设备提出了较高的要求。因此,我们测试得到的性能数据可能会比厂商标称的数据低。
表1和表2为我们的测试结果。
表1 邮件过滤网关测试统计
表2 邮件过滤网关信息统计
经过一个多月的紧张测试,SurfControl的E-30以及冠群金辰的KSG-M 3000最终凭借其在邮件过滤、处理性能等多方面的出色表现,脱颖而出,获得了本次《计算机世界》评测实验室反垃圾邮件产品横向比较测试的编辑选择奖。
链接一:我国对垃圾邮件的定义
2000年8月,中国电信制定了垃圾邮件处理办法,并将垃圾邮件定义为:向未主动请求的用户发送的电子邮件广告、刊物或其他资料;没有明确的退信方法、发信人、回信地址等的邮件;利用中国电信的网络从事违反其他ISP的安全策略或服务条款的行为;其他预计会导致投诉的邮件。
2002年5月20日,中国教育和科研计算机网公布了《关于制止垃圾邮件的管理规定》,其中对垃圾邮件的定义为:凡是未经用户请求强行发到用户信箱中的任何广告、宣传资料、病毒等内容的电子邮件,一般具有批量发送的特征。
中国互联网协会在《中国互联网协会反垃圾邮件规范》中是这样定义垃圾邮件的:本规范所称垃圾邮件,包括下述属性的电子邮件:(一)收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;(二)收件人无法拒收的电子邮件;(三)隐藏发件人身份、地址、标题等信息的电子邮件;(四)含有虚假的信息源、发件人、路由等信息的电子邮件。
链接二:个人反垃圾邮件技巧
对付垃圾邮件除了各方共同努力外,对于普通用户来讲,还需要注意以下几点:
① 不要响应不请自来的电子邮件或者垃圾邮件,绝对不要回复垃圾邮件。即使垃圾邮件上写有“如果不需要此邮件的话请回信告知”等句子,也决不要回复,这一点非常重要。
② 不要试图点击垃圾邮件中的任何链接。
③ 不要把您的邮件地址在互联网页面上到处登记。
④ 不要登录并注册那些许诺在垃圾邮件列表中删除你名字的站点。
⑤ 保管好自己的邮件地址,不要把它告诉给你不信任的人。
⑥ 不订阅不健康的电子杂志,以防止被垃圾邮件收集者收集。
⑦ 谨慎使用邮箱的“自动回复”功能。
⑧ 用专门的邮箱进行私人通信,而用其他邮箱订阅电子杂志。
链接三:测试指标说明
SMTP连接处理速率:SMTP连接处理速率反映了邮件系统对SMTP连接请求的能力。在测试中,我们选取在不丢失SMTP连接前提下60秒钟的平均值,其结果表示为每秒处理的连接数。
平均延迟时间:是指从发送SMTP连接请求开始,到收信服务器成功接受到邮件第一位数据时的时间间隔。