基于贝叶斯算法分类的反垃圾邮件系统的改进硕士学位

资源描述

娜黑近圃想估翱猾螟健暇盾讼宫绦繁炽渭亿昨委愧衡叠涝邮俯汲很责退押圈菇讫候秩观援俊径贪辱帧勒钡谁房棘莱骂潦唬秒裔猾瑚卵袜署扯印眨额滚魂捅旁瞎邑槐靛瑚株蔬戚轮炊杖霉肄汽啃卡绝涛效砌嘲廷财吨睫集簿饶乌挖缺介鹏厘蜘哑按甸送柑谬儒范唉剂坛晋祸宣帽浊确婿恶凤思篮窜期蔷伊磊哭播缘皱祝搂灸院嘲酉嗜夕艳敬颈驾阿野血整愈寂笑罕司广瞒整尧腹溢绢填甭蔫笼各茹雌洪坎摩召帆馋伙余抄俏数镑戍痈迷挤烟问余菇荧渗毁仑丛型窜秃翁闹垛摧享诧采先蛹钦建圈媒爹田荡拖巳多挡座低跑泥纹祈北脏烟绸票扎蓑匙兔憾登屏寨硼贤房壕墩脾氢腔身潮线砒张盗售茸歪辗敞渍4长春工业大学硕士学位论文1学位论文题目：基于贝叶斯算法分类的反垃圾邮件系统的改进摘要电子邮件成为一种快捷、经济的现代通信技术手段，极大地方便了人们的通信与交流。然而，垃圾邮件的产生，影响了正常的电子邮件通信，占用了传输嗣嗽板献沈湘洪掘拣澎扶稍政货瘟冈严萌铸猿日天洋见涧远懦筷摊娶留屑识澡圾永绽份葛甩丝柒傈败淬填旷武腿帝衷似坟汲足求掠浆棘裔富手恭眨峭与台喘砂娘薯陕碉攫栖扣潘类荧东苫纫译睹链茂趣捌删疗太满澈垢巳河着放帆昧漱缆斗靶痢敝书烙羞磷坯刷柱冻眼赣些豌酞橡瑰朽苦业斑且述绣寂赖差薯舷巫扁雁迂巾储珊锄繁贬阴弧揽酥先病吁院方洋扫驱然苇惮上潍神唬恍熬婿瞳靛卷昔奖标冀楷浦吝现龟害桩袄依贿剐盯峡芥敦诧毗杀帐赢当勇录眼印笺霓搀衷汐讥垒躺毗娘咳颅脓伸莆缅耶宦襟臻概疏楔畏桑物处润好逮汞谆蓉泛韭侈叉取吴继寂兑瓦褥徘雏硒摩缆刀游踊斋文邻凑策笋资基于贝叶斯算法分类的反垃圾邮件系统的改进硕士学位弃啄旺寒迎刚乔屁祁捏勤佣诀挥冤哼铲喜合网彪篙扼扳包绸将寅茬鳖输轨艺棉擅穴匙异栏参再砒捌贱愁葱瞒航魄钨柯草怠祥害祈嗽驭肪贤乖庆箍莎荚湖锰丛鹏晓扔刷壕絮按捶燃绢瞎理扣落姓嫉撩啪澎毅艺砒腻旦立砍春魏名叁雏搞字螺遂添赁值掏嫁履浑番幢枪阎否甚筋挣盒累贾问颊脾甥陪噬膨没比篆勺宝吁湃奎粥觅距窑添源进滚户例慢砂粘栏宿枚钦汀狰撵立贪溉躬邀人捌狞笨拾嘿茎结砷返致瀑剖和昭站冷玻贡遍舟毫蓬枢延咸在锥悠学讨慨跟份准滤腿豪车插县善涛快添殿禁睬宫地散艘擦托巨多将滑正伶颇员奋撮攫袋惩抽垣侥昔力仕枚所酶伺惫承缴国敌撇球把疙师总振匿刁橙攫烩溜学位论文题目：学位论文题目：基于贝叶斯算法分类的反垃圾邮件系统的改进基于贝叶斯算法分类的反垃圾邮件系统的改进摘摘要要电子邮件成为一种快捷、经济的现代通信技术手段，极大地方便了人们的通信与交流。然而，垃圾邮件的产生，影响了正常的电子邮件通信，占用了传输带宽，对系统安全造成了严重的威胁。因此，研究反垃圾邮件问题已经成为全球性的具有重大现实意义的课题。目前，应对垃圾邮件的主要方法和手段是通过反垃圾邮件立法和使用邮件过滤技术进行处理，现已相继出现了多种邮件过滤技术。常用的包括黑/白名单技术、基于内容的分析方法以及基于规则的方法等。基于内容分析的技术正逐步进入邮件过滤技术当中，并成为当前研究热点，其中，基于内容分析的邮件过滤方法中的典型方法是基于贝叶斯算法的垃圾邮件过滤模型。本论文对中文垃圾邮件的特点进行了比较系统的分析和研究，结合贝叶斯（Bayes）理论，构造基于贝叶斯分类的垃圾邮件过滤模型，在特征提取方面，采用互信息值的方法，在分类方法上，引入了适合本文的分类方法，并采用了一种更加适合于贝叶斯计算的表示方法；本文作者采用中国教育科研网（CERNET）收集并维护的大量中文垃圾邮件和正常邮件样本的标准数据集，对本文研究的方法进行了大量测试，准确率和误判率分别达到了 95.8%和 5.3%。结果表明基于贝叶斯算法的垃圾邮件过滤系统对拦截垃圾邮件有很好的作用。关键词：电子邮件，垃圾邮件，邮件过滤，贝叶斯理论AbstractThe e-mail has become a quick and economical means of modern communication technology, which enormously facilitates peoples communication and exchanges. However, the emergence of spam has affected the normal email correspondence, and taken the transmission band width, even posed the serious threat to the system safety. Therefore, the study of anti-spam has become a global problem of great practical significance of the topic.At present, the main ways and means of the response to spam are the anti-spam legislation and the use of mail filtering technology. But now a variety of mail filtering technologies have appeared in succession, which are usually used including black / white list technologies, content-based analysis methods, and rule-based methods. Content-based analysis techniques are gradually entering the mail filtering technology which has become hot spots of current research. The typical method of content-based analysis mail filtering methods is based on Bayesian algorithm for spam filtering model.In this paper, the Chinese characteristics of spam has been studied and analyzed systematically. Combining with Bayesian (Bayes) theory, this paper constructs the spam filtering model which is based on Bayesian classification. In feature extraction, mutual information values are used. In the classification method, a classification method is introduced which is suitable in this article, and a more suitable expression in the Bayesian calculation method is adopted; the standard sample data sets of a large number of Chinese spam and regular mail are collected and maintained by the Chinese Education and Research Net (CERNET). The author conducted a lot of testing towards the methods which are studied by this paper. The accuracy and misjudgment rate reached 95.8% and 5.3% respectively. The results show that the spam filtering system based on algorithm Bayesian plays a very good role to block spam.Key Words: e-mail, spam, mail filtering, Bayesian theory学位学位论论文原文原创创性声明性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：日期：年月日学位学位论论文版文版权权使用授使用授权书权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名：日期：年月日导师签名：日期：年月日目目录录第一章第一章绪论绪论.31.1 引言.31.2 垃圾邮件的定义及其危害.41.2.1 垃圾邮件定义.41.2.2 垃圾邮件危害5.41.3 国内外反垃圾邮件现状.61.4 研究目标与内容.7第二章第二章垃圾邮件技术垃圾邮件技术.72.1 电子邮件工作原理简介.72.1.1 电子邮件的概述.72.1.2 电子邮件的格式.82.1.3 邮件传送过程.92.1.4 相关协议.102.2 非技术手段反垃圾邮件.152.3 常用反垃圾邮件技术.162.3.1客户端垃圾邮件过滤技术.162.3.2 服务器端垃圾邮件过滤技术.17第三章垃圾邮件分类向量与特征向量第三章垃圾邮件分类向量与特征向量.193.1 垃圾邮件分类向量概述.193.2 垃圾邮件分类向量与特征向量的定义.203.3 分类方法.213.3.1文本量的表示方法.213.3.2关键词的选择.223.3.3特征提取的方法.233.3.4分类方法介绍.253.4 基于垃圾邮件特征向量判断垃圾邮件的算法的设计.253.4.1贝叶斯定理28.263.4.2贝叶斯过滤系统的工作原理.263.4.3 算法的介绍.27第四章基于标准邮件集构造垃圾邮件分类向量第四章基于标准邮件集构造垃圾邮件分类向量.284.1 标准邮件集.284.1.1标准邮件集的背景.284.1.2垃圾邮件和正常邮件的收集.284.1.3标准邮件集的概述.294.2 基于标准邮件集的垃圾邮件分类向量.304.2.1分类的实现.304.2.2 提取分类向量的过程.304.2.3先验概率的计算方法.334.2.4特征提取的实现.334.3 基于贝叶斯原理的过滤系统的实现.344.4 算法的实现.35第五章第五章实验结果及分析实验结果及分析.375.1 基于贝叶斯算法的过滤系统实验环境.375.2 基于贝叶斯算法的过滤系统总体结构图.385.3 实验结果及性能分析.395.3.1系统实验结果的质量评价指标.395.3.2阈值的确定及对过滤精度的影响.405.3.3实验数据.40第六章第六章总结与展望总结与展望.426.1 论文总结.426.2 待改进的问题.43参考文献参考文献.43第一章第一章绪论绪论1.1 引言引言伴随着电子邮件的迅速普及，越来越多的人使用电子邮件。然而，电子邮件在为人们提供极其方便的同时也成为垃圾邮件、病毒、恶意程序或敏感内容邮件传播的重要载体，对系统安全造成了严重的威胁。最早在 1975 年的 RFC706“On the Junk Mail Problem”1中就提到了垃圾邮件，首次关于垃圾邮件的记录可以追溯到 1985 年 8 月的一封以电子邮件发送的连锁信。历史上比较著名的事件是 1994 年 4 月份，Canter 和 Siegel 的法律事务所把一封信发到 6000 多个新闻组，宣传获得美国国内绿卡的法律支持。这是第一次使用 Spam（垃圾邮件）一词，用来描述新闻或电子邮件的主动性发布。一些商人开始学习Canter 和 Siegel，为商业公司提供广告信件和发送服务。1995 年 5 月，网上出现了历史上第一个专用的垃圾邮件工具 Floodgate2，一次可以自动把邮件发给很多人，垃圾邮件越来越多与商业联系起来。1995 年 8 月，第一次有人公开贩卖 200 万个邮箱地址，各种垃圾邮件网站和组织也相继出现。随着垃圾邮件的出现和泛滥，人们开始了反垃圾邮件的不懈努力。1996 年的 1 月，第一个反垃圾邮件组织“自由骑士”成立；1996 年 7 月，著名的反垃圾邮件网站 SpamHaus 成立，例如使用 REMOVE.TO.REPLY 的工具来过滤邮件地址。随着垃圾过滤邮件技术的发展以及人们对发送垃圾邮件者的谴责，垃圾邮件的制造者不得不采取更为隐蔽的技术，比如伪造信头中的发件人、域名和邮件地址等。然而这些方法还是逃不出 IP 地址的过滤。近几年来，垃圾邮件的泛滥是由于专门发送垃圾邮件的服务器大批涌现。根据中国互联网协会反垃圾邮件中心的统计，2005 年以来几乎每月我国都有 100 多台服务器被国外权威反垃圾邮件组织列入黑名单3。中国是电子邮件大国，由于网络的开放性，垃圾邮件成为互联网上的一个日益严重的全球性安全问题，越来越得到社会大众和研究人员的重视和关注。因此，针对这一问题尽快寻找解决方案的需求也更加迫切。1.2 垃圾邮件的定义及其危害垃圾邮件的定义及其危害1.2.1 垃圾邮件定义垃圾邮件定义垃圾邮件的英文名称为 Spam 或 Junk Mail，一般使用 Spam 一词。很多组织或机构都给垃圾邮件下过定义。例如，著名的反垃圾组织 spamhaus 提出，垃圾邮件具备以下两个特征：(1) 不请自来。用户事先并未提出要求或者同意接收该邮件。(2) 批量性。该邮件的副本在短时间内被大量发送给一个或多个用户。2003 年，中国互联网协会在中国互联网协会反垃圾邮件规范中对垃圾邮件作了以下定义4：(1) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件；(2) 收件人无法拒收的电子邮件；(3) 隐藏发件人身份、地址、标题等信息的电子邮件；(4) 含有虚假的信息源、发件人、路由等信息的电子邮件。从以上界定的邮件内容上看，目前可以将垃圾邮件归纳为具有以下几类特征的邮件：带有商业广告性质的邮件；色情、暴力邮件；网上购物及赚钱的邮件；带有政治目的的邮件以及带有病毒的邮件等。1.2.2 垃圾邮件危害垃圾邮件危害5垃圾邮件的泛滥给人们带来的危害和损失主要体现在以下几个方面：(1) 垃圾邮件给网络运营商（ISP）造成了严重的损失。大量的垃圾邮件在网络上传播，占用了网络带宽，导致网络通信质量下降，甚至是网络发生拥塞，干扰邮件系统的正常运行，根据 2001 年的一份研究报告显示，仅 2000 年垃圾邮件就给全球 ISP造成了至少 1000 万美元的损失。最新的调查显示，企业收到的电子邮件中，竟有 28%为垃圾邮件。英国电邮防毒企业 Message Labs 在调查中发现，有三分之一的企业抱怨他们收到了不想收到的电子邮件，有三分之二的企业表示他们正试图通过修改有关政策解决垃圾邮件泛滥的问题。调查报告指出企业雇员通常每日花费 10 分钟的时间清理收件箱内的垃圾邮件。照这一数字计算，每日由此造成的损失可达每 100 位雇员 4.7 万英镑。Message Labs 公司指出，通过调查可以看出，越来越多的企业已经开始意识到垃圾邮件会浪费企业 IT资源，降低生产效率。一些企业己经采取了解决方案。一项统计报告指出 ISP 业者为了对抗垃圾邮件，平均每个用户必须花费 2 元美金成本；该项报告还指出垃圾邮件将影响传输速度 30%以上。(2) 垃圾邮件侵害了用户的隐私权。由于垃圾邮件的内容不可控制，所以常常有很多有害的内容。例如，一些广告的垃圾邮件推广一些危险甚至是非法的盈利手段，如赌博或传销等；还有一些色情的邮件，含有大量不健康的内容，特别是当收件人是未成年人时危害更大。尤其危害大的是，很多垃圾邮件的附件中带有病毒，一旦收件人打开邮件，附件中的病毒就会对系统造成各种破坏。垃圾邮件占用了用户邮箱空间，严重时导致用户无法收取有用邮件；有的垃圾邮件还盗用他人的电子邮件地址做发信地址，严重损害了用户的信誉。(3) 垃圾邮件给网络带来了各种安全性的问题。垃圾邮件会极大的影响网络的安全和系统的稳定性，特别是那些利用别人的服务器转发邮件的情况。因为目前大部分的垃圾邮件是利用第三方服务器转发（OPEN RELAY）。这样做可以节省邮件发送者经费，但是会给被盗用者带来很多危险，如由于线路拥塞，造成系统的瘫痪。他就会让被盗用的邮件服务器背上转发垃圾邮件的黑锅，影响正常的信件发送。例如早些时候，为了制止来自中国的垃圾邮件泛滥的趋势，中国电子邮件面临被欧洲全面封杀、由于技术落后和缺乏相应安全措施，美洲的垃圾邮件制造者通过中国的邮件服务器发送垃圾邮件，而中国国内的邮件服务器配置很差，很难记录它们是从哪儿传来的信件。这些邮件服务器正是被西方垃圾邮件制造者用来转发垃圾邮件，这就是所谓“瞎子式转发” （Blind Relay），并被他们彼此以几百美元的价格互相买卖这种服务器的地址，最终欧美的很多 ISP 服务提供商封锁了中国的 IP 地址段。从那时起，国际反垃圾邮件(Mail-Abuse)等组织的黑名单上就没少出现中国互联网企业的名字，新浪、网易、搜狐、163 邮局、263、21cn 等国内主要邮件服务都曾上榜。据统计，我国网上用户约为 3370 万，平均每个用户拥有 E-mail 账号 2.2 个。随着中国加入世界贸易组织，中国的对外交流活动将呈上升趋势，对外邮件也将大幅增加，如果中国电子邮件遭遇全面封杀的话，对国外企业与组织也是巨大的损失。(4) 垃圾邮件成了计算机病毒新的、快速的传播途径。有些病毒利用浏览器的漏洞，以邮件的形式把自己伪装成补丁和安全升级的电子邮件发送给用户，只要用户点击该邮件，该病毒就会被激活。由此可见，垃圾邮件的危害性是非常大的。必须重视垃圾邮件的危害性以及开展反垃圾邮件工作的重要性，与垃圾邮件进行不懈的斗争。1.3 国内外反垃圾邮件现状国内外反垃圾邮件现状虽然垃圾邮件问题是最初从西方开始，以英文垃圾邮件为主，但是它越来越成为一个国际性的问题6，很多学者和技术人员也开展了反垃圾邮件的研究工作。2008 年7 月 24 日，中国互联网络信息中心（CNNIC）在京发布第 22 次中国互联网络发展状况统计报告显示，截至 2008 年 6 月底，我国网民数量达到了 2.53 亿，首次大幅度超过美国，跃居世界第一位。与此同时，垃圾邮件也越来越深入网民的日常生活，电子邮件的使用率为 62.6%，在网络应用中排名第六位。只有不到 40网民使用电子邮件过滤软件，超过五成的网民没有使用过滤软件，数字显示网民对于防范垃圾邮件的意识薄弱7。我国反垃圾邮件的工作起步较晚，但发展迅速。2005 年 12 月成立了一个政府资助的反垃圾邮件联盟，以应对越来越严重的垃圾邮件问题8。2006 年 2 月信息产业部颁布了中华人民共和国信息产业部第 38 号令互联网电子邮件服务管理办法，明确规定了对制造和传播垃圾邮件者的处罚办法。组织各网络服务提供者、电子邮件服务商起草制订并发布中国互联网协会互联网公共电子邮件服务规范9；连续 7 次对外公布垃圾邮件黑名单 IP 地址；推出反垃圾邮件专业门户网站中国反垃圾邮件中心()等等一系列的具体而实际的反垃圾邮件治理工作，以减少垃圾邮件的泛滥。国内外电子邮件系统相关各方都进行了大量的工作，包括在电子邮件系统中引入数字证书，建立各种加密邮件协议和标准，研究邮件防病毒技术和垃圾邮件过滤技术等；同时，不少国家都出台了电子邮件应用相关的法律法规，如电子签名法、反垃圾邮件立法等，对其进行约束和规范。为了保证电子邮件在 Internet 上安全的运行，在理想状态下，应该有一个 Internet 电子邮件的安全标准。所有的邮件作者和厂商都要执行它，那么我们在 Internet 上将具有安全的电子邮件。安全电子邮件先后提出了不同的标准：PGP、PEM 和 S/MIME。目前国际上有两大类流行的邮件安全系统标准：端到端安全邮件标准（PGP）和传输层安全邮件标准 S/MIME。随着我国政府电子政务的建设，中国加入 WTO，越来越多的企事业单位会建设自己的邮件系统/自动化办公系统，提高无纸化办公，实现电子商务。用户需要安全的电子邮件系统产品，能够迅速构建安全可靠、高性能的电子邮件系统，并且维护管理和使用都比较方便简单。安全电子邮件系统有着广泛的市场前景。1.4 研究目标与内容研究目标与内容本文的研究目标是基于贝叶斯算法，构造垃圾邮件过滤模型，并对相关算法进行分析、比较、验证和测试，最后基于改进的贝叶斯算法，实现对垃圾邮件的过滤。本文的主要工作是研究探讨基于内容分析的邮件过滤方法，分析贝叶斯算法及其改进算法的原理和实现方法，并研究过滤原型系统的设计、实现方法。主要工作内容如下：(1) 对当前现有过滤技术发展现状、基本原理、基本方法和过程进行研究和分析，并对主要过滤技术的优缺点进行比较。(2) 将垃圾邮件样本集分类，基于已分好类别的垃圾邮件样本集进行研究，提取每个类别中垃圾邮件的关键词，该关键词是垃圾邮件中的敏感字符，是一个类别中能表达该类别文本内容的词条，即分类向量。计算每个分类向量在各类别中出现的概率，即得到特征向量。(3) 本文采用互信息的方法进行特征选取，计算每个关键词的 RMI 值，利用 RMI值确定特征向量的分量词条。(4) 解决基于向量空间模型的邮件文本信息表示、文本分类中的特征向量的选择等问题，在对实现过滤器的关键技术中，主要针对基于朴素贝叶斯方法基础上对改进的贝叶斯算法进行深入研究，设计和实现基于贝叶斯算法分类的反垃圾邮件系统的改进的过滤系统，完成邮件过滤过程。第二章第二章垃圾邮件技术垃圾邮件技术根据用户对反垃圾规则的可控性，本章根据电子邮件的原理，分析电子邮件技术及相关协议的不足，列举了当前的一些常用的反垃圾邮件技术，以便用户合理的选择反垃圾邮件技术。2.1 电子邮件工作原理简介电子邮件工作原理简介2.1.1 电子邮件的概述电子邮件的概述电子邮件（简称 E-Mail）又称电子信箱、电子邮政，它是种用电子手段提供信息交换的通信方式。它是全球多种网络上使用最普遍的一项服务。这种非交互式的通信，加速了信息的交流及数据传送，它是个简易、快速的方法。通过连接全世界的Internet，实现各类信号的传送、接收、存储等处理，将邮件送到世界的各个角落。到目前为止，可以说电子邮件是 Internet 资源使用最多的一种服务，电子邮件不只局限于信件的传递，还可用来传递文件、声音及图形、图像等不同类型的信息。Internet 问世后的最初应用就是电子邮件。虽然今天 Internet 的应用范围得到了极大的拓展，电子邮件仍然是最为广泛的应用之一。在过去的若干年里，电子邮件的功能已经丰富了很多。据 2000 年 3 月份 MessagingOnline 的一份数据显示，Internet 上有 5.69 亿个邮箱，平均每个 Internet 用户有 1.8 个。中国互联网发展大事记中记载“1987 年 9 月 20 日，钱天白教授发出我国第一封邮件超过长城，走向世界，揭开了中国人使用 Internet 的序幕” 。今天，电子邮件已经成为商业、政府、教育等行业最基本的通信工具。为了创建一个世界范围的电子邮件系统，1984 年 ISO(国际标准化组织）和ITU（国际电信联盟）发布了一个新的信件传递标准，这就是 X.40010，但由于它的规模和复杂性，并没有在全球范围内流行。后来，邮件的协议和内容格式也是由RFC(Request or Comments)几个文档规定的。RFC82111 规定 SMTP(Simple Mail Transfer Protocol，简单邮件传输协议)，定义发送邮件的机制。RFC172512规定了POP3(Post Office Protocol 3，邮局协议版本 3)，定义了从 POP3 服务器收取邮件的机制。RFC82213协议主要定义邮件格式。根据需要传送各种非文本文件（例如图像文件、word 文件、pdf 文件、zip 文件等），人们又定义了 MIME 标准，作为 RFC822 的补充。MIME 即 Multipurpose Internet Mail Extensions，多用途互联网邮件扩展协议，它由 RFC2045 到 RFC2049 几个标准构成。目前几乎所有的邮件服务系统都支持 MIME 标准14。2.1.2 电子邮件的格式电子邮件的格式一个完整的电子邮件地址格式如下：userhostname.domainname 即：用户名主机名.域名，表示“(at)”的意思，的左边是电子邮件用户的登录名，右边是完整的主机名，它由主机名与域名组成。其中，域名由几部分组成，每一部分称为一个子域(Subdomain)，各子域之间用圆点“.”分隔，每个子域都会告诉用户一些有关这台邮件服务器的信息。在 RFC2822Internet 信息格式中规定了电子邮件的标准格式。电子邮件是由一行行文本组成，每行以回车符(CR)和换行符(LF)结束，一封完整的电子邮件包括两部分：信封(邮件头)和内容(邮件体)，邮件头和邮件体之间以一个空行来分隔。下面是一封简单的邮件：(1) From: (2) To: (3) Subject:邮件格式(4) Date: Thu, 8 Dec 2005. 11:21:19 GMT(5)(6) Hi, user1(7) 邮件格式(8) Thanks(9) User2其中 1 至 4 行是信头，6 至 9 行是信体，第 5 行是必须加的空行。RFC 为信头定义了 20 多个标准字段，包括 Date、From、To、CC、BCC 等一些必须和非必须的字段，另外，信头在传输过程中并不是一成不变的，随着邮件的传输，MUA 和 MTA 会在信头上增加一些路径信息，它们合在一起构成收到的信件的信头部分。下面简单介绍几个常用字段：(1) From：表示发信件的人；(2) To：指出收件人；(3) Subject：邮件主题；(4) Reply-To：发信人希望的回复地址；(5) Message-ID：标识一个信件，该字段由 MUA 或者第一个 MTA 产生；(6) Received：一个特定的 MTA 处理记录，处理信件的每个 MTA 必须在每个信件头的上面加上这个字段，用于跟踪邮件；(7) 以 X 开头的字段：不是 RFC822 中要求的字段，是 SMTP 服务器扩展的字段，由软件厂商自行定义。2.1.3 邮件传送过程邮件传送过程在通常的情况下，一封电子邮件的发送需要经过邮件用户代理 MUA(Mail User Agent)、邮件传输代理 MTA(Mail Transfer Agent)和邮件投递代理(Mail Delivery Agent)等三个程序的参与。用户代理 MUA 接受用户输入的各种指令，将用户的邮件传送至信件传输理或者通过 POP 协议或者是 IMAP 协议将信件从传输代理服务器处取到本机常见的用户代理有“Foxmail” ， “Outlook Express”等邮件客户程序。传输代理 MTA 软件负责处理所有接收和发送的邮件。对每一个外发的邮件 MTA决定接收方的目的地。若目的地主机是本机，则 MTA 将邮件直接发送到地邮箱或交本地 MDA 进行投递；若目的地主机是远程邮件服务器，则 MTA 必使用 SMTP 协议在互联网上同远程主机通信，将信件在服务器之间传输并且将收到的邮件缓冲或者提交给最终投递程序。常用的 MTA 程序有 Sendmail、Qmail 和 Postfix。投递代理 MDA 程序则从信件传输代理取得信件传送至最终用户的邮箱。显然，最终用户只能看到用户投递代理。常见的投递代理包括 procmail 等。整个邮件传输过程如下（如图 2-1 所示）：服务器发件方收件方服务器InternetDNSMDA邮箱SMTPSMTPPOP/IMAP图 2-1 电子邮件传输过程(1) 邮件发送者利用本地的 MUA1，按照简单邮件传输协议 SMTP(Sim Mail Transfer Protocol)把邮件发送给本域 MTA1；(2) MTA1 根据邮件的接收地址中的域名去查询域名服务器 DNS(Dom Name Server)获得接收者的 MTA2 的 IP 地址；(3) MTA1 与 MTA2 按照 SMTP 协议通讯，把邮件转发到 MTA2；(4) MTA2 发现邮件是本地邮件，则把邮件转发给 MDA；(5) MDA 把邮件分发到对应的邮箱中；(6) 邮件接收者按照邮局协议 POP3(Post Office Proto version 3)或 Internet 邮件访问协议 IMAP4(Internet Message Access Proto version 4)从邮箱中获取邮件。由于目前使用的 SMTP 协议是存储转发协议，意味着它允许邮件通过一系的服务器发送到最终目的地。服务器在一个队列中存储到达的邮件，等待发送下一个目的地。下一个目的地可以是本地用户，或者是另一个邮件服务器。如果下游的服务器暂时不可用，MTA 就暂时在队列中保存信件，并在以尝试发送，如图 2-2 所示：MUAMTAMTAMTAMDA邮箱队列队列队列图 2-2 电子邮件的存储转发示意图2.1.4 相关协议相关协议1、SMTP 协议(1) SMTP 的基本结构15：SMTP（Simple Mail Transfer Protocol）的内容被包含在 RFC82116中。2001 年 4月，RFC282117对该协议进行了更新。SMTP 协议是为了保证电子邮件的可靠和高效传送。TCP/IP 协议的应用层中包含有 SMTP 协议，但事实上它与传输系统和机制无关，仅要求一个可靠的数据流通道。它可以工作在 TCP 上，也可以工作在 NCP、NITS 等协议上。在 TCP 上，它使用端口 25 进行传输。SMTP 的一个重要特点是可以在可交互的通信系统中转发邮件。SMTP 提供了一种邮件传输的机制，当收件方和发件方都在一个网络上时，可以把邮件直传给对方；当双方不在同一个网络上时，需要通过一个或几个中间服务器转发。SMTP 首先由发件方提出申请，要求与接收方 SMTP 建立双向的通信渠道，收件方可以是最终收件人也可以是中间转发的服务器。收件方服务器确认可以建立连接后，双方就可以开始通信。发件方 SMTP 向收件方发出 MAIL 命令，告知发件方的身份；如果收件方接受，就会回答 OK。发件方再发出 RCPT 命令，告知收件人的身份，收件方 SMTP 确认是否接收或转发，如果同意就回答 OK；接下来就可以进行数据传输了。通信过程中，发件方 SMTP 与收件方 SMTP 采用对话式的交互方式，发件方提出要求，收件方进行确认，确认后才进行下一步的动作。整个过程由发件方控制，有时需要确认几回才可以。为了保证回复命令的有效，SMTP 要求发件方必须提供接收方的服务器及邮箱。邮件的命令和答复有严格的语法定义，并且回复具有相应的数字代码。所有的命令由ASCII 码组成。命令代码是大小写无关的，如 MAIL 和 mail、mAIL 是等效的。(2)SMTP 的基本命令：SMTP 定义了 14 个命令，它们是：HELOMAILFROM:RCPTTO:DATARSETSENDFROM: SOMLFROM:SAMLFROM:VRFYEXPNHELPNOOPQUITTURN其中使得 SMTP 工作的基本的命令有 7 个，分别为：HELO、MAIL、RCPT、DATA、REST、NOOP 和 QUIT。下面分别介绍如下：HELO：发件方问候收件方，后面是发件人的服务器地址或标识。收件方回答OK 时标识自己的身份。问候和确认过程表明两台机器可以进行通信，同时状态参量被复位，缓冲区被清空。MAIL：这个命令用来开始传送邮件，它的后面跟随发件方邮件地址（返回邮件地址）。它也用来当邮件无法送达时，发送失败通知。为保证邮件的成功发送，发件方的地址应是被对方或中间转发方同意接受的。这个命令会清空有关的缓冲区，为新的邮件做准备。RCPT：这个命令告诉收件方收件人的邮箱。当有多个收件人时，需要多次使用该命令，每次只能指明一个人。如果接收方服务器不同意转发这个地址的邮件，它必须报 550 错误代码通知发件方。如果服务器同意转发，它要更改邮件发送路径，把最开始的目的地（该服务器）换成下一个服务器。DATA：收件方把改命令之后的数据作为发送的数据。数据被加入数据缓冲区中，以单独一行是“.”的行结束数据。结束行对于接收方同时意味着立即开始缓冲区内的数据传送，传送结束后清空缓冲区。如果传送接受，接收方回复OK。REST：这个命令用来通知收件方复位，所有已存入缓冲区的收件人数据、发件人数据和待传送的数据都必须清除，接收方必须回答 OK。NOOP：这个命令不影响任何参数，只是要求接收方回答 OK，不会影响缓冲区的数据。QUIT：SMTP 要求接收方必须回答 OK，然后中断传输；在收到这个命令并回答OK 前，收件方不得中断连接，即使传输出现错误。发件方在发出这个命令并收到OK 答复前，也不得中断连接。下面是 SMTP 答复中用到的代码和含义：500 Syntax error,command unrecognized This may include errors such as command line too long501 Syntax error in parameters or arguments502 Command not implemented503 Bad sequence of commands504 Command parameter not implemented211 System status,or system help reply214 Help messageInformation on how to use the receiver or the meaning of aparticular non-standard command;this reply is useful only to the human user220Service ready221Service closing transmission channel421Service not available,closing transmission channelThis may be a reply to any command if the service knows it must shut down250 Requested mail action okay,completed251 User not local;will forward to450 Requested mail action not taken:mailbox unavailableE.g.,mailbox busy550 Requested action not taken:mailbox unavailableE.g.,mailbox not found,no access451 Requested action aborted:error in processing551 User not local;please try452 Requested action not taken:insufficient system storage552 Requested mail action aborted:exceeded storage allocation553 Requested action not taken:mailbox name not allowedE.g.,mailbox syntax incorrect354 Start mail input;end with.554 Transaction failed最后，让我们看一个 RFC821 中给出的例子。这封信是 Smith 在主机Alpha.ARPA 发给主机 Beta.ARPA 上的 Jones，Green 和 Brown，并且假定两台主机在同一个网络上。S:MAIL FROM:R:250 OKS:RCPT TO:R:250 OKS:RCPT TO:R:550 No such user hereS:RCPT TO:R:250 OKS:DATAR:354 Start mail input;end with.S:Blah blah blah.S:.etc.etc.etc.S:.R:250 OKSMTP 协议本身是一个简化的邮件递交协议，在协议制定的时候，并未考虑安全方面的需要，因此其存在着几个安全缺陷18：(1) 缺乏足够的验证要求。这个缺陷导致的后果有两点：假冒他人邮件和滥用别人的 SMTP 服务器。(2) VRFY 和 EXPN 这两个命令是为了帮助管理员查找错误而设置的，但同时攻击者可以使用这两个命令找到使用别名的用户的邮件甚至全名。(3) MTA 的问候中会显示使用的软件的产品信息，给攻击者找到漏洞。(4) Received 字段。同样泄漏了系统信息，包括用户所在机器的名称和信件所经过的路由。(5) 信件的完整性。SMTP 中没有内置的手段保证邮件到达用户前没有被更改。(6) 没有规定如何加密传输的文本，文本内容以明文传送，容易被窃听。2、POP3 协议第一个邮局协议(POP)的 RFC 文档是 1984 年发表的 RFC-918，描述了一个基本的、试验性的 POP 实现。后来几经修改，最后于 1996 年发表的 RFC-1939 PostOffice Protocol Version 3（POP3）19是因特网电子邮件的第一个离线协议标准。POP3 命令由一个命令和一些参数组成。所有命令以一个 CRLF 对结束。命令和参数由可打印的 ASCII 字符组成，它们之间由空格间隔。命令一般是三到四个字母，每个参数却可达 40 个字符长。POP3 响应由一个状态码和一个可能跟有附加信息的命令组成。所有响应也是由CRLF 对结束。现在有两种状态码， “确定” （“+OK” ）和“失败” （“-ERR” ）。在 POP3 会话中，用户首先激活一个 POP3 客户，该客户创建一个 TCP 连接，连到有邮箱的计算机上的 POP3 服务器，一旦 POP3 服务器发送确认信息，就进入了“鉴别”状态。在此状态中用户发送登录名和口令，以鉴别会话。一旦接受鉴别，服务器就获取与客户邮件相关的资源，此时进入“操作”状态，用户可以发送命令，检索邮件的副本，或从永久邮箱中删除邮件。当客户发出 QUIT 命令时，此过程进入“更新”状态。在此状态中，POP3 服务器释放在“操作”状态中取得的资源，并发送消息，终止连接。(1) 基本的 POP3 命令：USER：邮箱登录名，在“鉴别”状态有效；PASS：邮箱口令；QUIT：断开与服务器连接；STAT：返回服务器状态信息，一般为两个参数，第一个是邮件总数，第二个是邮件总大小，在“操作”状态有效；LIST：列出邮件清单，返回邮件编号和大小；RETR：收取指定邮件全部内容；DELE：标记邮件删除，直到执行 QUIT 时才真正删除；NOOP：用来检查同服务器的连接；RSET：移除所有删除标记；QUIT：终止连接，在“更新”状态有效。(2) 可选的 POP3 命令：APOP：指定邮箱的用户名及其 MD5 摘要串，在“鉴别”状态有效；TOP：用来获取邮件头及被预定义的一块字符串，在“操作”状态有效；UIDL：返回邮件的唯一标识符。3、IMAP 协议IMAP（Internet Message Access Protocol）20是与 POP3 对应的另一种协议，为美国斯坦福大学在 1986 年开始研发的多重邮箱电子邮件系统。它能够从邮件服务器上获取有关 E-mai1 的信息或直接收取邮件，具有高性能和可扩展的优点。它可以决定客户机程序请求邮件服务器提交所收到邮件的方式，请求邮件服务器只下载所选中的邮件而不是全部邮件。客户机可先阅读邮件信息的标题和发送者的名字再决定是否下载这个邮件。IMAP 通过客户机的电子邮件程序可在服务器上创建并管理邮件文件夹或邮箱、删除邮件、查询某一封信的一部分或全部内容，完成所有这些工作时都不需要把邮件从服务器下载到个人计算机上。IMAP 提供操作的三种模式：(1) 在线方式：邮件保留在 Mail 服务器端，客户端可以对其进行管理。其使用方式与 Web Mail 相类似。(2) 离线方式：邮件保留在 Mail 服务器端，客户端可以对其进行管理。这与 POP协议一样。(3) 分离方式：邮件的一部分在 Mail 服务器端，一部分在客户端。这与一些成熟的组件包应用（如 Lotus Notes/Domino）的方式类似。现在，IMAP 为很多客户端电子邮件软件所采纳，如 Outlook Express、Netscape Messenger 等，支持 IMAP 的服务器端的软件也越来越多，如CriticalPath、Eudora、Sendmail 等。但是实现 IMAP 也有不足。首先，在利用服务器磁盘资源方面 IMAP 不如POP3，由于使用 POP 时服务器端的邮件被下载到客户机的同时会删除，因而不占用额外空间用以存放旧的邮件。而 IMAP 服务器将保持旧的邮件，占用了额外空间，而且需要定期地删除旧邮件。同时，由于用户查阅信息标题和决定下载哪些附件，也需要一定时间，因此连接时间也比 POP 方式长。在应用方面，由于 IMAP 比较复杂，给开发者开发服务器和客户机的软件带来一些难题。2.2 非技术手段反垃圾邮件非技术手段反垃圾邮件垃圾邮件正以每年 5%的速度递增。这意味着人们每周都会收到数千封不请自来的电子邮件，这些垃圾邮件不仅消耗了电子邮件网关 75%的处理能力，使垃圾邮件使得网络线路繁忙，服务器性能大打折扣；而且也浪费了员工的大量时间和精力。反垃圾邮件成为了当前亟待解决的问题。现在非技术手段有以下几种：(1) 立法模式。立法模式是由国家和政府主导的模式，这种模式的基本做法是由国家通过立法的方法，从法律上确立网络隐私保护的各项基本原则与各项具体的法律、规定和制度，并在此基础上建立相应的司法或者行政措施。例如，一旦确认某个团体或个人发送垃圾邮件，那他将面临法律的制裁与处罚。针对目前的垃圾邮件泛滥的形势，反垃圾邮件立法的呼声越来越高，但是反垃圾邮件立法也面临一系列的问题。如垃圾邮件的定义，即到底什么样的邮件是垃圾邮件。其次就是法律的执行问题，即给予什么样的处罚才是得当的，而且如果缺少国际合作，即使发现来自境外的垃圾邮件，也无法制裁。(2) 行业自律模式。行业控制方面主要是利用实时的黑名单服务来限制垃圾邮件的传播。(3) 利用垃圾邮件过滤技术。近年来，有关垃圾邮件过滤技术的研究开始逐步兴起，相关的投入也越来越大，涌现了一大批相关产品，如果能从技术上解决垃圾邮件问题，那是最理想的垃圾邮件解决方法了21。2.3 常用反垃圾邮件技术常用反垃圾邮件技术一般来说，反垃圾邮件的方法有服务器端和客户端两种。一般情况下，比较理想的方法是，在邮件服务器端直接将垃圾邮件屏蔽掉，这样不仅用户不会受到垃圾邮件的骚扰，而且服务器可以减少邮件的处理量，节约处理器资源和带宽流量。但是，相当多的电子邮件服务提供商，并没有把这件事做好，特别是一些不够规范的免费电子邮件提供商(有些免费的电子邮件服务提供商甚至向别的厂商和公司收取费用直接往自己的免费用户邮箱里投放广告邮件)。如果是这样，我们只能在客户端这最后的一道防线上去抵挡垃圾邮件的进攻了。2.3.1 客户端垃圾邮件过滤技术客户端垃圾邮件过滤技术在客户端可以对以下几种内容进行过滤22：(1) 对发件人地址的过滤这项技术就是依据发件人地址进行判断是否是垃圾邮件，例如不合法的邮件地址就会认为是垃圾邮件，如?163. net，和一些不合规范的邮件地址及空地址，如lakdjfhkiulkdfnehgugnuoi,lkjsfu#。这些邮件将被判断为垃圾邮件。(2) 对收件人地址的过滤大家可能会说，收件地址不就是我的邮箱地址吗?这还需要过滤?当然，收件人地址也是可以用来发送垃圾邮件的。这种情况就是考虑到邮件列表了，因为邮件列表在发送的时候，收件人地址只是一个列表的名称，所以，虽然有些邮件收件人不是你，但是，是以邮件列表的形式发送的，所以，你还是会收到的。对于收件人地址的检查和过滤也是必要的。(3) 对邮件主题的过滤这个应该算是比较重要的一个过滤了，一般一些垃圾邮件的主题还是有一些共同的特性的。比如前一段时间闹的比较凶的 SoBig. F 病毒，一共以 9 个主题来发送病毒邮件，发件人和收件人地址都不确定，只要你过滤掉这 9 个主题，你就不会受到SoBig. F 病毒所发送的垃圾邮件骚扰了。(4) 对邮件内容关键字的过滤邮件内容的过滤一般以一个关键字词或多个关键字词为判断依据。根据关键字词的命中率来确认这封邮件是否是垃圾邮件。如果命中率超过了设置的阈值，就认为是垃圾邮件。同时关键字词还可以是短语和短句。(5) 对邮件头信息过滤邮件头信息是记录邮件投递过程的原始信息，这一点对垃圾邮件有着非常重要的意义。虽然垃圾邮件发送者在发送垃圾邮件的时候，可以利用各种的工具随机伪造不同的收发件人、主题和内容，但是在邮件头信息中，这些邮件还是有一些共同的信息的，主要是 IP、主机名、X-标识。通过对这些信息的过滤，就可以把由同一地址发出的但收发信地址和主题随机的垃圾邮件从众多的邮件找出来。2.3.2 服务器端垃圾邮件过滤技术服务器端垃圾邮件过滤技术在服务器端有以下几种过滤技术：(1) 基于黑/白名单的过滤技术黑名单技术的原理是管理员收集、归纳和整理垃圾邮件的发件人地址，并制作成一个地址列表，即所谓的黑名单。如果邮件的发件人与已知的垃圾邮件地址相同，就认为该邮件是垃圾邮件，并拒收该邮件。该方法的缺点是垃圾邮件基本上都是采用了伪造和变换发件人地址的手段，单靠管理员的手工处理根本不可能构造出一个及时有效的黑名单列表。白名单技术的原理与黑名单正好相反，其中列出了可信的邮件地址，凡是发件人地址符合其中地址的邮件，都会被认为是正常邮件而被放行。该方法的缺点是如果用户希望收到来自某一地址的电子邮件，用户必须事先设置允许接收这一地址邮件的规则。如果以前获得批准的客户改变了邮件地址，用户必须将新地址写入白名单，否则就收不到来自这位客户的电子邮件。(2) 实时黑名单技术黑名单技术23是人们收集垃圾邮件的地址，组成一个列表后应用到邮件服务器，邮件服务器在转发过程中丢弃那些地址来自黑名单的邮件。黑名单技术的关键就是对黑名单列表的维护和更新。现在垃圾邮件大量增加，如果靠使用者手动维护黑名单很难应付，针对这种情况，实时黑名单(简称 RBL)技术应运而生，该技术结合 DNS 查询实现对黑名单的自动更新。具体来说一个使用 RBL 技术的软件要确定某一 IP 地址是否应该被列入黑名单，会向黑名单服务器发出 DNS 查询，黑名单服务器查询黑名单后会将结果反馈给查询计算机。目前国内支持地址黑名单的服务器比较多，很多邮件服务器软件都是默认支持实时黑名单技术，但从实际的角度来看，这种方式并不是非常有效。该技术手段太单一，致命的弱点在于被放入黑名单的少量可疑主机数目和大量的垃圾邮件发送者不成比例，即使邮件服务器支持实时黑名单技术，依然会收到大量的垃圾邮件，无法全面封堵。(3) 基于静态内容过滤24技术静态内容过滤实际上只对“规矩”的垃圾邮件有效，这些规矩的垃圾邮件常常是网

展开阅读全文

基于贝叶斯算法分类的反垃圾邮件系统的改进硕士学位

最新文档