中文垃圾邮件过滤系统的实现和评估

上传人:san****019 文档编号:20017920 上传时间:2021-01-25 格式:PPT 页数:19 大小:329.31KB
返回 下载 相关 举报
中文垃圾邮件过滤系统的实现和评估_第1页
第1页 / 共19页
中文垃圾邮件过滤系统的实现和评估_第2页
第2页 / 共19页
中文垃圾邮件过滤系统的实现和评估_第3页
第3页 / 共19页
点击查看更多>>
资源描述
中文垃圾邮件过滤系统 的实现和评估 田莹 北京 清华大学 网络中心 Email: 概要 引言 研究背景 中文垃圾邮件过滤系统的实现 中文垃圾邮件过滤系统的评估 最新研究进展及结论 引言 垃圾邮件的定义 垃圾邮件的危害 反垃圾邮件的意义 Email, 短信, VoIP电话 垃圾邮件的特性 反垃圾邮件的方法 黑白名单 关键字匹配 贝叶斯 SVM Etc. 基于内容的过滤器的流程图 英文垃圾邮件的贝叶斯过滤流 程 收集两个数据库 垃圾邮件数据库 正常邮件数据库 在每一个数据库中,学习并定义出一些关键词, 计算这些关键词的概率 新邮件到来时,计算出新到来的邮件中包含的 关键词的联合概率 通过联合概率判断新到来的邮件是否是垃圾邮 件 中文邮件的预处理 中文分词的概念 分词算法 基于字符串匹配 基于理解 基于统计 中文分词的词典 基于整词二分 基于 TRIE索引树 基于逐字二分 实验数据来源 CCERT提供 http:/ 训练用邮件数 5000 测试用邮件数 500 评估指标 定义 L为正常邮件 , S为垃圾邮件 。 SL 表示将垃圾邮件判定为正 常邮件 , 同理 , LS 表示将正常邮件判定为垃圾邮件 。 在文本分类问题中 , 有两个评估指标被经常使用 。 Acc称为正确率 。 Err称为错误率 。 这里 表示将正常邮件判断 为正常邮件的个数 。 的含义可以类推。 和 分别表示待判定的正常邮件和 垃圾邮件的总个数。 ,L S S S S Ln n n LLn LN SN ,L L S S L S S L L S L S n n n nAc c ErrN N N N 评估指标(续 1) 考虑到 L S和 S L分别会有不同的代价 , 并设 L S的 代价是 S L的代价的 倍 , 我们定义两个新的评估指标 , 分别是 WAcc( 加权的正确率 ) 和 WErr( 加权的错误率 ) 在没有过滤的情况下 ( 无论是正常邮件还是垃圾邮件 一律通过 ) , 我们得到基准 WAcc和基准 WErr分别为: ,L L S S L S S L L S L S n n n nW Ac c W ErrN N N N ,bb SL L S L S NNW A c c W E rr N N N N 评估指标(续 2) 为了方便比较 , 定义比率 R为 不难看出 R越大 , 过滤的效果越好 。 R如 果小于 1, 意味着过滤比不过滤效果还差 bWErrR WErr 参数说明 我们的算法中有两个重要的参数 用于训练的样本个数 n 在过滤中计算最终概率的特征数目 m 实验中,主要研究 R和 n以及 R和 m之间的相互 关系。 实验结果 0 2 4 6 8 10 12 14 0 10 20 30 40 特征数目m 比率R 图 1 R-m关系图 0 1 2 3 4 5 0 10 20 30 40 特征数目m 比率R 1 图 2 R-m关系图 9 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0 10 20 30 40 特征数目m 比率R 图 3 R-m关系图 999 图 4 R-n关系图 1, 5m 9, 15m 999, 25m 实验结果说明 在过滤中计算最终概率的特征数目 m以 及用于训练的样本个数 n都存在某个最优 值 当用于训练的样本个数逐渐超过这个最 优值时,过滤效果会略微下降并趋于一 致。 最新研究进展 相关会议 MIT spam conference CEAS( 电子邮件和反垃圾邮件会议) 贝叶斯过滤发展方向 从单一关键词到关键词链 从线性到非线性 从单一用户到综合多用户 从客户端到服务器 利用电子邮件网络 Etc. 系统和产品 微软公司: SmartProof IBM公司 : SpamGuru Etc. 结论 反垃圾邮件的挑战 谢谢大家 Q & A
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!