优秀的毕业设计论文网
计算机 JAVA 电子信息 单片机 机械机电 模具 土木工程 建筑结构 论文
热门搜索词:网络 ASP.NET 汽车 电气 数控 PLC

基于粗糙集与朴素贝叶斯算法的垃圾邮件识别

以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
  
资料介绍:
基于支持向量机(SVM)的过滤方法 支持向量机 (support vector machine)是napnik等人根据统计学习理论从1992年到1995年期间提出的一种普遍而有效的新的机器学习方法,是统计学习理论中最年轻的内容。 该方法从样本集中选择一组特征子集, 使得对于特征子集的划分等价于整个样本集的划分,这组特征子集称为支持向量(sv)。sv尽管数量少,但却包含了分类所需的信息。后来 Brutlag和Meek把线性支持向量机用于邮件分类对其加以改进。2004年,A leksander 等人提出了一种考虑特定内容错分代价的SVM邮件过滤算法,SVM的优点是结构风险最小化、全局唯一解、在非线性和高维模式中也表现出很好效果, 但该算法的时间复杂度较高。 2.2.2 基于决策树的过滤方法 决策树通过按照某种属性的顺序自顶向下地生成一棵树,树的每个节点是属性名,而每条边是属性值。从树根到树叶的一条路径便对应一条规则。基于信息增益进行属性顺序选择是决策树中常用的方法之一。著名的决策树算法有ID3,C4.5等。Cameras使用决策树来过滤垃圾邮件,他采用RLM距离方法而非信息增益来选择特征,采用THIN来描述特征,在PU1语料上得到的垃圾邮件过滤的正确率和召回率都在88%左右。其优点是决策树很容易用于种类字段, 对种类值较少时效果不错, 而且直观,可解释性好。但其本身并不常常直接用于垃圾邮件过滤,而是作为Boosting方法的弱学习器来使用。 2.2.3 基于粗糙集的过滤方法 基于粗糙集的垃圾邮件过滤是属于垃圾邮件内容过滤中的基于规则方法的过滤。其原理是从邮件的正文内容出发,寻找出最具代表性的特征属性,在预处理阶段,通过特征选择算法选择出较优的特征属性子集。在训练阶段,通过属性值约简获得过滤规则,在测试阶段,将输入待分类邮件的邮件特征与过滤规则进行匹配,并根据基于粗糙集的垃圾邮件过滤算法,最终判定待分类邮件所属的类别。 2.2.4? 基于KNN最近邻居的过滤方法 KNN最近邻居分类法是著名的模式识别统计学方法,对于未知和非正态分布可以取得较好的分类准确率。KNN是一种懒惰的学习法,所有的计算都推迟到分类时,所以训练时快,分类时慢,并且其分类时间是非线性的。当训练样本数增加时,其分类时间将急剧增加。 2.2.5 基于贝叶斯技术的过滤方法 贝叶斯技术是一种基于统计学的机器学习方法,也是垃圾邮件检测领域中的一种常见方法。Raju Shrestha等人利用不同位置出现的同一关键字的内部关联特性进行分类,计算关键字的协同权重(co-weighting),并取得了性能上的提高。Lietal等人提出了基于用户反馈的改进的Naive Bayes方法,获得了相对低的丢失率和较好的性能。 本课题研究内容: ??? 本课题提出了基于粗糙集理论和贝叶斯分类算法的垃圾邮件过滤方法,利用粗糙集约简算法对邮件样本集进行特征约简,删除对邮件过滤结果影响不大的冗余特征,从而降低了输入样本维数,解决了贝叶斯分类器训练时间长,样本集占用空间过大的问题。提高邮件过滤的准确性和训练的速度。 拟解决的主要问题: ??? 邮件训练集中包含了大量的词汇,通常有几千个词,甚至几万个词。如果将所有这些词都作为特征集来表示一封邮件,邮件向量的维数太大,加重计算的压力,增大存储空间,减慢处理速度。此外,部分邮件的特征中有与邮件的类别无关的特征,它们对分类作用不大,甚至还会对分类产生错误的指导,造成邮件分类的准确率降低。为解决这个问题,本文提出了一种结合粗糙集理论与贝叶斯的垃圾邮件过滤的方法。