优秀的毕业设计论文网
计算机 JAVA 电子信息 单片机 机械机电 模具 土木工程 建筑结构 论文
热门搜索词:网络 ASP.NET 汽车 电气 数控 PLC

基于朴素贝叶斯算法的垃圾邮件处理的研究

以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
  
资料介绍:
摘要? 电子邮件作为互联网技术发展的产物,在给全球网民带来通讯便利的同时,正不可避免地遭遇有悖初衷的运用。垃圾邮件问题日益严重,受到研究人员的广泛关注。 目前经常采用的垃圾邮件过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。另外一条路线就是从电子邮件的文本内容入手,使用文本分类、信息过滤的算法。本文详细分析邮件过滤中的朴素贝叶斯算法的运用。 关键词? 电子邮件 垃圾邮件过滤? 朴素贝叶斯算法 目? 录第1章 绪论??? 11.1 基于朴素贝叶斯算法的垃圾邮件处理的研究背景??? 11.2 基于朴素贝叶斯算法的垃圾邮件处理的研究意义??? 21.3 基于朴素贝叶斯算法的垃圾邮件处理的研究内容??? 2第2章 技术背景介绍??? 32.1 Java技术介绍??? 32.2 朴素贝叶斯算法介绍??? 5第3章 系统总体分析与设计??? 63.1基于朴素贝叶斯算法的垃圾邮件处理系统实现的基本步骤??? 63.2 基于朴素贝斯算法的垃圾邮件过滤器功能设计??? 73.3 基于朴素贝斯算法的垃圾邮件过滤器流程设计??? 7第4章 系统详细设计??? 84.1用户界面逻辑设计??? 84.1.1 软件开启界面设计??? 84.1.2 软件操作页面设计??? 84.1.3 邮件导入图形界面设计??? 94.1.4目录导入图形界面设计??? 104.1.5 过滤结果查看图形界面设计??? 104.2 用户图形界面的实现??? 114.2.1 启动窗口的实现??? 114.2.2 主界面实现??? 114.3 垃圾邮件过滤器设计实现??? 114.3.1 邮件实验??? 114.3.2邮件库的导入设计??? 124.3.3启动过滤(执行算法)??? 124.3.4生成结果??? 13结论??? 14致谢??? 14参考文献??? 15 基于朴素贝叶斯算法的垃圾邮件处理的研究内容 本系统主要是以朴素贝叶斯分类算法为理论基础,对垃圾邮件过滤的一种简单实现。 该系统首先通过java语言对朴素贝叶斯算法进行简单地实现,然后通过jdk6提供的Swing组建简单地实现用户图形界面以简化过滤器的使用方法,方便用户的操作和使用。 ·???????? 朴素贝叶斯算法的定义 贝叶斯分类算法是统计学分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值,而此假设在实际情况中经常是不成立的,因此其分类准确率可能会下降。为此,就出现了许多降低独立性假设的贝叶斯分类算法,如TAN(tree augmented Bayes network)算法。 ·???????? 贝叶斯分类算法的基本描述 设每个数据样本用一个n维特征向量来描述n个属性的值,即:X={x1,x2,…,xn},假定有m个类,分别用C1, C2,…,Cm表示。给定一个未知的数据样本X(即没有类标号),若朴素贝叶斯分类法将未知的样本X分配给类Ci,则一定是 P(Ci|X)>P(Cj|X) 1≤j≤m,j≠i 根据贝叶斯定理 由于P(X)对于所有类为常数,最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。如果训练数据集有许多属性和元组,计算P(X|Ci)的开销可能非常大,为此,通常假设各属性的取值互相独立,这样 先验概率P(x1|Ci),P(x2|Ci),…,P(xn|Ci)可以从训练数据集求得。 根据此方法,对一个未知类别的样本X,可以先分别计算出X属于每一个类别Ci的概率P(X|Ci)P(Ci),然后选择其中概率最大的类别作为其类别。 朴素贝叶斯算法成立的前提是各属性之间互相独立。当数据集满足这种独立性假设时,分类的准确度较高,否则可能较低。另外,该算法没有分类规则输出。