基于支持向量机的网页分类算法设计
以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
资料介绍:
摘要
随着因特网在全世界的普及和发展,WWW网页已经成为因特网上最重要的信息资源。WWW网页采用超文本描述语言(HTML)格式,每一个网页可以被引用为链接,也可以指向任何其它网页。为了网页信息的有效组织和检索,人们开发了网络信息搜索器。网络信息搜索器以给定的超链接(URL)为入口,按照HTTP协议,依次与WWW服务器建立连接,获取网页。
为了有效地组织因特网上极其丰富的信息资源,通过分析中文和中文网页的特点,总结分析了比较成熟的网页分类算法,主要有以下几种:kNN分类算法、NB(Na?ve Bayes)算法、决策树(Decision Tree,Dtree)算法、Rocchio算法、SVM算法等。根据对以上几种算法的分析,确定使用SVM网页分类器,做出基本的算法模型,采用该模型,分离出基本的网页,目前主要分离的内容为新华网中的新闻,暂时分离的类别包括计算机类、娱乐类、教育类这几个类别。
根据SVM (Support Vector Machine)支持向量机,在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
基于SVM技术,提出了一种新的中文网页的自动分类算法。这种算法主要利用字间的相关信息、词频以及页面的标记信息等,提取网页特征,并计算可调的词频加权参数,然后通过本类和非本类训练,建立专家数据库。实验表明,该算法可以获得80%以上的网页分类准确率。
关键词:SVM 向量机 网页分类
目录ABSTRACT??? 31前言??? 41.1 课题研究背景??? 41.2 可行性研究??? 61.2.1 技术可行性??? 61.2.2 经济可行性??? 61.2.3 操作可行性??? 61.3 本章小结??? 72 SVM介绍??? 82.1 SVM的概念??? 82.2 SVM的一般特征??? 82.3 SVM的原理??? 92.4 SVM相关知识介绍??? 92.4.1 线性分析器??? 92.4.2 超平面??? 112.4.3 广义判别函数??? 132.4.4 Fisher线性判别方法??? 142.4.5 最佳分类面??? 142.5 SVM总结??? 152.6 本章小结??? 153 基于支持向量机的网页分类算法设计的实现??? 163.1 开发环境介绍??? 163.1.1 C++简介??? 163.1.2 Vc++6.0介绍??? 183.2 SVM模型模拟的实现??? 193.2.1 SVM概述??? 193.2.2 SVM网页分类原理介绍??? 203.3 本章小结??? 254 基于支持向量机的网页分类算法设计的设计与实现??? 264.1 图形用户界面的设计??? 264.2 界面介绍??? 264.2.1 MFC界面设计GUI介绍??? 264.2.2 主题操作界面介绍??? 264.2.3 主要操作框界面介绍??? 274.2.4 读取训练文件界面??? 364.2.5 训练界面??? 374.2.6 评测分类结果界面??? 384.2.7 显示分类结果界面??? 404.3 本章小结??? 455 结论??? 46参考文献??? 48