优秀的毕业设计论文网
计算机 JAVA 电子信息 单片机 机械机电 模具 土木工程 建筑结构 论文
热门搜索词:网络 ASP.NET 汽车 电气 数控 PLC

网页文本过滤的设计与实现

以下是资料介绍,如需要完整的请充值下载.
1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
  
资料介绍:
摘要 随着网络信息技术的飞速发展,用户可以通过网络方便快捷地利用海量的共享信息,同时“信息爆炸”、“信息过载”、“信息垃圾”等很多问题日趋严重。而且那些无用或者有害信息的信息量远远超过了我们所需要的信息量,这给人们带来了很多不便。如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信息并过滤掉无用信息和不良信息,使人们更有效地利用信息资源,已经使我们亟待解决的问题。基于以上存在的问题,本文提出了一个基于局域网中的信息过滤研究的课题。它不仅可以实现不良网页的过滤,也可以实现基于兴趣主题的网页过滤。本文介绍了网页文本过滤的发展现状、信息过滤的方法,并详细讨论了在网页文本过滤中所用到的关键技术及其实现的过程。 关键字:过滤 网页过滤 信息过滤 随着Internet的迅速发展,网络给人们带来了很多便利。但是人们在享受它的方便快捷的同时,会被其中的海量的信息所淹没,要在浩瀚的信息中找到我们所要的资源变得非常困难。一方面是在这种海量信息中甚至还包含了一些不健康的信息(有关暴力、犯罪和色情等),这些都威胁到人们的信息安全。屏蔽这些非法的不良信息,保护用户的信息安全和合法权益,成为当前信息时代的重要任务之一。另一方面是在这些海量信息中如何能够更有效、更准确地找到自己感兴趣的信息,滤除与自己的需求无关的网络信息或有害信息己成为基于Internet网络信息过滤的当务之急,采用信息过滤的方法有选择性地传播和利用信息变得越来越重要。与此同时,随着计算机科学技术的日益进步,人们对信息处理技术提出了更高的要求,需要智能化的信息处理工具,来处理出现的“信息垃圾"和“信息过剩”现象。信息过滤技术作为上述问题的有效解决方法:(1)用户可以主动提供与个人兴趣相关的信息:(2)过滤敏感性信息(如国家安全、暴力、色情和反动信息等)。传统的过滤技术不外乎就是以下两种,基于URL的过滤和基于关键字的过滤,但前一种方法需要庞大的URL数据库来支撑以及网站可以变化自己的URL地址来逃避检测,后一种方法容易出现过滤失误,比如宣传计划生育的网站有可能被误判为色情网站。但它们又是必不可少的过滤方式,可以作为现有过滤方式有益的补充。相比这些传统的过滤技术,更加智能化的信息过滤系统是我们拭目以待的。课题目标是研究网关上的实时内容过滤和文本过滤等相关技术,设计实现一个基于控制网关的Web文本信息过滤系统。这种新的自适应过滤技术不需要大量初始训练文本,同时在过滤过程中不断进行学习来提高过滤精度,因此更适应于web环境的过滤要求。 1.1研究背景 随着互联网的迅猛发展,其中的共享信息资源也以惊人的速度增长。互联网不仅成为当今世界上最大的信息库,并且也成为了全球范围内传播信息的最主要渠道之一。互联网信息呈现出数量巨大、内容广泛、形式多样、增长迅速等特点。中国互联网络信息中心(CNNIC)7月24日发布了《第22次中国互联网络发展状况统计报告》。报告显示,截至2008年6月底,我国网民数量达到了2.53亿,首次大幅度超过美国,跃居世界第一位。全国网页总数约为百亿之多,其中包含新闻、教育、体育、娱乐、财经、科技、汽车、商业等诸多方面的内容。大量的信息给人们的生活带来了极大的便利,比如通过门户网站、搜索引擎方便就能获得需要的信息,用电子邮件、聊天室进行快速通信等。作为一种世界性的巨大网络,互联网使人们的生产、生活环境起了并正在起着深刻而复杂的变化。然而,互联网的交互性、全球性、开放性、快捷性等特点,也使得在网络上传播的各种信息良莠不齐。诸如:境外敌对势力、宗教极端势力、“法轮功”邪教组织、藏独组织等利用互联网向境内进行煽动、破坏活动的问题:利用个人网页,博客、空间、留言板、聊天室等交互式栏目张贴、传播有害信息、泄露国家秘密的问题:利用电子邮件和短信息发送有害信息的问题:利用互联网进行色情、诈骗、盗窃、赌博等违法活动的问题:利用互联网提供的搜索引擎查找、链接各种有害信息的问题等等。 针对互联网上庞杂的文本信息流,如何有效地组织和管理这些信息,并快速、准确、全面地为用户从中找到所需信息并能够剔除非法的以及与用户无关的信息己成为我国信息产业发展的当务之急。搜索引擎(Search Engine)的出现在一定程度上使Internet“信息过载”和“信息迷向”问题得到了缓解。传统的文本信息检索要求用户提交查询关键词来查找与之匹配的信息,这种单纯基于关键词的检索技术由于不具备智能性,不能学习用户的兴趣,难以满足用户精确查找信息的需要,尤其是对于具有不同层次需要的用户,输入相同的关键词只能得到相同的检索结果,个性化服务的程度很低。因此为了满足用户日益增长的信息需求,过滤无用、不良、有害的信息,对网络文本信息过滤技术进行研究具有十分重要的意义。 1.2研究现状 随着计算机技术的快速发展,网络过滤由最初的设想变成了现实,并且在不 断地发展和完善。1958年,Luhn提出了“商业智能机器”的设想,在这个概念 框架中,图书馆工作人员建立了每个用户的需求模型,然后通过精确匹配的文本 选择方法,为每个用户产生一个符合用户信息需求的新文本清单。因为这种构 想涉及到文本过滤的每一方面,为文本过滤奠定了有力的基础。1969年,美国 信息科学协会对选择性分发系统SDI(Selective Dissemination of Information)进行了研究,并成立了专门的兴趣小组,引起了广泛的关注12]。但是这个系统大都遵循Luhn模型,只有少数系统能自动更新用户的需求模型,大多数系统还是依靠专门的技术人员进行专门的维护。1982年Denning首次提出了“信息过滤"的概念,他的目的是拓宽传统的信息生成和信息收集的讨论范剧31。它描述了一个信息过滤的例子,对于实时的电子邮件,通过“内容过滤器”可以识别出紧急邮件和一般邮件,他主要采用的技术是有层次组织的邮箱、独立的私人邮箱、阈值接收、资格验证等,以此对接收的信息进行有效的控制。1987年,Malone等人提出了三种信息选择模式,即认知、经济、社会,并且研制了系统“InformationLens"。所谓的认知模式相当于基于内容的信息过滤,经济模式主要来自于Denning的“阈值接收”思想;社会模式是他最重要的贡献,目前成为“协同过滤"。在社会过滤中,文本的识别是基于读者以前对文本的标注,通过对信息的交换,可以自动识别具有共同兴趣的团体。1989年,由美国政府赞助的MUC(Message Understand Conference)成立,他将自然语言处理技术运用到了文本过滤研究上,极大的推动了信息过滤的发展。 九十年代以后,文本过滤技术有了很大的发展。著名的文本检索会议(Text Retrieval Conference,简称TREC)和主题跟踪会议(Topic Detection and Tracking,简称TDT)都把文本过滤作为主要的研究内容之一,这在很大程度上推动了文本过滤的发展15,61。1992年,美国国家标准和技术局(National Institute of Standards and Technology,简称NIST)和国防部高级研究计划局(Defense Advanced Research Projects Agency,简称DARPA)联合赞助了每年一度的国际文本检索会议TREC,是文本检索领域最权威的国际会议之一,代表着世界检索领域最高水平,92年至今已经召开了12次,目前进行的是TRECl2。TREC会议的宗旨主要有三条:通过提供规范的大规模语料(GB级)和对文本检索系统性能的客观、公正的评测,来促进技术的交流、发展和产业化;促进政府部门、学术界、工业界间的交流和合作,加速技术的产业化;发展对文本检索系统的评测技术。1997年TREC将信息过滤细分为自适应过滤、批过滤和分流过滤,对文本过滤的研究更加的深入。随着信息过滤需求的增长和研究深入的发展,其他领域的许多技术也运用到信息过滤中来,并取得了良好的效果。如文本检索中文本分类和聚类技术,机器学习等运用到信息过滤技术中来,苏贵洋采用了近邻法(KNN)算法构造过滤模型中特征选择方法,过滤不良的中文信息,实验结果显示了较好的过滤效果。文中提出的暴力网页检测和过滤系统使用数据挖掘领域的相关技术来提高过滤的性能;文中提出了一种基于机器学习的过滤算法,该算法结合网页内容分析和网页结构分析;文中提出了一个基于字频统计和数据挖掘技术的自适应不良网页过滤模型。以校园网作为研究环境,利用自适应语料库构建智能化的分类模式,通过模式识别过滤校园网中的不良网页。 1.3本文章节安排 本文章节安排如下:第一章? 介绍课题的研究背景意义和研究现状第二章? 介绍软件的开发平台和工具第三章? 相关技术研究第四章? 网页正文内容提取第五章 软件的设计与实现