.NET539 基于WEB中图像的检索技术研究asp.net

1.无需注册登录,支付后按照提示操作即可获取该资料.
2.资料以网页介绍的为准,下载后不会有水印.资料仅供学习参考之用.
密 惠 保
第二章 基于Web的图像搜索
在网络技术和计算机技术高速发展、多媒体应用越来越普及的现在,图像检索和图像应用已成了如今网页中不可缺少的重要部分。在能够实现对网页中文本信息提取的同时,如何再为用户抽取所需的图片资料是信息检索中一个值得研究的问题。现有的检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。当然现在的人们也可以利用图像的内容特征去搜索所需的图片信息,但现在这项技术就是到现在也还不够成熟,其搜索效率还是不能令人满意。
如今在Web中处理图像检索有很多成熟的技术,如基于Web的数据仓库、Web数据挖掘、Web数据源集成技术等。为此,必须为Web建立适当的数据模型,利用数据模型有效地从Web中获取信息。为了处理Web的中文数据,还必须使用一系列中文自然语言处理技术。比较基础的技术有自动分词、人名和机构名的自动识别、自动标引等,其他像信息抽取、自动文摘、文档自动分类、中文概念词的自动发现以及概念词之间的语义关系的确定等技术都必不可少。实现上述技术需要扎实的积累和自然语言处理功底。
而如何利用现有成熟的传统的图片检索手段,研究出快捷方便而且能迅速提高检索效率的方法,本文将依据现有的搜索引擎和检索手段的研究找到网页中文本与图像之间的内在特点和联系,改进原有的文本搜索使用的模式和方法,提出新的文本相似的匹配算法,并引入检索的反馈技术,把这些技术引入到图像检索中,使得搜索手段更易于实现和提高检索效率。
2.1文本与图像之间的关系
在文本检索中,搜索引擎主要考虑Web页中相关文字信息以及它的语义,这些文本信息反映出网页的内容,但不完全与网页中图片的内容一致。在HTML网页中,根据HTML语言的格式,捕获反映图片信息的文字信息,分析这些文本的语义具有重要的意义。如在HTML文档中<img>标记以及其周围的文字信息,与网页中的插图的内容有着密切的联系。 内容来自think58 [资料来源:http://THINK58.com]
2.1.1表示图像内容的文本标记
为了能识别嵌入网页中图片的内容,必须仔细检索HTML文档中能反映出图像内容的标记与其中的文本。经过对HTML网页格式的分析与对大量实际网页的研究,可知以下几个方面的标记与文本和图像内容有着最为密切的联系。
(1)图像的说明,这些文本出现在图像的周围,用一句过多句话表示出图像的内容,当图像被置于表格中时,同一单元或相邻单元格内的文字也常用与表示图像的含义。
(2)图像的标题,通常用一个关键词表示图像信息。
(3)图像的标签,使用一段短语说明图片的摘要信息,图片无法显示时用标签的文本取代图片,显示摘要信息。
(4)网页的标题,该标题反映出网页的中心内容,作为表现网页内容的图片与网页的标题之间也有着一定的联系。
以上讨论的是HTML中文档和嵌入网页中图像文本信息的关系,当然还存在其他的文本与多媒体信息和图像有关。但是作为搜索引擎要考虑的方面,既要保证抽取信息的准确性,也要兼顾程序执行中时间、空间的复杂度。过多地引入与图像关系不是十分紧密的内容作为检索的依据,会引入检索时的躁声干扰,降低搜索效率。 think58好,好think58
2.1.2 文本的权值比较
以上讨论了网页中对图像信息的描述,在图像的检索中,首先是要建立描述图片内容特征的查询语句,然后比较、区分描述信息与查询语句之间的异同,获取需要检索的图像。但以上信息在对图像描述时侧重于不同角度,同时与图像信息的联系程度也不一样。图像标题和网页标题是简单的词条,两者中相对来说图像标题更接近图像的主题内容。图像的标签和图像的说明是文本信息对图像内容的描述,后者相对来说更为详细。所以在比较、区分各类文本信息以决定是否符合检索要求时,它们所占的权值应该是有所不同的。根据信息的重要程度,他们所占的权值大小按次序如下:
Image Caption>Image Title>Image Alternate>Page Title
2.2 图像信息检索
Web搜索引擎采用何种检索模型,它所提供检索质量将直接影响到检索的效果。现在使用较多的是布尔检索模型、概率检索模型、概率推理网络模型和向量空间模型。这里采用的是近年来使用较多且效果较好的一种信息检索模型:向量空间模型。
copyright think58
[资料来源:www.THINK58.com]
[资料来源:http://THINK58.com]2.2.1 检索模型与相似度
在用向量空间模型进行检索的时候,首先把描述网页中的图片的文字信息看作是有序的词条序列,这样把以上归纳的信息分别称为:ICW,ITW,IAW,PTW。在应用模型时,我首先要将这些信息向量化,把文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即
在信息检索中常用的词条权值计算方法为 TF-IDF 函数 [来源:http://www.think58.com]
目 录
摘 要 i
ABSTRACT ii
第一章 前言 1
1.1 引言 1
1.2 现有的图象检索技术 1
1.2.1 搜索引擎的工作原理 1
1.2.2 图像搜索引擎的检索途径 2
1.2.3 对几个基本引擎的分析 2
1.2.4 搜索引擎的基本要点 3
1.3 图像检索的发展方向 4
第二章 基于Web的图像搜索 6
2.1 文本与图像之间的关系 6
2.1.1 表示图像内容的文本标记 6
2.1.2 文本的权值比较 6
2.2 图像信息检索 7
2.2.1 检索模型与相似度 7
2.2.2 分词技术和匹配方法 8
2.3 检索反馈 .9
结束语 11
参考文献 11 think58.com [资料来源:http://THINK58.com]
上一篇:邮件系统
下一篇:用NET+SQL开发的商场货物库存管理系统-毕业设计