开题报告内容
一. 选题背景与意义:
随着智能手机和移动网络的普及,拍照已经成为人们生活的一部分,而这些拍摄下来的照片中存在着大量的文本信息,这些文本信息通常隐藏在复杂的背景中,如何快速而精确的定位到自然场景中的文本信息并将其识别出来,对于利用图像中的文本信息有着重要的意义。
自然场景中文本的提取包括两个过程,第一步是文本定位,是指通过文本区域与背景区域的特征差异将两者区分开来,并将文本区域的位置在自然场景图像中标注出来;第二步是文本识别,是指通过对文本区域预处理、特征提取、模式识别等方法进行字符的识别[1]。
目前,文本定位主要有三种方法,基于连通域的、基于学习的和两者结合的方法。基于连通域的方法首先提取出文本区域,然后利用先验信息滤除部分非文本区域,最后根据候选文本字符间的关系构造文本词,此方法很少在多尺度上操作,所以运行速度快,但需要大量的先验信息来滤除非文本区域。基于学习的方法有两步比较关键,一是特征提取方法的使用,二是分类器的使用,此方法需要在多尺度上操作,计算量较大,而且需要先准备好训练的数据来训练分类器。连通域和学习结合的方式是在提取阶段采用连通域的方式,在滤除阶段通过训练样本学习分类器来滤除非文本区域,此方法没有众多的参数设置,但会受到训练数据的限制。文本识别目前主要有两种方法,一种是基于二值化分割的OCR方法,另一种是基于目标识别的方法。前者是将文本字符从自然场景图像中分离出来,并对其进行二值化成为能被OCR识别的字符;后者是通过提取字符的特征并对其分类从而进行识别。
二.拟解决的问题
基于连通域的文本定位方法是目前较为常用的自然场景文本定位算法,而这种方法中最为典型的就是由Matas等人发明的最大稳定极值区域(Maximally Stable Extremal Regions, MSER)算法[2],David Nister[3]等人在2008年对原算法进行改进,得到了线性速度更快的MSER算法,该算法利用并查找数据结构,类似于分水岭算法,算法的实现可以粗略地描述为适应地形的物理洪水填充,即将图像想象成一座山岭,洪水从任意一点(像素)倾注,首先充满离倾注点最近的盆地,然后依次溢出到其他盆地,直至淹没整个图像。该算法可以在线性时间内生成图像的生成树,而且原理简单,耗费的内存较少,执行速度较快,但f值不高(f值为召回率和准确率的加权调和平均值)[4]。本课题拟通过研究MSER算法的原理后,针对其缺陷进行改进,提高MSER算法在自然场景文本定位中的f值,并使用现有的文本识别技术对文本区域进行识别。
三.研究方法及研究步骤
1. 文献查阅
通过阅读大量的国内外文献,掌握图像处理算法发展历程与设计原理,其中重点搜集和分析研究自然场景图像文本定位有关的文献资料,选取主流的MSER算法进行研究。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。