计算机视觉读书报告_计算机视觉讲座报告

2020-02-27 其他范文 下载本文

计算机视觉读书报告由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“计算机视觉讲座报告”。

计算机视觉在智能视频分析中的应用

摘要:计算机视觉是一门研究如何让计算机达到人类那样“看”的学科。更加准确地说,它是利用摄像机和电脑代替人眼使得计算机拥有类似于人类的那种对目标进行分割、分类、识别、跟踪、判决决策的功能。智能视频分析是将场景中背景和目标分离,识别出真正的目标,去除背景干扰,进而分析并追踪在摄像机场景内出现的目标行为。本报告通过文献查阅与学习,主要介绍了当前计算机视觉的发展状况,智能视频分析的研究现状及难点,最后是介绍常用的目标跟踪算法在智能视频分析领域中的应用。关键词:计算机视觉、视频分析、目标跟踪,mean shift 算法 1. 计算机视觉概述及其发展现状 视觉是人类最重要的感觉,人类认识外界信息80%来自视觉。人类的视觉系统在给人类带来好处的同时,也会给人类造成失误。

常言道:“眼见为实”果真如此吗?有很多情况下“眼见”的并不一定都是“实”的。原因在于,通过我们的眼睛(以及其他感觉器官)而感觉到的外界事物的形象和特性,需要经过大脑的加工处理才能形成相应的知觉和判断。在一定的条件下,大脑会对所看到的形象形成不正确的知觉和判断,即产生视错觉。较为大家熟知的几种视错觉现象包括长短错觉、大小错觉、平行错觉、弯曲错觉。

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,用电脑处理成为更适合人眼观察或传送给仪器检测的图像。

一般来说,在人类的五种基本感觉中,视觉提供了人类对周围世界了解的大部分信息。通过视觉,人和动物感知外界物体的大小、明暗、颜色、动静,获得对机体生存具有重要意义的各种信息,至少有80%以上的外界信息经视觉获得,视觉是人和动物最重要的感觉。

如今计算机视觉涉及到很多领域,计算机视觉的应用领域主要包括对照片、视频资料如航空照片、卫星照片、视频片段等的解释、精确制导、移动机器人视觉导航、医学辅助诊断、工业机器人的手眼系统、地图绘制、物体三维形状分析与识别及智能人机接口等。2. 智能视频分析 2.1 智能视频分析概述

智能视频分析目前在国际上有多种叫法,如iva(intelligent video analytics)、vca(video content analysis)、va(video analysis)、iv(intelligent video)、ivs(intelligent video system)。它是计算机图像视觉技术在安防领域应用的一个分支,是一种基于目标行为的智能监控技术。区别于传统的移动侦测(vmd-video motion detection)技术,智能视频分析首先将场景中背景和目标分离,识别出真正的目标,去除背景干扰(如树叶抖动、水面波浪、灯光变化),进而分析并追踪在摄像机场景内出现的目标行为。2.2 智能视频分析核心技术

智能视频分析技术也属于模式识别技术的一种,它是通过设计一定的计算机

算法,从视频中分析、提取和识别个体运动行为的特征,令计算机判断出这些个体进行了一些什么行为,进而可以判断这些行为是否符合某些规则,是否属于“某一类型”的行为。而这些类型的行为是应该提醒监控人员注意的“可疑行为”,这样当计算机发现了这些“可疑行为”时就可以进行即时的报警,摆脱了人工的干预和判断,实现令计算机“代替”人进行监控,也即实现了“自动监控”或是“智能监控”。从更形象一点的角度来解释,监控系统中摄像头和视频传输技术解决了“眼睛”的问题,使监控人员能够在不身处现场的情况下通过摄像头看到现场的情景,而这一现场还由于传输技术的进步摆脱了地域的限制,甚至于可以在千里之外(通过数字网络传输视频);而智能视频分析监控技术则给监控系统加上了“大脑”,使机器能够代替人来实现监控,无须再由人工随时去监控这些视频。2.3 智能视频分析当前存在的问题 实际环境下光照变化、目标运动复杂性、遮挡、目标与背景颜色相似、杂乱背景等都会增加目标检测与跟踪算法设计的难度,从而给智能视频分析带来更多的困难,其主要体现在以下几个方面:

光照变化引起目标颜色与背景颜色的变化,可能造成虚假检测与错误跟踪。采用不同的色彩空间可以减轻光照变化对算法的影响,但无法完全消除其影响;目标阴影与背景颜色存在差别通常被检测为前景,这给运动目标的分割与特征提取带来困难。

目标特征的取舍,序列图像中包含大量可用于目标跟踪的特征信息,如目标的运动、颜色、边缘以及纹理等。但目标的特征信息一般是时变的,选取合适的特征信息保证跟踪的有效性比较困难。

遮挡是目标跟踪中必须解决的难点问题。运动目标被部分或完全遮挡,又或是多个目标相互遮挡时,目标部分不可见会造成目标信息缺失,影响跟踪的稳定性。大多数系统一般是通过统计方法预测目标的位置、尺度等,都不能很好地处理较严重的遮挡问题。

序列图像包含大量信息,要保证目标跟踪的实时性要求,必须选择计算量小的算法。鲁棒性是目标跟踪的另一个重要性能,提高算法的鲁棒性就是要使算法对复杂背景、光照变化和遮挡等情况有较强的适应性,而这又要以复杂的运算为代价。3. 目标跟踪算法

目标跟踪是智能视频分析过程必不可少的一部分,国内外对目标跟踪算法的研究仍在继续,本次读书报告较详细的学习并了解常用的目标跟踪算法,在这里介绍以下几种。

3.1 基于对比度分析的目标跟踪算法

基于对比度分析的目标跟踪算法利用目标与背景在对比度上的差异来提取、识别和跟踪目标。该类算法按照跟踪参考点的不同可以分为边缘跟踪、形心跟踪和质心跟踪等。本算法不适合复杂背景中的目标跟踪,但在空中背景下的目标跟踪中非常有效。边缘跟踪的优点是脱靶量计算简单、响应快,在某些场合(如要求跟踪目标的左上角或右下角等)有其独到之处。缺点是跟踪点易受干扰,跟踪随机误差大。重心跟踪算法计算简便,精度较高,但容易受到目标的剧烈运动或目标被遮挡的影响。重心的计算不需要清楚的轮廓.在均匀背景下可以对整个跟踪窗口进行计算,不影响测量精度。重心跟踪特别适合背景均匀、对比度小的弱小目标跟踪等一些特殊场合。通过图像二值化后,按重心公式计算出的是目标图像的形心。一般来说形心与重心略有差别。

3.2 基于匹配的目标跟踪算法

基于匹配的目标跟踪算法主要有特征匹配、贝叶斯跟踪以及核方法等,这里主要介绍核方法的使用。核方法的基本思想是对相似度概率密度函数或者后验概率密度函数采用直接的连续估计。一方面可以简化采样,另一方面可以采用估计的函数梯度有效定位采样粒子。采用连续概率密度函数可以减少高维状态空间引起的计算量问题,还可以保证例子接近分布模式,避免粒子退化问题。核方法一般都采用彩色直方图作为匹配特征。mean shift是核方法中最具代表性的算法,其含义正如其名,是“偏移的均值向量”。其算法的实现如下所述:

在给定d维空间rd中的n个样本点xi,i=1,„,n,在x点的mean shift向量的基本形式定义为:

mh?x??1??xi?x? kxi?sh(1)其中,sh是一个半径为h的高维球区域,满足以下关系的y点的集合,sh?x??y:?y?x??t?y?x??h2?(2)k表示在这n个样本点xi中,有k个点落入sh区域中。我们可以看到?xi?x?是样本点xi相对于点x的偏移向量,(1)式定义的mean shift向量mh(x)就是对落入区域sh中的k个样本点相对于点x的偏移向量求和篇2:计算机图形学读书报告

读书报告

(计算机图形学的发展前景)

专 业: 数字媒体技术

班 级: 1306班

姓 名: 燕旱雨

学 号:(2013100661)

一、计算机图形学的基本知识

计算机图形学是研究怎样用计算机表示、生成、处理、和显示图形的一门学科,在计算机辅助设计、地理信息系统、计算机游戏、计算机动画、虚拟现实等方面有着广泛的应用。

计算机图形 用计算机表示、生成、处理和显示对象。从范围上说,计算机图形包括了山、水、虫、水、人等客观世界存在的所有物体甚至意识形态;从内容上说,计算机图形学也已不仅仅是物体的形状,还包含了物体的材质、运动等各种属性。因此,计算机图形是储存在计算机内部的物体的坐标、纹理等各种属性。

数字图形 由规则排列的像素上的颜色值组成的二维数组。数字图像可能由数码相机、摄像机或者其成像设备如ct机从外界获取,也可能在计算机上通过计算机图形装化而成。除了计算机图形和数字图像外,物体在计算机内部的表达还可以是符号或抽象模型、图像中的的一个区域等,研究物体的这些在计算机内部的表达及表达间的装换形成了和计算机图形学密切相关的几个重要学科。

图像处理 将客观世界中原来存在的物体的影像处理成新的数字化图像的相关技术,如ct扫描,人脸识别,x射线探伤等。

模式识别 对所输入的图像进行分析和识别,找出其中蕴含的内在联系或抽象模型,如邮政分拣,人脸识别,地貌地形识别等。

计算几何 也称为计算机辅助几何设计,是研究几何模型和数据处理的学科,探究几何形体的计算机表示、分析和综合,研究如何灵活、有效地建立几何形体的数学模型以及在计算机中更好的储存和管理这些模型数据。

计算机视觉 模拟人的视觉机理使计算机获得与人类相似的获取和处理视觉信息能力的学科

二、计算机图形学的发展方向

1、智能cad cad 的发展也显现出智能化的趋势,就大多数流行的cad软件来看,主要功能是支持产品的后续阶段一一工程图的绘制和输出,产品设计功能相对薄弱,利用autocad最常用的功能还是交互式绘图,如果要想进行产品设计,最基本的是要其中的autolisp语言编写程序,有时还要用其他高级语言协助编写,很不方便。而新一代的智能cad 系统可以实现从概念设计到结构设计的全过程。智能cad的另一个领域是工程图纸的自动输入与智能识别,随着cad技术的迅速推广应用,各个工厂、设计院都需将成千上万张长期积累下来的设计图纸快速而准确输入计算机,作为新产品开发的技术资料。多年来,cad 中普遍采用的图形输入方法是图形数字化仪交互输入和鼠标加键盘的交互输入方法.很难适应工程界大量图纸输入的迫切需要。因此,基于光电扫描仪的图纸自动输入方法已成为国内外cad工作者的努力探索的新课题。但由于工程图的智能识别涉及到计算机的硬件、计算机图形学、模式识别及人工智能等高新技术内容,使得研究工作的难点较大。工程图的自动输入与智能识别是两个密不可分的过程,用扫描仪将手绘图纸输入到计算机后,形成的是点阵图象。cad 中只能对矢量图形进行编辑,这就要求将点阵图象转化成矢量图形.而这些工作都让计算机自动完成.这就带来了许多的问题.如① 图象的智能识别;② 字符的提取与识别;③ 图形拓扑结构的建立与图形的理解;④实用 化的后处理方法等等。国家自然科学基金会和863计划基金都在支持这方面的研究,国内外已有一些这方面的软件付诸实用,如美国的rvmaster,德国的vpmax,以及清华大学,东北大学的产品等。但效果都不很理想.还未能达到人们企盼的效果。

2、美术与设计

计算机美术的发展 1952年.美国的ben .laposke用模拟计算机做的波型图《电子抽象画》预示着电脑美术的开始(比计算机图形学的正式确立还要早)。计算机美术的发展可分为三个阶段: 代表作品:1960年wiuiam ferrter为波音公司制作的人体工程学实验动态模拟.模拟飞行员在飞机中各种情况;1963年kenneth know iton的打印机作品《裸体》。1967年日本gtg小组的《回到方块》。? 伦敦第一次世界计算机美术大展一“控制论珍宝(cybernehic serendipity1为标志,进入世界性研究与应用阶段;计算机与计算机图形技术逐步成熟,一些大学开始设置相关课题,出现了一些cad应用系统和成果,三维造型系统产生并逐渐完善。代表作品:1983年美国ibm 研究所richerd vo设计出分形山(可到网站“分形频道hrtp:ttfracta1.126.tom 中查找有关“分形”的知识)包括三个方面:环境设计(建筑、汽车)、视觉传达设计(包装)、产品设计。

3、计算机动画艺术

计算机动画的简介

计算机动画技术的发展是和许多其它学科的发展密切相关的。计算机图形学、计算机绘画、计算机音乐、计算机辅助设计、电影技术、电视技术、计算机软件和硬件技术等众多学科的最新成果都对计算机动画技术的研究和发展起着十分重要的推动作用50年代到60年代之间,大部分的计算机绘画艺术作品都是在打印机和绘图仪上产生的。一直到60年代后期,才出现利用计算机显示点阵的特性,通过精心地设计图案来进行计算机艺术创造的活动。

电影特技

计算机动画的一个重要应用就是制作电影特技 可以说电影特技的发展和计算机动画的发展是相互促进的。1987年由著名的计算机动画专家塔尔曼夫妇领导的mira 实验室制作了一部七分钟的计算机动画片《相会在蒙特利尔》 再现了国际影星玛丽莲?梦露的风采。1988年,美国电影《谁陷害了兔子罗杰》(who framed roger rabbit?)中二维动画人物和真实演员的完美结合,令人瞠目结舌、叹为观止 其中用了不少计算机动画处理。1991年美国电影《终结者ii:世界末日》展现了奇妙的计算机技术。此外,还有《侏罗纪公园》(juraic park)、《狮子王》、《玩具总动员》(toy story)等。

计算机动画的应用领域十分宽广 除了用来制作影视作品外,在科学研究、视觉模拟、电子游戏、工业设计、教学训练、写真仿真、过程控制、平面绘画、建筑设计等许多方面都有重要应用,如军事战术模拟

4、科学计算可视

科学计算的可视化是发达国家八十年代后期提出并发展起来的一门新兴技术,它将科学计算过程中及计算结果的数据转换为几何图形及图象信息在屏幕上显示出来并进行交互处理,成为发现和理解科学计算过程中各种现象的有力工具。篇3:数字图像处理读书报告1 《数字图像处理》

读书报告

————钱增磊 提要:本人现进入江南大学物联网工程学院研究生,开始进行研究计划,所研究方向为图像处理以及智能视频分析,先要对其基础学科进行深入学习,着重掌握图像处理的基础、概念等有关知识,由导师梁教授的建议,选择冈萨雷斯的《数字图像处理》进行基础性学习,现制定读书计划,每一周进行读书总结,消化本周所学习内容。

本书是数字图像处理的经典著作,全书共分为12章,内容包括绪论,数字图像基础、灰度变换与空间滤波、频域滤波、图像复原与重建、彩色图像处理、小波及多分辨率处理、图像压缩、形态学图像处理、图像分割、表现与描述、目标识别。本书是第三版,是综合前两个版本的内容,以及近10年来图像处理的发展而做的更新,使全书讲的更为透彻、清晰,跟上时代的潮流。

1、数字图像处理没有非常精确的范围,它常与数字图像分析,计算机视觉等方面具有可重叠性质,故我们把数字图像处理的范围进行三方面的概括,在这个连续的统一体中可以用3种典型的计算处理来区分其中各个学科,分为三个等级:

1、初级的操作,包括降噪、增强对比度、锐化,特点是输入输出的数据都是图像,其中间过程便是图像处理;

2、中级处理,涉及分割及缩减对目标物的描述使其适合计算机处理,其输入是图像,输出是提取图像的属性;

3、高级处理,涉及被识别物体的总体理解,执行与视觉相关的识别函数,针对单个对象的识别。

2、是图像处理的历史与发展。

(1)图像处理早在20世纪20年代初就已经开始有了应用,最早的应用是出现在报纸行业,最早的图像时通过海底电缆从伦敦传往纽约的图像。该方法是早期没有计算机的情况下进行的图像处理方法之一,就是首先通过编码,在接收端利用电报打印机通过字符来模拟中间色调还原图像。后来发展为在电报接收端用穿孔纸带打出图片,这就是早期的bartlane系统,编码时用5个等级的灰度值来表示,后发展为用15个等级的灰度值。(2)而在计算机的出现,首先简要概括了计算机的历史,冯诺依曼提出了两个概念,一个是保存程序和数据的存储器,另一个是条件分支。这两个概念就作为现在cpu的基础,也就是计算机的最初起源。利用计算机技术改善空间胎侧器发回的图像的工作,开始于1964年美国加利福尼亚喷气推进实验室,也是作为数字图像处理的起始。

(3)接下来开始涉及医学图像、地球遥感监测、天文学等领域。1960s末到1970s初,计算机轴向断层扫描技术(ccat)出现,在医学上,数字图像处理得到了空前发展。

(4)开始用计算机程序增强对比度、将亮度编码为彩色,应用于工业、医学、生物科学、地理学等领域,而在考古学中,图像的增强与复原技术得到了充分应用。

(5)发展到现在,数字图像处理应用的领域开始朝向解决感知问题。

3、图像处理的图像源的研究

图像源有许多,最主要的是基于电磁能谱,由于每一个应用领域所要观测的捕获的物体不同,得到侧重点不同的影响,所以就产生光源的不同,电磁能谱的排布根据波长的不同而具有不同的能量的光源。

(1)伽马射线,作为能量最高的光源,主要应用于核医学和天文学的观测,书中举例利用放射性同位素标记法,当该物质衰变时发出伽马射线(放出正电荷,与电子相遇,两者共同湮灭,同时放出两束伽马射线),构成影像。而在天文观测中则是用成像物体自然辐射得到。

(2)x射线,主要的应用在医学上,血管造影技术以及x射线的轴向断层扫描技术。主要产生该射线的是用x射线管,阴极加热释放自由电子,向阳极流动,撞击产生x射线,落在胶片上使其感光。而对于数字图像,则有两种方式:其一是用数字化的x射线胶片;其二则是用x射线通过病人身体直接落在某装置上,使x射线转换为光,然后用光敏数字系统来捕获。

(3)紫外线,主要应用于光刻技术,工业检测、显微镜、生物成像、以及天文观测等。最显著的应用是荧光显微镜,最基本的任务就是用激发光照射需成像的物体,然后从强光中分离出较弱的荧光。

(4)可见光与红外线波段,由于两者的成像总是相结合,故研究中常放在一起。红外线波段成像主要距离应用是发现地球表面接近可见光的红外线发射源,用来估计各地区的电能使用百分比。可见光应用于生产产品的自动视觉检测。

(5)微波波段,主要应用于雷达。

(6)无线电波,主要应用于医学上,比如核磁共振成像(mri)。

(7)其他方式成像也很多,比如用声成像,可以用来地质勘测,更主要的在商业中进行勘

测石油与矿产。还有用超声波成像,可以用声速来计算距离等。还有电子显微镜成像,分形成像等。

4、数字图像处理的基本步骤

一共包括十个步骤,分别是图像获取、图像增强、图像复原、彩色图像处理、小波分析、压缩、形态学处理、图像分割、表述与描述、图像识别。我们通过对特定的设备将获取图像,转换为数字形式,对图像进行一些预处理,使其计算机能够更好地识别和处理,然后进行图像的修复,使图像更加接近真实,然后通过小波分析进行减噪处理,进一步进行细化处理,对于高精度的图像,根据图像的特性选用适当的算法进行压缩编码,然后分割提取特征,最后与数据库中的内容进行匹配,从而识别。

5、图像处理系统的组件

(1)一个图像处理系统需要有其感知的设备,有两种方式进行图像获取,一个是用物理设备,对物体发射的能量很敏感;另一个是用数字化器,把模拟信号转换成数字信号。

(2)特定的图像处理硬件

(3)计算机,一般选用通用计算机适合各类图像处理系统。

(4)软件,有通用与专用的图像处理软件。

(5)大规模存储能力,对其分为三类,第一类是用于处理期间的短期存储,一般选用计算机内存或者缓冲存储器,速度快;第二类是快速调用的在线存储,一般选用光介质或磁盘,是尤其频繁的访问来决定的;第三类是档案存储,不需要频繁的访问,是海量存储;

(6)图像显示器

(7)硬拷贝装置

(8)网络,图像传输中最重要的便是带宽。

总结

通过对第一章绪论的学习,基本上对数字图像处理的概念、应用、起源及其发展有了一个大体的了解,在后续章节中将会继续深入学习,目前还存在一些遗留的问题,图像获取是怎么实现的,如何编码,如何保证在解码的过程中不会出现错误,如何识别图像的物体等等,都会在后续的学习中一一深入了解。篇4:计算机视觉实验报告experiment3 experiment 3:edge detection cla: student id: name: ⅰ.aim the aim of this laboratory seion is to learn to deal with image data by matlab.by the end of this seion, you should be able to perform image preproceing of edge detection in spatial domain and frequency domain.ⅱ.knowledge required in the experiment ⅰ.you are supposed to have learned the basic skills of using matlab;ⅱ.you need to review matlab programming language and m-file format.ⅲ.you should have studied edge detection methods.ⅲ.experiment contents demand: please show the figure on the left and list the codes on the right respectively bellow each question.(请将运行结果(图片)和程序代码贴在每题下方)ⅰ.read “car.jpg” file(to do this by imread function), convert the color image into grayscale image, and then perform edge detection using roterts, prewitt, sobel operator separately in spatial domain and display the results in a matlab window.程序: clear;im=imread(car.jpg);i=rgb2gray(im);subplot(3,2,1);imshow(i);title(gray image);[y,x]=size(i);im_edge=zeros(y,x);t=30;for k=2:y-1 for kk=2:x-1 im_edge(k,kk)=abs(i(k+1,kk+1)-i(k,kk))+abs(i(k,kk+1)-i(k+1,kk));if(im_edge(k,kk)>t)im_edge(k,kk)=1;else im_edge(k,kk)=0;end end end subplot(3,2,2);imshow(im_edge,[]);% []è?êy?y×??ˉ??·?μ?0~255μ?·?? ?ú?£

title(robert image);[y x]=size(i);imedge=zeros(y,x);for k=2:y-1 for kk=2:x-1 imedge(k,kk)=abs(i(k-1,kk+1)-i(k-1,kk-1))+abs(i(k,kk+1)-im(k,kk-1))+ abs(i(k+1,kk+1)-i(k+1,kk-1))+...abs(i(k+1,kk-1)-i(k-1,kk-1))+abs(i(k+1, kk)-i(k-1, kk))+abs(i(k+1,kk+1)-i(k-1,kk+1));end end subplot(3,2,3);imshow(imedge,[]);title(prewit image);[y x]=size(i);im_edge=zeros(y,x);for k=2:y-1 for kk=2:x-1 im_edge(k,kk)=abs(i(k-1,kk+1)-i(k-1,kk-1))+2*abs(i(k,kk+1)-i(k,kk-1))+ abs(i(k+1,kk+1)-i(k+1,kk-1))+...abs(i(k+1,kk-1)-i(k-1,kk-1))+2*abs(i(k+1, kk)-i(k-1, kk))+abs(i(k+1,kk+1)-i(k-1,kk+1));end end subplot(3,2,4);imshow(im_edge,[]);title(sobel image);图像如下: ⅱ.read “car.jpg” file(to do this by imread function), convert the color image into grayscale image, then perform edge detection in frequency domain using gauian highpa filter and display the result in a matlab window.第二题程序:

%频域边缘检测,利用gaian高通滤波器进行滤波,进行边缘检测 %频域边缘检测,利用gaian高通滤波器进行滤波,进行边缘检测 clear;im=imread(car.jpg);i=rgb2gray(im);subplot(1,2,1);imshow(i);title(gray image);%shifting image(multiply the image by(-1)x+y)[row,col]=size(i);[y,x]=meshgrid(1:col,1:row);ii=double(i).*(-1).^(x+y);f=fft2(ii);%subplot(2,2,2);%title(fourier spectrum);%creat highpa filter d=zeros(row,col);u0=floor(row/2);v0=floor(col/2);d0=40;%截止频率 n=2;for i=1:row for j=1:col d=((i-u0)^2+(j-v0)^2)^0.5;

% d(i,j)=1/(1+(d0/d)^(2*n));d(i,j)=1-exp((-d^2)/(2*(d0)^2));end end %filtering g=f.*d;%invert the result and shifting g=real(ifft2(g));im=g.*(-1).^(x+y);im=im>40;%阈值确定edge subplot(1,2,2);imshow(im);%傅立叶变换中心 title(the image after gaian highpa filter);图像如下: 篇5:计算机视觉论文(2012)

一、机器人视觉的概念

机器人视觉系统是指用计算机来实现人的视觉功能,也就是用计算机来实现对客观的三维世界的识别。2.机器人视觉主要研究用计算机来模拟人的视觉功能从客观事物的图像中提取信息,进行处理并加以理解,最终用于实际检测、测量和控制。

计算机视觉系统一般有光源、摄像机、采集卡及pc软件系统等组成,可以完成图像的采集与处理、目标的识别功能,视觉系统的结构一般是从系统的模型的角度理解的。

计算机视觉既是工程领域,也是科学领域中的一个富有挑战性重要研究领域。计算机视觉是一门综合性的学科,它已经吸引了来自各个学科的研究者参加到对它的研究之中。其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学,神经生理学和认知科学等。

计算机视觉学所研究的对象,简单地说就是研究如何让计算机通过图象传感器或其它光传感器来感知、分析和理解周围环境。

人类感知外界环境主要通过视觉,听觉和触觉等四大感觉系统。其中视觉系统是最复杂的。人类从外界获得的信息中视觉信号量最大。

模仿人类的视觉系统,计算机视觉系统中信息的处理和分析大致可以分成两个阶段:图象处理阶段又称视觉处理中的低水平和中水平阶段;图象分析、理解阶段又称视觉处理中的高水平处理阶段。

二、计算机视觉研究的对象与方法(一)以模型世界为主要对象的视觉基本方法研究 这个阶段以roberts的开创性工作为标志。在roberts的工作中引入了三维物体与二维成像的关系,采用了一些简单的边缘特征提取方法并引入了组合线段的方法。这些早期的工作对视觉的发展起了促进作用,但对于稍微复杂的景物便难于奏效。

为他对三维关系的分析仅仅是靠简单的边缘线段的约束关系,并没有充分考虑人类或其他动物视觉系统感知三维空间关系的方式。(二)以计算理论为核心的视觉模型研究 20世纪70年代开始,对计算机视觉的研究进入更为理性化的阶段,主要集中于各种本征特性的恢复,包括三维形状、运动、光源等的恢复。主要出发点是从生理学、光学和射影几何的方法出发,研究成像及其逆问题。在这一阶段中,以marr为代表的一些研究者提出了以表示为核心、以算法为中间转换过程的一般性视觉处理模型。在其理论中强调表示的重要性以及从不同层次上去研究信息处理问题,在计算理论和算法实现上又特别强调计算理论的重要性。在三维信息的感知方面,根据人类感知深度的不同提出了一系列shapefromx的方法。

三、计算机视觉的应用领域

计算机视觉的应用领域主要包括对照片、视频资料如航空照片、卫星照片、视频片段等的解释、精确制导、移动机器人视觉导航、医学辅助诊断、工业机器人的手眼系统、地图绘制、物体三维形状分析与识别及智能人机接口等。

早期进行数字图像处理的目的之一就是要通过采用数字技术提高照片的质量,辅助进行航空照片和卫星照片的读取判别与分类。由于需要判读的照片数量很多,于是希望有自动的视觉系统进行判读解释,在这样的背景下,产生了许多航空照片和卫星照片判读系统与方法。自动判读的进一步应用就是直接确定目标的性质,进行实时的自动分类,并与制导系统相结合。目前常用的制导方式包括激光制导、电视制导和图像制导,在导弹系统中常常将惯性制导与图像制导结合,利用图像进行精确的末制导。

工业机器人的手眼系统是计算机视觉应用最为成功的领域之一,由于工业现场的诸多因素,如光照条件、成像方向均是可控的,因此使得问题大为简化,有利于构成实际的系统。与工业机器人不同,对于移动机器人而言,由于它具有行为能力,于是就必须解决行为规划问题,即是对环境的了解。随着移动式机器人的发展,越来越多地要求提供视觉能力,包括道路跟踪、回避障碍、特定目标识别等。目前移动机器人视觉系统研究仍处于实验阶段,大多采用遥控和远视方法。

在医学上采用的图像处理技术大致包括压缩、存储、传输和自动/辅助分类判读,此外还可用于医生的辅助训练手段。与计算机视觉相关的工作包括分类、判读和快速三维结构的重建等方面。长期以来,地图绘制是一件耗费人力、物力

和时间的工作。以往的做法是人工测量,现在更多的是利用航测加上立体视觉中恢复三维形状的方法绘制地图,大大提高了地图绘制的效率。同时,通用物体三维形状分析与识别一直是计算机视觉的重要研究目标,并在景物的特征提取、表示、知识的存储、检索以及匹配识别等方面都取得了一定的进展,构成了一些用于三维景物分析的系统。

近年来,基于生物特征(biometrics)的鉴别技术得到了广泛重视,主要集中在对人脸、虹膜、指纹、声音等特征上,这其中大多都与视觉信息有关。与生物特征识别密切相关的另一个重要应用是用于构成智能人机接口。现在计算机与人的交流还是机械式的,计算机无法识别用户的真实身份,除键盘、鼠标外,其他输入手段还不成熟。利用计算机视觉技术可以使计算机检测到用户是否存在、鉴别用户身份、识别用户的体势(如点头、摇头)。此外,这种人机交互方式还可推广到一切需要人机交互的场合,如入口安全控制、过境人员的验放等。

四、机器人视觉的发展

机器人视觉系统按其发展可分为三代。第一代机器人视觉的功能一般是按规定流程对图像进行处理并输出结果。这种系统一般由普通数字电路搭成,主要用于平板材料的缺陷检测。第二代机器人视觉系统一般由一台计算机,一个图像输入设备和结果输出硬件构成。视觉信息在机内以串行方式流动,有一定学习能力以适应各种新情况。第三代机器人视觉系统是目前国际上正在开发使用的系统。采用高速图像处理芯片,并行算法,具有高度的智能和普通的适应性,能模拟人的高度视觉功能。

在roberts之前都是基于二维的,而且多数是采用模式识别的方法完成分类工作的。roberts首先用程序成功地对三维积木世界进行解释,在之后类似的研究中,huffman。clowes以及waltz等人对积木世界进行了研究并分别解决了由线段解释景物和处理阴影等问题。积木世界的研究反映了视觉早期研究中的一些特点,即从简化的世界出发进行研究。这些工作对视觉研究的发展起了促进作用,但对于稍微复杂的景物便难以奏效。20世纪70年代中期,以marr, barrow和tenebaum等人为代表的一些研究者提出了一整套视觉计算的理论来描述视觉过程,其核心是从图像恢复物体的三维形状。在视觉研究的理论上,以marr的理论影响最为深远。其理论强调表示的重要性,提出要从不同层次去研究信息处理的问题。对于计算理论和算法实现,他又特别强调计算理论的重要性。这一框架虽然在细节上甚至在主导思想上还存在不完备的方面,许多方面还有很多争议,但至今仍是目前计算机视觉研究的基本框架。

进入80年代中后期,随着移动式机器人等的研究,视觉研究与之密切结合,大量引入了空间几何的方法以及物理知识,其主要目标是实现对道路和障碍的识别处理。这一时期引入主动视觉的研究方法,使用了距离传感器,并采用了多传感器融合等技术。

五、计算机视觉研究存在的问题 世界各国的研究者们按照marr提出的基本理论框架,对计算机视觉系统的各个研究层次进行了大量的研究,并提出了相应的解决方法,但总的来讲,这些方法都存在着一些问题,或缺乏通用性,或抗干扰能力差,或存在多解性,其原因如下:一是计算机视觉是一个逆问题,即输入图像为二维图像的灰度,它是三维物体几何特征、光照、物体材料表面性质、物体的颜色、摄像机参数等许多因素的函数。由灰度反推以上各种参数是逆问题,而这些问题大都是非线形的,问题的解不具有唯一性,而且对噪声或离散化引起的误差都极其敏感;另一个原因是marr的视觉系统框架是一个自上而下的、模块的、单向的、数据驱动型的结构。神经生理学的深入研究表明,这种结构与人的视觉系统还有很大差距,生物视觉系统的认知过程是一种与外界交互作用的有目的、主动性过程,而不仅仅是一种被动式的反应。

计算机视觉

智能视频监控系统的理论基础是计算机视觉(Computer Vision),又称为机 器视觉,它是由人类设计、在计算机环境下实现,通过模拟人的视觉系统来实 现人眼的视觉功能¨J。计算机视觉......

《视觉文化导论》读书报告

《视觉文化导论》读书报告2018.3.9 本周阅读的书籍是视觉文化知识相关类的尼古拉斯的《视觉文化导论》。在本书中,作者全面介绍了视觉文化这个新兴的跨学科研究领域。他指出,......

计算机视觉设计师简历

计算机视觉设计师简历在求职过程中,一份好的简历也能为自己在领导面前留下一个好印像。以下是小编为大家整理的计算机视觉设计师简历,欢迎阅读。计算机视觉设计师简历一基本信......

浅谈计算机视觉技术

浅谈计算机视觉随着数字多媒体技术的快速发展,人机交互成为人类生活中不可或缺的一部分。作为计算机技术的一个重要分支,计算机视觉技术近些年来得到了广泛重视,它为人机交互提......

计算机视觉设计师简历

刀豆文库小编为你整合推荐3篇计算机视觉设计师简历,也许这些就是您需要的文章,但愿刀豆文库能带给您一些学习、工作上的帮助。......

《计算机视觉读书报告.docx》
将本文的Word文档下载,方便收藏和打印
推荐度:
计算机视觉读书报告
点击下载文档
相关专题 计算机视觉讲座报告 报告 视觉 计算机 计算机视觉讲座报告 报告 视觉 计算机
[其他范文]相关推荐
[其他范文]热门文章
下载全文