视觉计算理论

贡献者:星晨炼 类别:简体中文 时间:2021-02-26 17:11:46 收藏数:9 评分:0
返回上页 举报此文章
请选择举报理由:




收藏到我的文章 改错字
物体识别是人们日常生活中必须的一种认知能力。
人类的适应性能力,比如寻找食物、绕过障碍物等,都需要物体识别的参与才能正常进行。
视觉系统是如何从视网膜上的二维图像构建出对三维世界的表征,并识别出其中的物体呢?
物体识别的两个理论,视觉计算理论和部件识别理论。
视觉计算理论,
是由计算神经科学之父戴维德.马尔(David Marr)提出的。
Marr是1945年出生于英国的埃塞克斯(Essex),先后获得了剑桥大学的数学学士学位和神
经科学博士学位。
之后到麻省理工学院工作,于1980年患白血病去世。
他的遗著《视觉》与1983年经其学生整理由麻省理工学院出版社出版,至今仍然被认为是视
觉领域最重要的著作。
视觉计算理论的核心思想是:
计算机解决视觉信息加工问题的过程,即利用计算机程序模拟视觉系统如何对网膜映像,进
行分析构建外部三维世界,并识别其中物体的过程。
网膜映像是知觉的起点,它可以提供充分的输入信息。
Marr提出对网膜映像进行序列分析的三个水平的表征,按顺序进行分别为:
初级简图、次级简图和三维模型。
初级简图表征网膜像中包含多种光刺激的强度分布,这一表征的目标是为了捕获网膜映像中
光线强度的急剧变化,也就是捕获边界和棱角的过程,是对光的强度变换进行二维的描述。
次级简图加工始于初级简图的加工。
这一表征,利用阴影、纹理、运动、双眼视差等信息,对可视表面的深度、方位进行描述。
其目标是确定轮廓和结构在视觉环境中相对于观察者的方向和深度。
以观察者为中心看到的环境轮廓,Marr称其为以观察者为参照点的表征。
三维模型表征:
从次级简图表征中抽取出轮廓和结构,并转换成描述物体形状的三维特征及相对位置。
这是观察者获得的是关于视觉世界3D模型表征,独立于任何特定的观察位置和方向,能够识
别特定的物体及相互关系,也称为视点独立的模型表征。
Marr及其学生在1978年提出,用来描述物体的初始单元应该是一些具有一根主轴的圆柱体。
这些原始单元分层组织,其中高水平的单元提供的物体形状的信息,低水平提供的是更具体
的信息。
不管观察位置如何,一个物体的主轴通常都比较容易确认,但其他特征就不那么容易确认了。
物体识别实际上就把构建出来的三维模型表征与记忆中的三维模型表征比较的过程。
为了实现这一点,观察者必须鉴别出视觉刺激的主轴,凹陷区与基于轴心的表征具有重要意
义。
视觉计算理论与其他自下而上的理论,比如特征理论不同,它把知觉理论描述为视觉系统执
行一系列加工阶段的计算。
每个阶段负责分析、解释隐含在网膜映像当中的某些方面的信息,然后传递到下一个,强调
视觉系统的工作流程,就像计算机程序一样。
以计算机程序模拟分析视觉世界的物理特征的方式,来阐述知觉,而不是直接说明视觉系统
和大脑是如何分析加工感觉输入的。
声明:以上文章均为用户自行添加,仅供打字交流使用,不代表本站观点,本站不承担任何法律责任,特此声明!如果有侵犯到您的权利,请及时联系我们删除。
文章热度:
文章难度:
文章质量:
说明:系统根据文章的热度、难度、质量自动认证,已认证的文章将参与打字排名!

本文打字排名TOP20

登录后可见