1、PDF外文:http:/ 5600 字 出处: Neural Networks, 1993., IEEE International Conference on. IEEE, 1993: 1612-1617 场景分析中的神经网络视觉计划表示 Representing Visual Schemas in Neural Networks for Scene Analysis 概要: 在神经网络系统中把简单场景中的对象识别作为任务的研究集中在两个主要的问题上:第一个问题是利用有限的资源处理大量的输入;第二个问题是表示和利用结构化的知识。第一 个问题的出现是由于没有一个实用的神
2、经网络可以同时高效地处理所有的可视化输入。解决这个问题的办法是并行地处理比较小的输入,并且连续地处理输入的其他部分。为了能够描述和翻译收集来的前后相继的信息,这个策略需要系统维护一个结构化的知识。 被提议的系统 VISOR由两个主要的模块组成。低层可视化模块 (Low-Level Visual Module)从可视化输入中提取特征和位置信息。计划模块 (Schema Module)把可能的对象的可视化知识编码,并且为低层可视化模块提供自上而下的信息,以便把注意力集中在场景中互不相 同的部分。通过和低层可视化模块的协力合作,计划模块建立了一个对于收集到的前后相继的可视化信息的全局一致
3、的翻译。 介绍 考虑在简单场景中对象识别的任务。一个场景分析系统不得不识别场景中的对象(比如一张弓和两棵树 )并且识别出场景所描绘的到底是什么。在设计一个执行以上所描述的功能的神经网络系统的过程中,我们遇到了两个基本的问题: 1 怎样能使得一个固定的,有限的神经网络能够处理无限的信息? 2 怎样能使得一个神经网络能够表示和利用已有的结构化知识? 实际上,在许多神经网络应用领域我们都遇到了以上所描述的两 个问题,例如在语言理解和自然语言处理领域。这个研究的目的就是把场景分析作为一个具体的任务,针对这些问题发展一些通用的
4、方法。 我们现在来考虑第一个问题:有限的处理资源 。在实践中,我们只可能建立一个拥有固定数量的输入单元和内部处理单元的神经网络。权重和行为拥有有限的精确度并且被限制在某个范围之内。输入单元的数量可能比场景的型号要小。尽管网络可以一次捕捉一个场景的很大一部分,但是它不可能并行地处理所有的信息除非它有指数级的单元和线路。唯一可行的选择是并行地处理视觉输入的一个小部分,并且相继地处理这个场景的不同部分 。这个场景同样地应用在生物视觉系统中。 因为网络是固定的和有限的,它不可能为无限的输入信息提供足够的存储空间。它应该为目前已经收集到的信息建立和维护一个局部的翻译。基于已收集到
5、的信息,它估计出输入特征属于某个已知对象的可能性。随着更多的信息被接收,它加强或者削弱先前做出的估计。他不停地处理场景的其他部分直到 收集够足够的信息来建立一个一致的翻译。每个局部翻译都和网络的一个稳定的中间状态相对应。 采用这个策略的系统,为了能做 出翻译,都需要一个在心理研究上通常被称作计划的内部模块。 因此第一个问题的解决方法需要让神 经网络编码计划,或者更普通的,我们叫做结构化知识;也就是说,第一个问题的解决需要引用第二个问题。一个解决问题的办法是在神经网络中象征性地 表示这样的知识。这个方法在可以很好地使用于简单场景,但是对于更为复杂的系统它没有普遍的适应性。神经网络并不
6、擅长于直接处理符号。但是,他们对特征提取,联想,限制性满足,模式分类和其它的一些模糊决定很在行。这些任务通过神经过程得到执行,就象单元和网络间的合作和竞争。 VISOR(Visual Schemas for Object Representation)是被设计用来在对象 识别和场景分析领域解决上文所述的两个基本问题的。 简化工作可是让我们把精力放在核心问题上 计划的学习和表示。在这个工程中要考虑的场景是由对象组成的,而对象是由直线和一些简单的图形(例如矩形和三角形)组成的。描述对象和场景的知识包括四个位置关系(左,右,上,下)和一个层级关系(属于)。这样的知识可以很方便地被编码成地
7、图和单元之间的联系。除去简化任务,这个研究的目的是得 到 可以适用于更复杂的场景和任务的通用的解决方法。 相关工作 umelhart et al 提出了一个通用的方法,可以用 PDP模式编码概念上 的计划。计划的单个组件,比如沙发,床,浴缸和洗手间被表示成一个网络内的不同单元。两个单元之间联系的权重表示这两个组件在一个计划内出现的可能性 ,并且网络的行为模式把一个计划的实例编码。这个网络不编码计划间的层级关系。 Hinton 描述了三种表示层级知识的方法。其中第二中方法和 VISOR中曾经用过的一种方法很相似。网络里的很多单元被组织成不同的层
8、。层级越高,该单元所表示的对象也就越复杂。表示对象组件的较低层次的单元被连接到表示对象本身的较高层次的单元。 Norman和 Shallice的认识模型偏重于对计划的激 活和控制。在这个模型,指定域的行为计划和思考计划可以被独立地激活。将要被运行的计划的一个小的子集是由两个被称作争论调度 (Contention Scheduling)和监督注意系统 (Supervisory Attentional System)的不同的进程选出的。争论调度是一个指定域的进程,类似于传统人工智能系统中的冲突解决。它通过指定域的简单标准来选取计划。监督注意系统 是一个在每个域上运行计划的通用规划系统。
9、它通过偏置争论调度的操作来控制计划的激活。 VISOR中计划的激活和控制类似于争论调度进程。 VISOR的成就 在低层 VISOR是把“干什么”和“在哪里”分开处理的(如图 1所示)。它由低层视觉模块和计划模块组成。 低层视觉模块(图 1b)一次处理场景中的一个位置上的信息,提取出这个位置的特征信息(线,矩形或者三角形)。作为输出,特征池( Feature Cells)表明了低层视觉模块判断出现某个确定特征的可能性(图2)。相对关系图( The Relative Position Maps)用不同的比例编码这些特征的相对位置。 举个例子,假设部分场景包含一
10、个弓和两棵树(图 1a)。同样假设现在系统的注意力集中在弓的三角 形的底部。在精确模式,相对关系图识别出三角形位于两个矩形之上,并在图的顶端给出一个蜂值回应(图 1d)。在粗糙模式下, 相对关系图识别出组成弓的特征黑点位于组成两棵树的黑点的中间,并在图的中间就给出一个峰值回应(图 1e)。在比视网膜大的模式中,必须考虑眼球的位置。 计划模块(图 1a)维护计划的层次,整合连续的输入信息,决定下一个要处理的位置。它由两个主要的神经网络组成:计划层次网( Schema Hierarchy Net)和变化选择网( Shift Selection Net)。计划层次网是计划表示网的一个多层
11、网络,或者可以说是计划网的简明模式(图 2)。 一个计划网由四个主要的部分组成:输出单元,子计划行为图( Sub_schema Activity Map),当前位置图( the Current Position Map)和可能位置图( the Potential Position Maps)。在详细地描述这些组件之前,我们先来看看在计划层次网中计划是怎么样表示的。 计划网中的每一层都对应于计划层次中的一个层。一个计划网既可以作为一个高层计划的子计划也可以作为一个低层计划的父计划。 第一层计划的子计划由特征池( the Feature Cells)组成。 SHN的连通性
12、编码计划之间的局部和整体的关系。举个例子,我们考虑弓的表示。如图 2b所示,一张弓由三个部分组成:一个三角形的顶,和两个矩形的柱。 弓上有层次感的格子在弓计划网络中表示子计划行为图( the Sub_schema Activity Map)。黑点表示图中组件的位置。例如,三角形在弓的中上部。和每个黑点对应的,在特征池和 SAM单元之间有一条连线。连线表示在 SAM单元的位置特征是弓计划的一个组件。 SAM单元的行为表示子计划出现在场景中的可能性。这些行为可能随着从场景中提取出的信息不断增多而改变。 SAM可以有效地编码一个计划当前信息的摘要。 除了在 SAM中被编码的动态信息外,保留计划的静态结构信息是很有必要的,这样系统可以决定下一步要集中处理什么。这样的信息存储在可能位置图( Potential Position Map)。 PPM单元中的一个高级动作表明一个子计划被期望发生于与之对应的位置。 当前处理的位置被存储在当前位置图( the Current Position Map)中,被图中单个活跃单元的位置 编码。 每个 CPM单元都以乘法的关系连接到 SAM单元的相应位置上。如果一个 CPM单元正在运行,则相应的 SAM单元的行为是最新的。否