胶囊网络在跌倒行为识别方面具有一定的应用潜力。Hinton 老爷子首先提出了胶囊网络的基础概念,胶囊的输出通常为某个特征的概率及特性,这个概率和特性被称为实例化参数,代表着网络的等变性。这种等变性使得网络能够有效识别姿势、纹理和变化。比如,用 CNN 模型识别人脸时可能会将眼睛和鼻子位置颠倒的图片识别为人脸,但胶囊网络的等变性会保证特征图中位置的信息。
胶囊网络中的 Transforming Auto-encoders 是第一个被发表的胶囊网络,其提出是为了增加网络识别姿态的能力,主要目标不是在图像中做物体识别,而是从输入图像中提取姿态然后以原始姿态输出变换后的图像。向量形式的胶囊首次在此被提出,其输出的向量既代表特征存在的概率又含有实例化参数。
胶囊可分为不同层级,低层的叫初级胶囊,高层的叫高层胶囊。低层胶囊从像素中提取姿态参数并创建部分-整体的层次结构,通过对部分的识别得到对整体的识别。低级别胶囊所代表的特征必须具有正确的空间关系,才能在高层激活高级别胶囊。例如,让眼睛和嘴巴用较低水平的胶囊表示,如果它们的预测一致,一个代表人脸的高水平胶囊会被激活,从而模型能做出正确的判断。Hinton 在 2011 年的论文中介绍了这种方法的一个简单例子。
胶囊的输出通常为某个特征的概率及特性,这个概率和特性通常被叫做实例化参数。而实例化参数代表着网络的等变性,它使得网络能够有效的识别姿势,纹理和变化。比如,如果用CNN模型去识别一张脸,模型会将一张眼睛和鼻子位置颠倒的图片识别为人脸,但是,胶囊网络的等变性会保证特征图中位置的信息,因此,具有等变性的胶囊网络会在识别人脸时不仅考虑眼睛鼻子的存在,还会考虑它们的位置。Hinton首先提出了胶囊网络的基础概念,然后其余的作者又在此基础上做了其他的改进和应用。接下来的章节,我会对多个版本的胶囊网络进行详细的介绍。一:胶囊网络的基础概念(1)Transforming Auto-encoders第一个被发表的胶囊网络即为Transforming Auto-encoders[2]。它的提出是为了增加网络识别姿态的能力,其主要目标不是在图像中做物体识别,而是从输入图像中提取姿态然后以原始姿态输出变换后的图像。在这篇文章中,向量形式的胶囊首次被提出,其输出的向量既代表特征存在的概率又含有实例化参数。同时,胶囊也可分为不同的层级:低层l的可以叫做初级胶囊,高层l+1的可以叫做高层胶囊。低层胶囊从像素中提取姿态参数并且创建一个部分-整体的层次结构。这种部分-整体的层次结构是胶囊网络的一个优点,通过对其部分的识别,可以得到对整体的识别。要做到这一点,低级别胶囊所代表的特征必须具有正确的空间关系,才能在l+1层激活高级别胶囊。例如,让眼睛和嘴巴用较低水平的胶囊表示,如果他们的预测一致的话,一个胶囊代表人脸的高水平胶囊的会被激活,从而模型能做出正确的判断。Hinton在2011年的论文中介绍了这种方法的一个简单例子,如图2所示。