1 引言
轮廓含有图像重要的视觉特征, 因此, 轮廓提取是计算机视觉研究领域重要的研究方向, 旨在对图像主体形状等中层视觉信息的提取[1], 其研究难点在于如何有效地检测出轮廓信息, 提取到主体轮廓的同时尽可能减少背景纹理边缘信息, 减少冗余信息, 有效降低图像分析和处理的时间复杂度, 对图像的后续处理具有重要意义.
目前, 轮廓提取方法大多基于传统的边缘提取方法, 如基于图像灰度变化提取图像轮廓, 常用的有基于Canny算子[2]、Sobel算子[3]、Prewitt算子[4]、Roberts算子[5]等, 这类方法实现过程较简单, 针对背景简单的图像具有较好的效果, 但处理背景较复杂的图像时, 其效果不尽人意, 提取出的主体轮廓带有很多背景边缘. 因此, 针对这一问题, 研究人员受到生物视觉信息处理机制的启发, 提出了一系列模拟生物视觉感受野机制的轮廓提取方法. 如: Rodieck等人[6]基于高斯差分函数模拟视网膜神经节细胞的同心圆式感受野, Marcelja等人[7]采用一维Gabor滤波器来模拟具有方向选择特性的非对称性感受野; Daugman等人[8, 9]使用二维Gabor滤波器[10]来模拟视皮层简单细胞的感受野特性. 20世纪80年代, 李朝义院士发现了除经典感受野外[11] , 还存在着外周更大的非经典感受野来调节经典感受野的结果, 随后, Grigorescu等人[12]将非经典感受野的抑制作用引入轮廓提取任务中, 构建了各向异性抑制和各向同性抑制的计算模型; 桑农, 曾驰[13–15]等人提出了蝶形感受野结构的非经典感受野抑制算法, 杨开富提出了基于多特征的提取算法(MCI)[16]. 和基于边缘检测的轮廓提取方法相比, 基于视觉信息处理机制的方法能够较好地抑制背景边缘, 有效提取主体轮廓.
本文基于视觉神经元信息处理机理, 提出了一种基于时空脉冲编码的图像主体轮廓提取方法. 从视觉系统的感知机理模拟视觉感受野及视觉神经元信息编码机制提取图像主体轮廓. 首先, 利用Gabor函数模拟视觉神经节细胞感受野对图像进行多尺度、多方向特征提取; 然后, 采用各向异性抑制模型来模拟非经典感受野对特征进行初步抑制其背景、纹理和边缘. 同时对不同尺度感受野得到的特征进行小尺度细节特征提取, 大尺度主体轮廓提取, 进而进行时空脉冲编码. 最后, 采用漏积分点火神经元计算模型提取图像主体特征, 并使用非极大值抑制和滞后阈值二值化处理提取图像主体轮廓.
2 基于时空脉冲编码的图像主体轮廓提取方法
受到视觉神经元信息处理机理启发, 本文根据视觉系统信息处理机制及神经元信息传递流程, 提出了基于时空脉冲编码的图像主体轮廓提取方法, 其总体框架如图1所示.
图 1 本文方法总体框架
2.1 各向异性抑制模型
生物视网膜的视觉神经节细胞感受野具有明显的方向选择性[17], 经典感受野可以识别不同方向的边界信息. 二维Gabor滤波器可以很好地实现经典感受野的方向选择性, 所以本文我们使用二维Gabor滤波器来模拟简单视觉神经节细胞感受野[9, 10], 二维Gabor滤波器核函数见式(1).
$ \left\{ {\begin{split} &g(x, y\lambda , \sigma , \theta , \varphi ) = \exp \left(\frac{{{{\widetilde {x^2}}} + {\gamma}^2 {{\widetilde {y^2}}}}}{{2{\sigma ^2}}}\right) \cos \left( 2\pi \frac{{\tilde x}}{\lambda } + \varphi \right)\\ &\tilde x = x\cos \theta + y\sin \theta\\ &\tilde y = - x\sin \theta + y\cos \theta \end{split}} \right. $
(1)
其中, 参数
$ \gamma $
为空间纵横比, 它决定了感受野的椭圆度, 本文中
$ \gamma = 0.5 $
. 参数
$ \sigma $
为高斯函数的标准偏差, 决定了感受野的大小. 参数
$ \lambda $
是余弦因数的波长, 而
$ 1/\lambda $
是余弦因数的空间频率. 比率
$ \sigma /\lambda $
决定了空间频率带宽, 它决定了在接收场中可以观察到的平行的兴奋性和抑制性条带区域的数量, 在本文中比率的值固定为
$ \sigma /\lambda = 0.56 $
. 角度
$ \theta \in (0, \pi ) $
它决定了感受野的朝向. 参数
$ \varphi $
, 是确定对称性的相位偏移, 本文我们取
$ \varphi = 0 $
和
$ \varphi = - \pi /2 $
来构成奇偶滤波器模拟简单细胞感受野.
根据卷积定理, 简单神经节细胞感受野函数与输入的图像
$ f(x, y) $
的响应
$ r(x, y\lambda , \sigma , \theta , \varphi ) $
是二者的卷积, 见式(2).
$ r(x, y\lambda , \sigma , \theta , \varphi ) = f(x, y) * g(x, y\lambda , \sigma , \theta , \varphi ) $
(2)
在计算机视觉中使用的简单视觉神经节细胞奇对称感受野滤波器、偶对称感受野滤波器的响应模, 即先平方求和后再开方, 来捕捉典型复杂视觉神经节细胞的基本特性[18], 复杂视觉神经节细胞响应见式(3).
$ {E_{\sigma , \lambda , \theta }}(x, y) = \sqrt {r_{\sigma , \lambda ,\theta , 0}^2(x, y) + r_{\sigma , \lambda , \theta ,- \frac{\pi }{2}}^2(x, y)} $
(3)
感受野方向的计算见式(4).
$ {\theta _i} = \frac{{(i - 1)\pi }}{{{N_\theta }}}, \begin{array}{*{20}{c}} {}&{} \end{array}i = 1, 2, \cdots , {N_\theta } $
(4)
非经典感受野主要是对经典感受野输出结果做调制, 表现为抑制作用或兴奋作用. 本文使用DOG函数来模拟非经典感受野, 函数见式(5).
$ \begin{split} &DOG(x, y)\\ &=H\left(\frac{1}{2\pi {(k\sigma )}^{2}}\mathrm{exp}\left(-\frac{{x}^{2}+{y}^{2}}{2{(k\sigma )}^{2}}\right) - \frac{1}{2\pi {\sigma }^{2}}\mathrm{exp}\left(-\frac{{x}^{2}+{y}^{2}}{2{\sigma }^{2}}\right)\right) \end{split} $
(5)
其中,
$ H(x) $
为一个取正运算函数, 当
$ x > 0 $
时
$ H(x)=x $
, 当
$ x \leqslant 0 $
时
$ H(x)=0 $
. k是中心高斯函数标准差与外周标准差的比率, 它代表非经典感受野与经典感受野之间的大小关系. 因为非经典感受野的尺寸一般为经典感受野的2–5倍[18, 19], 所以本文取k=4. 非经典感受野模型的距离加权函数见式(6).
$ {W_{DOG}} = \frac{{DOG(x, y)}}{{\left\| {DOG(x, y)} \right\|}} $
(6)
其中,
$ \left\| \cdot \right\| $
表示
$ {L_1} $
范数.
这里本文使用各向异性抑制非经典感受野抑制模型, 抑制项是由各个方向的复杂细胞感受野得到的响应与加权函数卷积得到, 见式(7).
$ T_{\sigma , \lambda , {\theta _i}}^A(x, y) = {E_{\sigma , \lambda , {\theta _i} }}(x, y) * {w_\sigma }(x, y) $
(7)
利用复杂细胞感受野得到的响应减去抑制项就可以得到各个方向抑制之后的结果, 见式(8).
$ \tilde b_{\sigma , \lambda , {\theta _i}}^{A\alpha }(x, y) = H({E_{\sigma , \lambda , {\theta _i}}}(x, y) - \alpha T_{\sigma , \lambda , {\theta _i}}^A(x, y)) $
(8)
其中,
$ \alpha $
是非经典感受野抑制作用的强度系数,
$ H(x) $
为一个取正运算函数.
之后从同一个尺度, 每一个像素点位置挑选最大的响应方向作为该像素点的响应见式(9).
$ b_{\sigma , \lambda }^{A\alpha }(x, y) = \max \left\{ {\tilde b_{\sigma , \lambda , {\theta _i}}^{A\alpha }(x, y)} \right.|i = 1,2, \cdots , {N_\theta }\left. {} \right\} $
(9)
记录每一个像素位置最优方向, 见式(10).
$\left\{ { \begin{split} &{\Theta ^A}(x, y) = {\theta _k}\\ &k = \arg \max \left \{ \tilde b_{\sigma , \lambda , {\theta _i}}^{A\alpha }(x, y)|i = 1,2, \cdots , {{N_\theta }} \right \} \end{split}} \right. $
(10)
2.2 时空脉冲编码
经典感受野有固定的最优朝向, 当图像局部边缘朝向与感野朝向相同时, 经典感受野的响应最大. 在实际中, 图像轮廓和纹理在不同尺度上具有不一致性. 生物实验表明视觉系统的感知机制并非建立在单一的感受野尺度上, 视觉感受野的适应性与多尺度特征融合有着明确的关系. 所以本文使用多尺度多方向的简单视觉神经节细胞感受野函数来对图像进行卷积计算, 并计算复杂视觉神经节细胞感受野响应, 然后进行非经典感受野各向异性抑制, 得到不同尺度感受野的提取结果.
生物研究表明, 生物视觉感受野具有基于小尺度视觉感受野可以提取到图像的大多细节特征, 而大尺度感受野下提取会使图像大部分细节特征消失只保留一些主体轮廓特征[20]. 为了验证这一特性, 本文在这里使用了二维Gabor函数来模拟生物视觉感受野, 通过调整参数
$ \alpha $
来改变感受野尺度的大小, 然后对自然图像进行轮廓的提取, 结果如图2所示.
从图2结果可以验证上述生物特性, 从长条形框的对比可以看出在小尺度下, 提取出的细节特征很丰富, 在大尺度感受野下会丢弃一些细节特征. 从方形框的对比可以看出在大尺度感受野下虽然丢弃了一些细节和背景纹理特征但是有一些主体轮廓特征也被丢弃. 所以基于这个特性, 本文以大尺度感受野得到的主体轮廓特征为主, 以小尺度感受野得到的细节特征为补充进行融合, 在保留主体轮廓特征的同时尽可能地保留细节特征, 抑制背景特征.
图 2 不同尺度感受野对于图像的提取结果对比
图 3 脉冲时序编码与LIF神经网络
本文根据各视觉感受野尺度的不同, 利用高斯函数求得不同尺度的权重见式(11), 权重越大说明该尺度下轮廓特征越重要, 然后利用各权重与各尺度图像相乘得到结果, 见式(12).
$ {w_k} = \exp \left( - \frac{{{{(k - \mu )}^2}}}{{2{r^2}}}\right),\begin{array}{*{20}{c}} {}&{}&{k = 1,2, \cdots ,N} \end{array} $
(11)
其中, k为不同尺度感受野的个数, 1为尺度最大的感受野, N为最小尺度的感受野,
$\; \mu $
为高斯函数的中心轴,
$ r $
为高斯函数的标准差. 本文取
$ \;\mu = 0.9 $
,
$ r = 1 $
.
$ {B_{{\sigma _k}}} = b_{{\sigma _k}\lambda }^{A\alpha }(x, y) \times {w_k},\begin{array}{*{20}{c}} {}&{}&{k = 1,2, \cdots , N} \end{array} $
(12)
最后将得到的结果各个尺度, 相同位置像素点组合起来, 编码为一个时间脉冲序列见图3.
2.3 图像主体轮廓提取
生物研究表明在视觉信息传递的过程中, 视觉系统会对视觉信息作整合与去冗余处理. 所以本文采用LIF神经元组成的神经网络来模拟视觉信息在不同视觉细胞之间的传递过程, 在信息传递的过程中利用LIF神经元脉冲发放特性, 以脉冲发放频率对视觉特征进行时空脉冲编码, 减少非主体轮廓特征的冗余, 同时充分体现了视觉系统中的神经电生理特性, LIF神经元模型见式(13).
$\left\{ { \begin{split} &{c_{mt}} \frac{{dv}}{{dt}} = - {g_l} + {I_{\text{in}}},\;\;\;\;\;\;\;\;\;ref = 0\\ &v = {v_{\text{reset}}}, ref = ref - 1,\;\;ref \ne 0\\ &v = {v_G},ref = const,\;\;\;\;\;\;\;\;\;\;v > {v_{th}} \end{split} } \right.$
(13)
其中,
$ v $
,
$ {c_{mt}} $
,
$ {g_l} $
,
${v_{\rm{reset}}}$
,
$ v $
,
$ {v_G} $
,
$ {v_{th}} $
分别表示神经元的 膜电压、膜电容、漏电导、静态电势、脉冲发放峰值以及脉冲发放阈值,
${I_{\rm{in}}}$
对应上一级轮廓响应. ref是绝对不应期. 当
$ v $
大于
$ {v_{th}} $
时, 神经元将会发放脉冲;当
$ v $
到达
$ {v_G} $
时, 它被瞬间重置为
${v_{\rm{reset}}}$
. 开始进入绝对不应期, 等到ref=0, 神经元才被重新激活.
建立一个和图像尺寸相同的脉冲神经网络, 将2.4得到的时空脉冲序列输入到脉冲神经网络中, 得到最终每个神经元的脉冲发放频率作为最终的结果. 截取某个部分的神经元的脉冲发放如图4所示.
图 4 网络中一小部分神经元的脉冲发放图
得到结果以后利用非极大值抑制做细化处理, 用滞后阈值法做二值化处理, 得到最终的提取结果.
3 实验结果与分析
3.1 参数选取
本文使用Gabor能量[9, 10], 各向同性抑制[12], 各向异性抑制[12] , MCI[16]作为对比方法. 参数设置如下: 4个感受野尺度
$ \sigma = \left\{ {1.2, 1.6, 2.0, \left. {2.4} \right\}} \right. $
, 2个非经典感受野纹理抑制系数
$ \alpha = \left\{ {1, 1.\left. 2 \right\}} \right. $
, 5个滞后阈值百分比
$ p = \{ 0.1, $
$ 0.2, 0.3, 0.4, 0.5 \} $
. 同时对于本文提出的方法使用5个脉冲神经元阈值
$ {v_{th}} = \left\{ {0.7, 0.9, 1, 1.2\left. {, 1.4} \right\}} \right. $
.
3.2 性能评价指标
本文使用RUG40图像库[12]的40幅512 × 512 像素大小的典型自然场景图像组合形成实验测试样本集. 每幅测试图像都有一张人工绘制的基准轮廓图(ground truth), 主观上用于评价轮廓提取方法的有效性.
$ {E_{GT}} $
为标准的参考轮廓图, 是综合多次人工勾画的轮廓而获得的与原始图像具有最多认同度的轮廓.
$ {B_{GT}} $
为参考图像的非轮廓区.
$ {E_D} $
表示算法模型检测出来的轮廓图.
$ {B_D} $
表示算法模型检测出来的非轮廓区.
$ E $
为算法模型检测结果, 为
$ {E_D} $
和参考轮廓图
$ {E_{GT}} $
的重叠部分, 即
$ E = {E_D} \cap {E_{GT}} $
.
$ {E_{FN}} $
表示漏检的轮廓像素点集合, 也就是应该是轮廓却未被检测出来, 即
$ {E_{FN}} = $
$ {E_{GT}} \cap {B_D} $
.
$ {E_{FP}} $
表示错检的轮廓像素点集合, 也就是不是标准轮廓的像素点被当做轮廓检测出来, 即
$ {E_{FP}} = $
$ {E_D} \cap {B_{GT}} $
.
客观评价方面, 选取常用的图像轮廓提取方法客观评价指标
$ P $
值[12]. 其中, 准确率
$ P $
为算法模型检测出来的正确轮廓E与检测出来所有的像素之比. 所有的像素点有: 检测出来的正确轮廓
$ E $
的像素点、错检的轮廓
$ {E_{FP}} $
的像素点和漏检的轮廓
$ {E_{FN}} $
的像素点. 准确率见式(14).
$ P = \frac{{card(E)}}{{card(E) + card({E_{FP}}) + card({E_{FN}})}} $
(14)
$ card(S) $
表示一幅图像的所有像素集合S的元素个数.
$ P $
值可以定量评价检测算法的有效性,
$ P $
值越高表明模型轮廓检测效果越好, 反之则越差. 同时像素的错检率与漏检率也可以体现算法的效果, 见式(15).
$ \left\{ {\begin{split} &错检率:{e_{fp}} = \frac{{card({E_{FP}})}}{{card(E)}}\\ &漏检率:{e_{fn}} = \frac{{card({E_{FN}})}}{{card({E_{GT}})}} \end{split}} \right. $
(15)
RUG40数据集的主观评价结果见图5, 客观评价结果见表1, 盒须图见图6.
3.3 其他数据集实验
为了对本文方法做更好的验证, 这里使用同样的对比方法, 使用的参数与第3.2节相同, 对自己拍摄的生活中的图片进行主体轮廓的提取. 最后对于各方法得到的主观最优结果如图7所示.
3.4 分析与讨论
从图5主观对比结果可以看出, 本文提出的方法可以有效地抑制背景纹理边缘信息并且很完整突出主体轮廓信息. 从goat_3、hyena、golfcart几张图的结果可以看出本文方法对比Gabor能量、Anisotropic和Isotropic方法对细节的提取更加准确完整方法, 得到的主体轮廓纹理更加显著、连续. 对比MCI方法, 虽然对图像主体轮廓有漏检的部分, 但是对大部分的主体检测的很准确, 并且对背景纹理边缘的抑制效果明显. 对于buffalo虽然主观上看对主体轮廓提取的结果不是非常的明显, 但是对比前3种方法可以明显地看出对于背景纹理边缘的抑制效果很明显.
图 5 主观提取结果
从表1客观结果可以看出. 本文方法对比其他的主流方法可以很好地同时降低漏检率和错检率, 并且控制漏检率与错检率的平衡, 有效提高检测的准确率, 有效地使主体轮廓提取结果更加显著.
盒须图中盒体的长度越短代表方法的鲁棒性越好. 从图6中的goat_3、hyena中的P值对比可以看出本文的P值均值都大于其他方法的最大P值, 本文方法的最小P值和其他方法的最大P值基本相同. 同时从goat_3、hyena、golfcart中可以看出本文算法得到的P值盒体短于其他方法得到的盒体结果, 这就说明本文的方法相对于其他主流方法鲁棒性更好. 对于图buffalo虽然效果不如MCI方法, 但明显优于前3种方法.
从图7对于自己拍摄的几张图片中各方法的提取结果来看. 对于甜点这张图的提取对比前3种方法, 有效地抑制了桌面的纹理, 同时对甜点轮廓的提取非常精确, 对比MCI算法对主体上的纹理有更好的抑制效果. 对于人物这张图虽然对人物面部的细节提取不如前3种方法, 但是对人物主体轮廓提取很准确, 以及人物前面的食物轮廓提取也很准确. 对于工具这虽然有些主体边缘没有检测出来, 但是大部分的主体轮廓检测得更加精确, 对比其他方法对细节的提取更加准确完整, 对主体的轮廓提取更加准确.
表 1 图5中各图像的客观评价结果(准确率P、漏检率eFN、错检率eFP)
图 6 各图像轮廓提取方法得到结果的盒须图
图 7 在自己拍摄的几张图片中各方法得到的主观最优结果
4 结论
本文基于视觉神经元信息编码机制, 提出了一种基于时空脉冲编码的图像主体轮廓提取方法, 模拟生物视觉对于图像的编码过程. 基于生物视觉感受野小尺度提取细节特征更多, 大尺度提取主体轮廓特征更多的特性对多尺度视觉感受野得到的结果进行权值调整, 并利用LIF神经元模拟视觉信息传递过程对多尺度视觉感受野提取到的轮廓结果进行融合, 实现了主体轮廓的提取和背景纹理边缘的抑制. 通过与Gabor、Anisotropic、Isotropi、MCI四种主流方法对比, 本文方法可以有效地降低漏检率与错检率, 同时保持漏检率与错检率的平衡, 提高了方法的鲁棒性. 有效提取主体轮廓, 抑制了背景、纹理和边缘信息.