澎湃Logo
下载客户端

登录

  • +1

医学图像检索:融合多尺度特征及注意力机制

2021-08-13 11:09
来源:澎湃新闻·澎湃号·湃客
字号

医学图像检索是当前图像处理技术在医学领域的重要应用,医学图像可为临床诊断提供重要影像学信息,如何解决临床医师从海量图像库中快速准确检索到所需图像是当前一项重要研究课题。

相比与传统的图像检索技术以及常规应用场景,医学影像数据集主要存在以下特征:

(1)医学图像大多数为灰度图像,边界模糊,具有噪声,对比度差,因此传统特征表示方法很难捕捉到其特征的细微差异;

(2)同一组织对于不同病人、不同模态、不同成像设备来说其影像存在一定差异,甚至同一模态不同帧之间也可能存在差异;

(3)医学图像类别分布不均匀,存在类别不平衡问题。更重要的是数据标签获取需要专业人员参与,数据标注耗费昂贵,很难得到充足的医学图像检索标注数据集。因此,对于医学图像检索的研究依旧存在巨大的挑战性。

近日,福州大学姚剑敏副研究员团队在《液晶与显示》(ESCI、核心期刊)发表了题为“融合多尺度特征及注意力机制的医学图像检索”的研究文章。

文章针对目前医学图像普遍存在病理区域尺寸分布较分散、细节特征不明显以及同类组织影像间的视觉差异较大等主要问题,提出了一种融合多尺度特征及注意力机制的医学图像检索方法。

该方法通过融合多尺度特征并设置可学习权重系数来自适应平衡浅层图像纹理特征和深层图像语义特征的关系,提高网络对不同尺度上的病理特征提取能力。同时,引入注意力模块,对网络输出的特征图进行通道加权求和,提高关键特征通道的特征表达能力,使网络更能关注到图像中的具有辨识性的病理特征区域。

1. 引言

医学影像技术日益成熟,如何有效地利用已有的医学影像数据辅助医生进行分析和诊断是目前相对有挑战性的任务。在传统的基于内容的图像检索方法中,主要利用图像的颜色,纹理和形状等特征作为检索依据,然而这类特征与人们所需要的高级语义特征存在“语义鸿沟”,所以检索性能一直受限。近年来,随着深度学习技术在各大计算机视觉比赛中取得突破性进展,其良好的特征表达能力已经在自然图像检索领域中也表现出了优异性能。因此,深度学习技术给医学图像检索带来巨大契机。

2. 系统概述

由图1中系统示意图所示,一个完整的医学图像检索系统一般包括以下三个流程:首先是数据集线下特征抽取,并组建特征矩阵库的阶段,其次是线上输入图像特征提取阶段,最后是将输入图像的特征与特征矩阵库中的特征进行相似度计算,并返回相似度排名靠前的topk图像。

3. 多尺度特征及注意力机制融合

在特征提取模块,本文选用了经典的ResNet结构,如上图2所示,我们希望通过一个深层网络来获取医学图像中深层次的语义特征。为了解决由网络加深带来的浅层网络学习不充分的问题。为此,ResNet网络提出了经典的残差块结构,即上图中的Bottleneck结构。在原始顺序堆叠的三个卷积层的基础上,通过一个跳跃连接将输入叠加到输出上。由于跳跃连接的存在,为靠近输出端得到的梯度向靠近输入端的浅层网络传递提供了可能性,避免了梯度只能经过深层网络回传引起的梯度弥散问题。图2中的残差块为优化之后的结构,原始残差块由两个3*3卷积组成,新结构通过使用1*1卷积来对特征图通道进行压缩和扩张,保证网络的精度的同时又减少了模型的参数量,加快了网络前向推理的速度。

同时,为了使网络能充分学习到不同尺度的特征,提高特征的有效性,本文在Resnet网络的基础上分别抽取Stage1、Stage3、Stage5输出的特征图,对于512*512尺寸的输入,输出的特征图尺寸分别为128*128*64、64*64*512、16*16*2048,分别对应图像的浅层纹理特征、中间层过渡特征以及深层语义特征,并输入到后续的自注意力模块中对逐层特征进行进一步通道筛选。

对于残差网络输出的不同尺度的特征图,本文通过设计一个自注意力模块来对特征图中不同通道特征进行进一步筛选,该模块的设计思路来源于非局部均值(NLM)降噪算法,NLM算法实现降噪的思路其实就是在抑制图像中的无关信息,进而使有效信息的到充分表达,基于此,我们可以将这一思想用于高维特征图的特征通道筛选任务中,从而达到抑制无关通道特征、强化关键通道特征的目的。

如图3中注意力模块结构图所示,对于输入的特征图,通过三组数量相同的1*1卷积进行通道压缩,并保留通道维度将宽高展平成一维,这里主要是为了减少输入特征图的信息冗余,同时降低后面相似度计算的复杂度。其次,对分支f(x)的特征图进行转置操作再和分支g(x)的特征图进行矩阵相乘,然后将结果经过softmax进行归一化。实际上,这就是NLM算法中的不同通道之间特征图的相似度计算。最后,将归一化输出后的注意力矩阵和分支h(x)得到的特征图进行相乘,其实就是根据相似度对不同通道进行权重重分配,再次经过softmax得到以及1*1卷积对通道扩张至输入特征图的通道数,此时输出的特征图中的关键细节特征相对于原特征图得到了更充分的表达,从而实现注意力重分配。

4. 实验结果与分析

为了验证本文方法的有效性,设置了以下对比实验,分别对比了SIFT-BoVWs、DHCNN、RAN在mura数据集上的各个指标上的表现,其中查准率及查全率采用相似度0.8为阈值,即只取相似度大于0.8的作为最终检索结果,并统计了各个模型在mura数据集上的每个类别上的mAP@100、mAP@20指标,下面是实验具体数据:

为了使检索效果得到更直观的体现,下面对同一张输入图片分别用四个模型进行检索,并得到top10检索结果如下:

图4  不同模型的检索效果图 (a) SIFT-BoVWs (b)DHCNN (c)RAN (d)Ours

为了更方便的描述上述改进点在数据集中每个类别上的提升效果,统计了实验中模型在mura数据集7个类别的mAP@100指标,下面是消融实验的具体数据:

为了使每个模块的改进更加直观,本文随机抽取了部分样本的特征进行了可视化处理,并以热力图的形式叠加到原图进行展示,下面是具体效果:

图5  消融实验效果图

引入多重损失前后在注意力图中无明显变化,这里将样本特征进行降维处理,降维到二维后,在平面图中进行展示,下图是使用多重损失前后的每类样本特征分布图:

图6  样本特征分布图 (a)原分布图 (b)优化后分布图

5. 总结与展望

针对医学图像的一些固有特征,造成现有的一些图像检索方案偏低的问题,本文提出了一种融合多尺度特征及注意力机制的医学图像检索系统优化思路。在特征提取阶段,借鉴了深度残差网络的结构设计,并融合不同层次、不同尺度的特征图,充分利用了图像的浅层纹理特征及深层语义特征,较好的缓解了不同尺度目标的特征提取问题。同时,设计了一个改进的注意力模块以适应不同尺度的特征图输出,并对所有通道特征进行权重重分配,提高了关键通道的特征表达能力,使图像中的重要细节特征更加突出。最后,在模型训练阶段,采用交叉熵损失和中心损失相结合的思路,使得各个类的样本特征在样本空间的分布更加合理,进一步提高了模型的检索精度。

在本文的基础上,可以从以下方面做进一步的研究:

1、可以尝试使用多模态的数据集,比如CT、MRI、X-ray图像组成的数据集来训练模型对于不同形态数据的适应能力,提高模型的通用性。

2、可以在保证检索精度的前提下,尝试从模型量化、剪枝、蒸馏等方向来对模型检索耗时做进一步优化,提高模型在高并发场景下的响应速度。

论文信息:

周林鹏, 姚剑敏, 严群, 等. 融合多尺度特征及注意力机制的医学图像检索[J]. 液晶与显示, 2021, 36(8):1174-1185. DOI:10.37188/CJLCD.2020-0248

论文地址:

http://cjlcd.lightpublishing.cn/thesisDetails#10.37188/CJLCD.2020-0248

论文传送门在此,请进>

作者简介:

姚剑敏,博士,副研究员,2005年于中科院长春光学精密机械与物理研究所获得博士学位,主要从事人工智能、图像处理、信息显示技术等方面的研究。
E-mail: yaojm@fzu.edu.cn

周林鹏,硕士研究生,2018年于江西理工大学获得学士学位,2021年于福州大学物理与信息工程学院获得硕士学位,主要从事深度学习、图像处理方面的研究。
E-mail:961031645@qq.com

编辑 | 赵阳

欢迎课题组投递成果宣传稿

转载/合作/课题组投稿,请加微信:447882024

带您每天读1篇文献!加入>Light读书会

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈