一、深度学习的发展和方法
深度学习在计算机视觉方面的发展十分曲折,历经多次浮沉。直到2012年AlexNet在ImageNet数据集上的图像分类竞赛中取得了冠军,而且Top-5的错误率较上一年惊人地下降了10个以上的百分点,得到了学术界的普遍认可并高度关注。自此之后,深度学习的发展十分迅速,大量的深度学习相关的论文被发表,基于深度学习的应用也遍地开花。尽管深度学习还有许多地方需要探索和解决,但是这并不妨碍深度学习成为AI领域最具潜力的技术。
图1 图像两段式处理
在深度学习未出现之前,传统方法对图像分类、目标检测等问题的解决方案一般是经典的两段式,即图像特征表示以及基于特征的分类器学习。
然而这种传统方法在极大程度上依赖于手工设计特征,缺乏良好的鲁棒性的同时,也无法在更高层次上提取图像的抽象特征,所以容易遇到瓶颈,这也是为什么AlexNet在ImageNet竞赛中能够较传统方法下降10个以上百分点错误率的原因。深度学习是端到端的学习系统,将特征提取与分类器设计于一张网络上,通过大数据训练学习,往往能收到很好的效果。
图2 深度学习的仿生学解释
深度学习在神经网络的基础上作出了重大突破,在图像领域通过卷积网络在不同层次上提取特征,通过降采样和Dropout防止过拟合并减少数据量和计算量,提高鲁棒性,整个网络通过误差反向传播的方式进行学习和迭代。深度学习网络对图像的处理就好比是人脑识别图像的过程,以人脸识别为例首先看到的是孤立像素,然后提取到像素组成的边缘信息,再之后是融合边缘的目标局部特诊,最后是整张人脸。这是一个抽象和迭代的过程,可以发现深度学习在多个层次上对特征进行提取,同时此过程中的图像特征和分类器是通过深度学习网络学习到的而不是通过手工设计的。
二、深度学习在图像领域的应用
(1)目标检测
图3 R-CNN目标检测图
自AlexNet之后,深度学习从图片分类领域逐渐衍生到了目标检测、人脸识别、语义分割等多个领域。在目标检测领域从最开始的R-CNN,到Fast R-CNN,最后进化为Faster R-CNN。而Faster R-CNN已经成为了无人车的最核心技术之一,能够快速准确识别马路上的行人、车辆以及交通指示牌等多种目标。
(2)人脸识别
图4 Deep ID2深度学习网络
人脸识别这个重要的课题在遇上深度学习后也焕发了新的生机,Deep ID2算法可以达到99%以上的准确度,达到商用级别。支付宝已经可以使用刷脸支付、招商银行的ATM机也可以实现刷脸取现。
(3)图像分割
图5 FCN实现语义分割
2015年一篇名为Fully Convolutional Networks for Semantic Segmentation的论文使用了全卷机网络(FCN)实现了图像语义分割。语义分割是对图片上的语义类别进行分割,在深度学习之前,是非常难以解决的问题,即使2012年时AlexNet在图像分类上取得突破性进展也是直到3年后也就是2015年才出现了FCN较好地解决了语义分割问题。在FCN的基础上,有研究者使用条件随机场(CRF)对FCN的结果进行处理后得到了更完美的语义分割效果,目前CRF-FCN已经是图像语义分割问题的标配。
三、深度学习在医学影像上的应用
传统方法在图像处理上存在一些瓶颈,在医学影像这种复杂的、低数据量的数据上存在的瓶颈则是更多。在某些处理环节上,引入深度学习的方法进行处理,以及方法的融合,是非常值得尝试的。目前已经有大量的深度学习在医学影像处理方面的论文面世,并取得了不错的效果。
图6 基于深度学习的恶性肿瘤检出系统
美国的一家名为Enlitic的公司,利用深度学习技术,对放射技师检查过有无恶性肿瘤及肿瘤位置等的大量医疗图像数据进行机器学习,自动总结出代表恶性肿瘤形状等的“特征”以及重视哪些特征能够判断有无恶性肿瘤等“模式”。实测发现该系统的检测精度要高比放射技师的判断高5成以上。
四、实验室对深度学习在医学影像处理的研究
本实验室的低剂量X射线三维成像技术的研究中,对于图像分割、2D/3D配准、三维模型重建等关键技术上,除了传统的方法以外也在研究深度学习方法的应用。然而医学影像毕竟不同于一般的图像,在探索过程中需要解决很多的关键问题,才能够融合深度学习更好地解决的问题。如下是列举的几个比较关键的方面。
(1)2D vs 3D
在医学影像领域,有些数据并不是单纯的二维图像,有大量的三维数据,比如MRI和CT数据。而深度学习的图像处理技术现在大多数还是针对二维图像而言的。如何对这些三维数据进行建模,并使用深度学习的方式进行训练,是一个非常有挑战性的事情。
(2)迁移学习
医学影像可供学习的数据源一般很少,而一个比较好的模型往往需要非常大的数据量才能训练出来。能不能使用现有的训练好的模型,通过输入少量的医学影像进行迁移学习,以取得不错的效果。
(3)监督学习vs无监督学习
目前大量的深度学习方法均是监督学习的方式。但是无监督学习在聚类,数据编码压缩上确实是比较有优势的。在某些步骤上能否结合无监督学习的方法,使得处理的结果更加出色是一个值得研究的课题。
(4)其他
比如数据的标注问题,图像序列的训练问题等。
鉴于深度学习在许多方面取得的成果,我们有理由相信结合深度学习的方法,或许在医学影像处理这个艰深却又极具价值的领域将会取得突破性的进展。