当前位置:首页 > 新闻 > 正文

使用条件生成对抗网络减少机器人远程手术中延迟的影响

发布时间: 2021-03-26 14:02     来源: 机器人产业杂志

  手术机器人的引入给外科手术带来了明显的进步,使远程手术成为可能,从而惠及更多医疗条件受限的地区。然而,在手术中,医生的输入与机器人执行的动作之间任何微小的延迟都可能严重伤害病人,在某些情况下甚至会导致死亡。来自佛罗里达大西洋大学机器感知和认知机器人实验室的四位研究人员Neil Sachdeva、Misha Klopukh、Rachel St. Clair和William Edward Hahn试图通过使用条件生成对抗网络解决这一问题。

  远程手术的应用范围很广,在医疗经验的可及性和多样性可能受到限制的地区建造医疗诊所并部署机器人,能够让更多人得到所需的医疗保障。但远程手术也涉及到一个严肃的问题,即无线连接不良可能会导致医生的输入与机器人执行的动作之间有长时间延迟。在外科手术中,任何微小的延迟都可能严重伤害病人,在某些情况下甚至会导致死亡。

  提高安全性的一种方法是使用由深度学习辅助的计算机视觉减轻延迟的影响。当前的手术机器人使用经过校准的传感器来测量手臂和工具的位置,但在这项研究中,我们提出了一种纯光学方法,用于测量工具相对于患者组织的位置。这项研究的目的是生成一种神经网络,使机器人能够探测到其自身的机械操作臂。

  一个条件生成对抗网络(cGAN,conditional generative adversarial network)在2015年EndoVis器械挑战赛的模拟胃肠道机器人手术的1107帧和每帧对应的手绘标签上进行了训练。当在新的测试数据上运行时,该网络对输入图像生成了近乎完美的标签,这些标签与手绘标签在视觉上一致,并且能够在299毫秒内完成此操作。然后,这些精确生成的标签可以作为简化的标识符,让机器人跟踪由自己控制的工具。

  这些结果显示了条件生成对抗网络作为一种反应机制的潜力,它使机器人能够检测到其手臂移动到患者的手术区域之外时的情况。该系统可以更准确地监测外科手术器械相对于患者组织的位置,增加远程外科手术系统不可或缺的安全措施。

  引言

  外科手术机器人,如达芬奇手术系统,允许医生以极高的准确性和完全的可操作性进行微创手术。在一个典型的机器人手术系统中,医生的控制台直接连接到机器人,并且一块屏幕上显示患者体内机械臂的实时信息回传。

  为了使外科手术机器人在远离操作手术的医生的远程环境中具有完全的可靠性,它们需要能够在网络连接不可靠的情况下继续操作,因为任何微秒的延迟都可能导致严重的事故。此外,没有网络具有100%的可靠性,因此存在延迟时间——视频回传可能冻结或者没有接收到移动机器人的命令。这种情况下,即使病人挡住了路径,机器人也将继续移动。这些风险阻碍了该实践的广泛应用,并且尽管目前已开展远程手术[1],但由于与延迟相关的潜在危险,远程手术无法大规模使用[2][3]。在测量延迟对手术性能的影响的研究[4][5]中,已经确定延迟超过300毫秒会导致手术精度的“可测量的性能退化”,因此这对于需要高效且可靠的反应指标的跨大陆手术应用来说是不可行的[6]。解决延迟问题是这项研究的主要关注点,以帮助提升远程手术的可靠性和现场的实用性。

  通过实现计算机视觉辅助系统作为机器人和医生之间的媒介,机器人不再仅依赖于医生,因此减轻了输入延迟的影响——特别是在时间命令达到机器人的时间内,也就是机载自主系统能够进行控制的时间。在实际应用中,机器人将被安置在一个远程位置,而医生将位于他们自己办公室的控制站。神经网络将被加载到手术机器人的机载计算机上,并将在任何需要的时候控制机器人的手臂。如果发生中断,神经网络可以识别机械臂向一个危险的位置移动,并推翻机器人的控制,迫使其停止。该系统具有准确监测与患者组织相关的手术器械的潜力。当前的手术机器人使用经过校准的传感器测量手臂和工具的位置,但在这项研究中,我们提出了一种纯光学方法,由人工神经网络支持,用于测量工具相对于患者组织的位置。

  数据和方法

  数据集

  2015年Endovis挑战赛数据集作为训练数据,包含3个模拟胃肠道手术的视频,每个视频长44秒[7]。第一个视频是关于一个机械臂在离体设置中模拟手术的内窥镜视频片段。视频的每一帧都有对应的用于定位右臂和左臂的手绘标签,该标签构成了另外两个视频文件(一个视频用于左臂分割,一个视频用于右臂分割)。

  数据准备

  本研究利用由Jun-Yan Zhu、Taesung Park、Tongzhou Wang编写的PyTorch实现的Pix2Pix模型[8]。PyTorch是一个基于python的深度学习框架,该框架模以使用多维数组作为张量的Torch框架为模型。Pix2Pix是一个条件生成对抗网络,专门用于图像到图像的转换和分割。它获取图像及其被标记的分割,并学习如何从一个图像转换到另一个图像。因为整个研究都是使用Colab(Google的在线Jupyter笔记本)进行的,所以我们能够将Github存储库克隆到Google驱动器,并从那里访问模型。

  该模型要求输入数据(图像和标签)以单对图像的形式输入。我们首先将视频文件分割成如图1a所示的单个图像帧。如图1b和1c所示,由于分割后的标签视频是用手臂分开的,我们将它们合并,使两个手臂的分割在一张图像中,如图1d所示。然后将内窥镜图片和合并的分割标签缝合在一起,形成两个帧并排的图像,再将其上传到Google驱动器。对于视频的每一帧,这一过程重复了1107次。该模型经过200个轮次的训练,每5个轮次测试一次准确性。

  讨论与未来研究

  该网络能够在两个手臂的手术图像上表现得非常好,通过200轮次的生成器达到了近乎完美的精度。非零像素数量的差异显示出精度提高了5倍。这支持了以下假设:条件生成对抗网络有能力学习和再现手术机械臂在手术环境中的样子。

  有了分割和跟踪机械臂的能力,这项研究的下一个重要部分就是时间因素。如果训练过的模型花费的时间太长,以至于无法处理给出的图像,那么将它作为解决远程手术中延迟问题的整个前提就会失败。为了测试这一点,我们编写了一个脚本,该脚本计算了模型对单个输入图像进行分割所花费的时间,结果是299毫秒。这段时间是在延时对手术产生严重的影响之下,因此肯定了该模型的适用性。

  这项研究的结果表明,条件生成对抗架构的神经网络可以有效地用于教系统如何识别其自身的机器人肢体。但在该系统应用于实际的外科手术之前,需要解决该模型的一些限制。

  我们用于模型训练的数据集仅限于在胃肠道手术中移动的两个机械臂的图像。因此,模型知道每个图像中总是会有两个机械臂,当在只有一个机械臂的图像上对其进行测试时,生成器会产生混淆并产生不准确的图像(如图2所示)。

  深度学习提供的多功能性使得扩展训练数据成为可能,包括单臂机器人的图像,并且模型将相应地学习如何识别它们。实际上,通过添加训练数据并使模型熟悉各种类型的机器人手术,可以解决很多与这个项目的范围有关的问题。例如,如果需要添加订书机或镊子之类的不同附件,则只需将各自的图像添加到训练数据中,就可以训练模型识别所有必要的组件。

  该网络有潜力使远程外科手术能够在以下两种情况中应用:在普遍存在延迟的高速光纤连接不可用的地方(如不发达国家、潜艇或外层空间),以及在延迟和网络连接是一种风险因素的任何地方。未来几年,这将使医疗专业人员进一步帮助病人,并使远程手术能够挽救生命。

  这项研究的目的是制造一个可以学习如何识别机械肢体的系统,然而,条件生成对抗网络在外科手术中的潜力还有更大的范围有待探索。用于器官标记以提高准确性的应用和跟踪其他手术器械的应用都可以通过神经网络和机器学习实现。在这项研究中,我们能够生成一个神经网络,它能够跟踪机械臂并在手术环境中判断其位置。通过设计一个系统检测机械臂何时向患者体内的危险位置移动,这项研究将为在高速光纤连接不可用的地方应用远程手术的未来研究提供基础。

  这项研究仅限于双臂机器人手术的视频数据,但未来的研究将包括更大的数据样本,以确保其在更大范围的外科手术中的可用性。此外,训练图像的二维性质缺乏在远程手术设置的实际实施中可能必要的深度感知。未来的项目可以包括对该模型进行进一步的交叉验证,以确保其在各种数据集上的准确性,并确保其具备足够的深度感知。接下来的步骤将是使用达芬奇仪器上的模型覆盖,在经过编程的延迟下执行远程手术模拟,并最终进行临床研究,以真正测试该模型如何实时交互。

  参考文献:

  [1] M. G. J. Marescaux,J. Leroy, "Transatlantic robot-assisted telesurgery," Nature,vol. 414,p. 710-710,Sep 2001.

  [2] J. Bernal,N. Tajkbaksh,F. J. Sanchez, B. J. Matuszewski,H. Chen,´L. Yu,Q. Angermann, O. Romain,B. Rustad,I. Balasingham,et al., "Comparative validation of polyp detection methods in video colonoscopy: results from the miccai 2015 endoscopic vision challenge,"IEEE transactions on medical imaging,vol. 36,no. 6,pp. 1231-1249,2017.

  [3] Y. Jin,Towards Intelligent Surgery: Dynamic Surgical Video Analysis with Deep Learning. PhD thesis,The Chinese University of Hong Kong(Hong Kong),2019.

  [4] M. Perez,S. Xu,S. Chauhan,A. Tanaka, K. Simpson,H. Abdul-Muhsin,and R. Smith, "Impact of delay on telesurgical performance: study on the robotic simulator dv-trainer," International Journal of Computer Assisted Radiology and Surgery,vol. 11,p. 581-587,Oct 2015.

  [5] M. Anvari,T. Broderick,H. Stein, T. Chapman,M. Ghodoussi,D. W. Birch,C. Mckinley,P. Trudeau,S. Dutta,C. H. Goldsmith, and et al.,"The impact of latency on surgical precision and task completion during robotic-assisted remote telepresence surgery,"Computer Aided Surgery,vol. 10,p. 93-99,Mar 2005.

  [6] "Global ping statistics(https://wondernetwork.com/pings)."

  [7] "Endovissub-instrument-grand challenge(https://endovissubinstrument.grand-challenge.org/data/)."

  [8] P. Isola,J.-Y. Zhu,T. Zhou,and A. A. Efros,"Image-to-image translation with conditional adversarial networks,"in The IEEE Conference on Computer Vision and Pattern Recognition(CVPR), July 2017.

收藏