数据导入
西门子、飞利浦、联影、GE…发布:2025-12-11 浏览:37 次
摘要
预测模型在神经成像领域的设计日益递增,其旨在提高风险分层能力并支持精神病学的干预工作。许多模型主要在学龄儿童或更大年龄的样本中开发。然而,尽管越来越多的证据表明,在胎儿、婴儿和幼儿(FIT)期间的大脑成熟度的改变会调节儿童不良心理健康结果的风险,但这些模型很少在FIT样本中实施。在这些年龄段应用预测建模,提供了一个重要机会来开发强大的工具,以此改进描述神经机制的发展。为了促进预测模型在FIT神经成像中的广泛应用,我们对当前预测模型FIT研究中使用的方法进行了简要的系统评审,并介绍了当前FIT研究中使用的预测建模方法。基于过去十年中100多项研究的实践,我们提供了该领域常用主题、技术和方法的概述,以及一些未被充分研究的领域。接着,我们为对预测早期健康结果感兴趣的神经成像研究者提供了建议和伦理考虑,尤其是那些对高级机器学习方法或FIT数据较为陌生的研究者。总之,过去十年在机器学习中的FIT研究为加速预测早期生命轨迹(涵盖健康与疾病的全谱)奠定了基础。
1 引言
胎儿、婴儿和幼儿(FIT)神经成像是理解活体大脑发育(尤其是典型与非典型发育)以及心理病理学发展起源的重要工具。迄今为止,FIT研究主要使用经典统计推断方法考察表型特征与大脑结构或功能之间的关系(即大脑与行为的关联及组间对比)。尽管这些方法具有强大的能力,但并未明确量化研究结果在新样本中的普适性。相比之下,机器学习或预测模型是通过独立数据进行定义和验证的,从而有望提供更具普适性的大脑与行为的关联,甚至可以进行个体层面的预测。此外,机器学习方法往往能捕捉到比经典统计推断更复杂的关联,这在生物医学研究中被广泛认可为必要。因此,这些方法在针对年长个体的神经成像研究中已成为主流,但在FIT研究中仍然稀缺。
2 FIT神经成像预测模型的入门
首先,我们提供一个入门指南,以帮助FIT神经成像研究人员了解机器学习的基本概念,并强调在一般机器学习工作流程中处理FIT数据集时的特殊考虑。尽管存在多种不同的方法,大多数仍遵循此处概述的相同分析模板(见图1)。我们建议有兴趣的读者参考已有的研究,深入了解机器学习的基本数学原理以及使用这些方法处理神经成像数据的最佳实践。
图1. 使用机器学习的基于神经成像的预测建模的典型流程图
尽管具体的实现可能有所不同,但典型的预测建模工作流程通常包括神经成像数据的获取和预处理、模型构建、模型评估、解释/泛化和模型共享。
通常,预测建模的目的是创建一个模型,以根据个体的神经成像数据估计其表型特征(如执行功能、诊断类别)。各种机器学习算法被用来结合神经成像特征,从而估计连续(称为回归)或分类(称为分类)结果指标。虽然可以使用多种表型,但神经成像指标通常包括任务诱发的激活模式(如fMRI、EEG、MEG、fNIRS)、功能连接性(如fMRI、EEG、MEG、fNIRS)、脑形态测量(sMRI)和结构连接性(DTI)。根据总体目标和可用数据选择验证策略和算法,然后进行模型的训练、测试和评估。
确保用于构建模型的数据(如训练数据)与用于评估模型的数据(如测试数据)保持独立,这是预测中的一个基本步骤。通常会使用交叉验证和/或外部验证。大多数交叉验证策略采用某种形式的k折交叉验证,其中数据集被分为k个大小相等且不重叠的子集。然后使用一个机器学习算法来“学习”一个以k-1种折叠表示的模型。在这些k-1折叠中的个体组成了训练数据。“学习”模型在遗漏的折叠中进行测试,标记为测试数据。这个过程对每一组k-1折叠重复训练,相应的遗漏折叠重复测试。常见的推荐方法包括10折交叉验证(即90/10分割训练和测试)、5折交叉验证(即80/20的分割)、留一法(k=样本量)和分半交叉验证(k=2),后者是一般k折方法的特例。留一法是全面的,使用每种可能的方式将数据分成k折,而其他k值的选择则不是。通常建议重复随机分裂(即100-1000次),以获得比单次分裂更稳定的估计。外部验证则是在外部收集的数据集上展示“学习”模型的泛化能力,提供比交叉验证更为稳健的验证,但这需要第二个数据集,这可能并不总是可用的。
在模型训练过程中,机器学习算法学习一个数学函数,将神经影像数据映射到感兴趣的表型上。标准算法包括支持向量机(SVM)、偏最小二乘回归(PLSR)、惩罚性回归(LASSO、弹性网和岭回归)、基于树的方法和深度学习。没有“通用”方法,因为每种方法都有其特定的优缺点(见表1)。选择主要取决于科学问题的性质。例如,SVM旨在进行分类,而LASSO则会产生稀疏模型,其中仅有少数特征对预测有贡献。神经影像数据通常特征数量多于样本数量,这可能会影响算法性能。尽管许多算法在这种情况下表现良好(例如,PLSR将原始特征减少到一个低维空间),但特征选择可以通过只选择信息最丰富的特征子集来降低维数。为了保持训练数据和测试数据的分离,需要通过额外的交叉验证来确定算法特定的参数(或超参数)的调整。
一旦模型建立完成,就会将其应用于看不见的数据,并将得到的预测值与观察值进行比较。值得注意的是,在此步骤中,不应修改任何模型参数。该模型对一种表型的预测能力可以通过多种方式进行测量,而且通常会报告多项测量方法。对于回归模型,预测值与观察值之间的皮尔逊或斯皮尔曼相关性是常用的模型评估统计量。需要注意的是,在使用交叉验证时,相关性可能会高估预测性能,并且存在一些调整后的度量(例如,交叉验证的 R² 或 q²)。
为了衡量非标准化误差,均方误差(MSE)、均方根误差(RMSE)和平均绝对误差(MAE)可用来量化表型数据值与单位实际值的偏离程度。对于分类模型,常见的总结指标包括准确率(正确分类样本的比例)、特异性、灵敏度和接收者操作特征曲线下的面积(ROC AUC)。在任何情况下,评估统计量都应与零假设进行比较,以评估统计显著性。由于交叉验证产生的依赖性,通常通过置换检验生成零数据集,即将神经影像数据与表型数据之间的标签进行随机打乱,以非参数方式估计随机预测的水平。对于分类问题,可以使用 McNemar 检验。最后,考虑到不同组之间常常存在不平衡,必须在测量性能时加以考虑。
神经影像学中的混杂因素在不同模态中具有特异性。在标准解释性分析中考虑的任何混杂因素,在预测性分析中也应予以考虑,因为这有助于判断是信号还是伪影驱动了预测。常见的潜在混杂因素包括年龄、性别、头部运动以及在多中心研究中头部线圈的变异性。有些研究团队使用专门的婴儿头部线圈来提高信噪比,而另一些则使用成人大小的头部线圈。虽然定制的婴儿头部线圈有其优势,但必须权衡其高成本和低可用性。头部线圈和扫描仪的变异性可能会混淆预测估计。
为了解决混杂因素的问题,可以通过数据调和来减轻其影响,例如在预处理阶段采用伪影回归、相应调整输入数据(如平衡不同组之间的混杂因素)、将混杂因素纳入模型(例如,估算包括表型后的额外预测能力)等多种方法。
如果模型能够显著预测表型,接下来的步骤是探讨个体脑特征的贡献,但这一点往往被忽视。模型解释通常从可视化每个脑特征的模型权重开始。通常,权重较大的特征被认为在预测中更为重要。然而,与标准线性回归类似,权重的大小依赖于具体特征,因此,较大的权重并不总意味着更重要。对模型权重进行归一化,或对脑特征进行标准化(即 Z 评分),可以提高模型权重的可解释性。
另一种理解特征重要性的方法是通过遍历所有特征,每次移除一个特征,并量化与每个特征相关的预测性能变化。移除后性能下降最显著的特征在模型中具有更大重要性。由于神经影像分析通常具有大量特征,因此通过特征选择或实施稀疏性强制的算法(如 LASSO,能够使大部分模型权重归零)可以简化模型解释。然而,对高度相关特征施加稀疏性可能导致模型不稳定。
最后,在所有分析完成后,应分享结果、数据和模型,以促进外部验证。重要的是,不能泛化到外部数据的模型并不意味着无效。由于不同数据集之间的人口统计因素(如发展阶段、性别、文化因素)可能存在差异,这可能会影响脑-表型关联和相应模型的结果。
表1.对FIT神经成像素中常见的机器学习方法的概述
点击下方链接了解平台更多算法:(1)基于Fixel分析太难?脑海科技多模态脑影像云平台一键解锁白质纤维束全分析流程!
(15)捕获大脑的“高光时刻”!高振幅共波动分析揭秘全脑协同爆发瞬间:脑海科技脑影像云平台,秒级定位“关键帧”
虽然基本概念保持一致,但针对功能性成像技术(FIT)数据调整标准机器学习工作流时,需要特别考虑几个因素。以下是五个关键考虑点,尽管可能还存在其他因素。
首先,某些年龄组内可能缺乏预期的脑基预测模型特征。例如,任务诱发的脑激活模式是预测模型的标准特征,但在胎儿和较小婴儿中实施基于任务的范式非常具有挑战性。此外,由于出生后第一年内髓鞘化的变化,六个月左右灰质与白质的边界对比度较差,使得皮层厚度等特征的估计变得困难。因此,结合多种神经成像模态创建模型并不容易,通常表现最佳的模型相对较少。
其次,尽管FIT期持续时间有限,但它定义了生命周期中大脑和行为发育的最快速、最动态的阶段。FIT期内,血流动力学反应函数的形状或呼吸伪影等会迅速变化。因此,来自年龄相差几周或几个月的个体的脑特征可能无法组合。此外,许多行为在早期FIT期内可能无法测量,特别是在胎儿和新生儿中,因此通常需要进行纵向跟踪以建立脑-行为模型。因此,FIT研究通常使用在一个时间点收集的扫描数据来预测未来表型。与非FIT研究相比,预测未来表型更加复杂,因为个体在时间点之间可能会发生显著变化。最后,许多里程碑事件(例如,走路)通常在个体之间有广泛的时间分布,因此在这个阶段预测个体间的变异性可能对长期结果的临床效用有限。
第三,针对FIT神经成像分析的专业分析方法及相关软件仍在开发和优化中。针对成人数据开发的预处理流程在FIT数据上通常表现不佳。此外,FIT研究缺乏广泛使用的公共空间(如MNI空间)进行分析。令人鼓舞的是,该领域正在迅速发展,近期在胎儿结构磁共振成像(sMRI)和功能磁共振成像(fMRI)序列、婴儿运动的扫描监测,以及FIT特定软件等方面取得了进展。尽管如此,FIT的分析方法仍较弱,导致预测建模工作流的各个方面变得更加复杂。
第四,小样本量可能限制算法的选择(例如,许多深度学习方法需要的训练样本量大于传统方法如支持向量机(SVM)/回归分析)。适当的样本量取决于多种因素,包括模态、年龄(例如,用MRI扫描幼儿比扫描新生儿更具挑战性)、研究设计、算法或目标精度等,因此我们缺乏FIT成像的统一样本量指导。在较大年龄组中,有研究报告指出25名参与者的可重复性发现,然而也有建议称需要数百名参与者(或更多)。开放源FIT数据集可能有助于减轻这一限制。
最终,FIT样本中预测模型的解读比年龄较大的样本更为复杂。我们对神经成像特征的理解主要基于老年个体的研究结果,但这些发现不一定适用于FIT样本。例如,许多经典的大规模脑网络仍在形成中,而在幼儿中,神经递质GABA是兴奋性的,而非抑制性的。成人和新生儿之间的神经血管耦合也存在差异,婴儿对刺激的血流动力学反应通常延迟,且反应不如成人明显,甚至可能出现负反应。鉴于FIT样本中神经发育的迅速变化,样本中即便是轻微的年龄差异也可能显著影响预测表现。例如,颅内体积或髓鞘化的个体差异可能影响功能测量,使得这些结构差异驱动预测性能,而非功能测量。确实,有必要减轻混杂的年龄效应,以确保观察到的组间差异并非仅反映发育过程。此外,个体的状态也应在功能数据中加以考虑,因为大多数婴儿fMRI数据是在自然睡眠状态下收集的,这可能影响功能连接模式,并混淆与其他个体的比较。
我们系统性地审查了已发表的文章,总结了在FIT神经成像数据集中使用预测模型的科学现状。符合条件的文章包括2010年至2022年间发表的实证研究,要求使用英语撰写,并收集了FIT参与者的神经成像数据。我们排除了具有以下特征的文章:1) 在2010年1月1日之前发表的文章(由于该日期之前关于FIT神经成像研究的预测建模文献数量有限);2) 动物模型研究、综述文章、荟萃分析、病例报告、非脑器官的成像研究以及方法学文章(例如,新颖的脑分割工具);3) 所有参与者年龄均超过3岁的研究;4)不采用外部或交叉验证的预测建模方法的研究。
我们于2022年5月9日使用PubMed进行了检索,以汇总符合上述条件的FIT预测建模文章,搜索字符串为:(“fetal” OR “preterm” OR “premature” OR “newborn” OR “neonate*” OR “neonatal” OR “perinatal” OR “infant*” OR “toddler*”)AND (“MRI” OR “magnetic resonance imaging” OR “fMRI” OR “rsfmri” OR “resting state” OR “resting-state” OR “DWI” OR “diffusion weighted imaging” OR “DTI” OR “diffusion tensor imaging” OR “MRS” OR “magnetic resonance spectroscopy” OR “fNIRS” OR “infrared spectroscopy” OR “EEG” OR “electroencephalography” OR “PET” OR “positron emission tomography” OR “neuroimaging” OR “connectome*” OR “functional connectivity”) AND (“prediction” OR “cross validation” OR “machine learning” OR “external validation”)。初步检索结果yielded 1055篇文章,作者通过在线平台Rayaan对这些文章进行了资格筛查。在初步筛选后,两位评审对每篇文章的摘要和全文进行了筛选,以评估其纳入资格。每位评审作出“纳入”或“排除”的二元决策。经过评估,111篇文章被认为符合条件,另有134篇文章在二元决策规则下存在评审意见冲突(纳入与排除),由第三位盲评审裁定。最终,共有134篇文章符合我们的资格标准(见图2)。我们使用R包“irr”估算了纳入文章的评审间一致性。我们的评估结果显示,评审者之间达成了“良好”的一致性(Cohen’s k = 0.602, p < .001)。
图2. PRISMA图,用于对胎儿、婴儿、蹒跚学步的儿童(FIT)神经成像数 据集的预测模型进行系统回顾(修改自(99))
自2010年以来,FIT预测建模论文数量稳步增加(见图3a)。为了量化用于FIT预测研究的表型测量,我们将文章分为四个类别,依据预测目标:1) 神经表型(例如,癫痫发作);2) 神经多样性特征(例如,自闭症、语言学习障碍);3) 物理特征(例如,年龄、脑发育);4) 认知和发展结果(例如,Bayley评分、睡眠、运动技能)。大多数研究预测认知结果(31.3%)、物理特征(29.9%)和神经表型(26.9%),而关注神经多样性特征的文献则相对较少,仅占11.9%(见图3b)。在分析这四个类别的文献时,出现了几个关键主题,具体如下:
神经表型——关于神经表型的研究主要使用预测建模对各种情况的胎儿、婴儿或幼儿进行分类,包括新生儿脑病、癫痫和威斯特综合症。一些研究利用机器学习技术自动化癫痫发作检测,基于脑电图(EEG)记录。
神经多样性——在少数预测神经多样性的文章中,大多数关注与自闭症相关的表型(例如,预测未来自闭症诊断,分类处于高风险或正常风险的婴儿)。仅有一项研究基于FIT神经成像数据预测了跨领域的心理测量,如儿童行为检查表得分。
物理特征——在FIT样本中,物理特征的预测主要集中在妊娠或产后年龄以及脑形态表型(例如,体积、脑沟深度)。尽管许多研究旨在生成胎儿和出生后脑发育的规范模型,但也有研究专注于分类早产儿和足月出生的婴儿。
认知结果——认知结果的研究主要预测了从典型发育到神经多样性人群(例如,早产、新生儿脑病、先天性听力损失)中婴儿的语言、认知或运动结果。虽然大多数文章预测的表型数据与神经成像数据是在同一时间收集的,但一些研究利用婴儿时期收集的神经成像数据来预测儿童早期或中期的认知领域。这些表型主要通过《婴幼儿发展评估量表》第三版进行指标化,此外,还预测了孩子的睡眠状态、社会情感发展和发展商数。
图3. 自2010年以来,FIT预测建模研究的发展趋势。A)同行评审的FIT预测建模文章的数量在过去十年中有所增加,自2019年以来增长更快。B)在所有研究中,样本量的分布。大多数研究的总体样本量(即结合训练和测试数据)小于N = 150名参与者,用红色虚线表示。C)预测建模方法已应用于四类表型:神经系统疾病及其主要症状、神经多样性、身体特征(如大脑形态测量学、年龄)和认知结果。虽然广泛的表型已经被成功预测,但大多数与规范的发育里程碑相关,而不是临床表型。D)一系列的神经成像模式已被用于FIT预测,但大多数研究都采用了EEG、sMRI或多模态方法,而fMRI、MEG、ASL和超声在这一领域仍未得到充分利用。缩写: ASL =动脉自旋标记,DTI =弥散张量成像,EEG=脑电学,
大多数FIT预测建模论文使用了EEG(38.8%)或MRI(27.6%),然而近年来,多模态成像(11.9%)、DTI(11.9%)和fMRI(fMRI,7.5%)技术的使用越来越普遍(见图3c)。只有少数研究采用动脉自旋标记、超声或磁源成像来进行FIT样本的预测(均<1%);不过,几项多模态研究结合了超声和结构性MRI进行胎儿神经成像。由于脑电图和结构性MRI在临床环境中常规收集,因此这些研究中大量使用这些模态并不令人意外。随着多模态成像的日益增加,预测认知和精神表型的需求也在增长,特别是因为多模态方法在预测老年群体的这些表型时能显著提高模型性能。
许多机器学习方法已应用于FIT神经成像数据,许多预测建模论文采用多种互补方法来解决感兴趣的研究问题。最常用的方法包括支持向量机/回归(SVM/R;35.1%)、深度学习(29.1%)、惩罚性线性回归(17.9%)和基于树的方法(16.4%)。其他方法还包括逻辑回归、判别分析、贝叶斯方法,以及一些定制算法或具有外部验证的非机器学习方法。大多数研究报告的预测准确率高于随机水平,也有一些预测精度接近100%(45–100%;见补充表1)。除了研究目标外,方法选择也可能反映了这些文章中样本量的多样性,样本量范围从10到1851名参与者(中位数为86)。在9篇样本量超过500的论文中,5篇使用了新生儿的脑电图数据,3篇使用了胎儿的sMRI数据,一篇使用了婴儿的fMRI数据。
在使用FIT神经成像数据进行预测时,除了技术概念外,还存在一些伦理问题。最佳实践是开发可信和公平的模型。信任指的是模型对敌意数据操控的反应,意在防止通过“游戏系统”的方式来误导它。在最坏的情况下,数据操控可能被利用来“证明”某一特定群体的负面刻板印象,或者支持基于虚假数据的欺诈模型。公平的模型不应对任何个体或群体表现出偏见,尤其是对那些在样本中常常被低估的群体。为了应对不公平模型,可以创建和测试多样化的数据集,代表更广泛的人群。然而,由于偏见可能源于几乎无限的来源,模型可能无法完全消除偏见。
开发公平和可信的模型有助于改善风险分层、早期检测以及对多种情况(如自闭症)的干预,其中从其他神经多样性的差异诊断可能促进更适当的支持或适应。类似地,在FIT样本中进行早期检测可能改善阅读障碍、语言延迟或心理病理等问题的生活质量。
尽管公平和可信的模型可以被开发,但在FIT样本中进行预测时还需考虑额外的伦理问题。历史上,婴儿结果的预测曾用于推动有害的意识形态,包括优生学。在任何情况下,预测较差的发展结果或未来的临床诊断,可能影响孩子生活的方方面面,包括家庭照护、社会融入和潜在的临床干预。此外,这些预测可能对成年期产生持久影响。因此,FIT研究者应特别谨慎并透明地量化预测的误差,在某些情况下,他们可能需要优先减少假阳性或假阴性。一个问题是,由于早期生命中的发展变异性,感兴趣的表型可能不会在整个生命周期中稳定。个体可能在显著的临床状态和缓解状态之间波动,或在儿童时期经历诊断交叉,导致关于最佳预测表型及其测量时机的问题。
尽管使用FIT数据的预测模型距离临床应用仍相当遥远,但应考虑它们对临床结果的影响。例如,一些当前的干预措施成本高昂、难以获取或对某些个体效果有限。因此,即使某一特定婴儿结果可以被完美准确地预测,在没有有效干预保障的情况下,预测不良的发展结果或未来的诊断在伦理上可能是可疑的。一个更为切实的目标是改善认知和行为表型的预测模型,这些表型可作为未来临床障碍模型的基础。
随着使用FIT神经成像数据进行预测建模的增多,未来的挑战也随之而来。最近的努力创造了多个大型开放数据集,如发展中的人类连接组项目(Developing Human Connectome Project)、婴儿连接组项目(Baby Connectome Project)以及即将推出的健康大脑与儿童发展研究(HEALthy Brain and Child Development Study),这些数据集有望将FIT神经成像推向“大数据”领域。然而,过度依赖这些数据集可能导致数据衰退,即多个研究者对同一数据集进行分析时,无意中增加了假阳性的数量。随着分析数据的研究者数量增加,这一问题会愈加严重。数据衰退限制了研究发现的普遍适用性及其后续解释。因此,从这些数据集中进行模型的外部验证是至关重要的一步,有助于确保模型没有被特定于数据集的特征所拟合,从而确定预测模型的可靠性。因此,FIT样本中持续的数据收集需求仍然超出了这些大规模努力的范畴。
机器学习与开放科学实践通常相辅相成。因此,实施开放科学的最佳实践,包括共享和报告:原始数据、预处理流程(如分区、图谱、代码和处理后的数据)、预测建模流程(包括输入特征,如连接性和表型数据、预测建模方法、测试的超参数以及验证方法)、软件(包括版本号),将提高FIT预测建模发现及其解释的整体质量,促进在独立外部数据集中的模型外部验证。此外,数据共享将增加数据集的多样性,从而有助于捕捉模型中的偏见。然而,在FIT神经成像领域,开放科学倡议的发展仍然不如其他神经成像领域成熟。
最后,鉴于FIT神经成像数据获取的困难和成本,研究者可能对完全接受数据共享持谨慎态度。然而,随着资助机构逐渐要求实施开放科学实践,利用这些机会将对通过数据汇聚产生更大样本量至关重要。更大的样本量将改善FIT研究的质量,使研究者能够考虑潜在的偏见,正确估计效应量,并使用需要大量数据的深度神经网络等方法。
我们总结了关于早期生命预测建模文献的现状,并概述了在应用机器学习方法于功能性磁共振成像(FIT)数据时的最佳实践和伦理考虑。研究表明,各种前沿的机器学习方法可以成功应用于多种神经成像方式,以预测正常发育儿童和有健康问题儿童的发展里程碑。大规模开放获取的FIT神经成像数据集的出现,为将这项工作扩展到更多表型(特别是与认知、社会发展和精神症状相关的领域,尚未得到充分研究)提供了激动人心的新机会。
然而,所有研究者仍需通过增加数据共享来提升模型预测的准确性、普遍适用性和可信度。拥抱合作也是克服当前数据收集挑战的关键,这需要神经科学家、物理学家、工程师和心理学家等跨学科专家的共同努力,以优化FIT样本。通过结合几十年来在FIT神经成像和机器学习方面的进展,我们可以推动预测建模,进一步加深对早期生命发展中健康与疾病的理解。
参考文献
Scheinost D, Pollatou A, Dufford AJ, Jiang R, Farruggia MC, Rosenblatt M, Peterson H, Rodriguez RX, Dadashkarimi J, Liang Q, Dai W, Foster ML, Camp CC, Tejavibulya L, Adkinson BD, Sun H, Ye J, Cheng Q, Spann MN, Rolison M, Noble S, Westwater ML. Machine Learning and Prediction in Fetal, Infant, and Toddler Neuroimaging: A Review and Primer. Biol Psychiatry. 2023 May 15;93(10):893-904. doi: 10.1016/j.biopsych.2022.10.014. Epub 2022 Oct 29. PMID: 36759257; PMCID: PMC10259670.
解读:何迪