close
预约产品演示
请完善以下信息,我们将联系您进行演示
*
*
我已阅读并同意《隐私政策》
close
预约数据分析
请完善以下信息,我们将联系您进行沟通
*
*
我已阅读并同意《隐私政策》

Transl Psychiat:注意缺陷/多动障碍中的机器学习:理解神经机制的新方法

发布:2025-12-13    浏览:28 次

摘要

注意缺陷多动障碍(ADHD)是一种高度流行和异质性的儿童神经发育障碍,在成年后持续存在的几率很高。由于缺乏对其潜在的神经机制的理解,个体化、高效、可靠的治疗策略的发展受到了限制。与现有研究的分歧和不一致的发现表明,ADHD可能同时与认知、遗传和生物学领域的多变量因素相关。机器学习算法比传统的统计方法更能够检测多个变量之间的复杂相互作用。这里我们叙述回顾现有的机器学习研究有助于理解机制ADHD关注行为和神经认知问题,神经生物学措施包括遗传数据、结构磁共振成像(MRI),任务和静息状态功能磁共振成像(fMRI),脑电图和功能近红外光谱和预防和治疗策略。本文讨论了机器学习模型在ADHD研究中的意义。尽管越来越多的证据表明,机器学习在研究ADHD方面有潜力,但在设计机器学习策略时,考虑到可解释性和泛化性的局限性时,仍然需要额外的预防措施。

1 引言

注意缺陷多动障碍(ADHD)是最常见的神经发育障碍之一,全球约5-8%的儿童受到其影响。在患有ADHD的儿童中,约60%的症状会持续至成年。ADHD个体往往在教育和社会生活中表现较差,日常活动中受伤的几率较高,并且患上更严重精神障碍的风险增加。ADHD是一种高度异质性的障碍,例如,性别、遗传和环境因素都可能影响ADHD的表现形式。关于ADHD个体的发展轨迹和共病情况,也存在不一致的研究证据。考虑到ADHD的高发病率及其对终身发展的深远影响,早期检测、准确诊断和有效治疗尤为重要。然而,目前学界对ADHD的相关神经机制缺乏全面的理解,并且在制定高效的治疗策略方面尚未达成共识

大量研究尝试从神经心理表现、大脑解剖结构和功能反应以及遗传风险因素等方面对ADHD进行表征。在ADHD个体中,已报告的认知缺陷包括执行功能、反应时间、警觉性、抑制控制、持续注意力和工作记忆等方面的不足。神经影像研究(如T1加权磁共振成像(MRI)、功能性MRIfMRI)、静息态fMRIrs-fMRI)和脑电图(EEG))在ADHD儿童中发现了广泛且不一致的解剖与功能改变,包括额叶、顶叶、颞叶和丘脑的异常。全基因组关联研究(GWAS)还揭示了与ADHD相关的若干变异。此外,ADHD的治疗效果也存在不一致性,有证据表明30%ADHD患者对最常用的药物反应不佳。现有证据表明,ADHD可能并非源于单一病因,而是由多种微妙异常的综合作用所致。这种复杂的病因难以通过传统的参数统计方法检测,而广泛改变之间的交互作用也因传统分析方法的局限性而难以有效应用于临床实践。

随着机器学习模型的日益普及,越来越多的研究者开始尝试将其应用于精神障碍的研究中。一般来说,机器学习模型是一种数学模型,能够通过学习现有数据集中的复杂模式来实现预测。这些学习到的模式可用于在新的数据集(如患者与健康对照组的分类、症状评分)中进行预测,并突出对预测贡献最大的变量。机器学习在捕捉精神分裂症、阿尔茨海默病和自闭症谱系障碍(ASD)等疾病中的复杂交互关系方面已展现出成效。大多数精神病学研究通过分类算法(如支持向量机SVM、随机森林和线性判别分析LDA)构建区分患者与健康对照组的模型,另一些则采用回归算法(如随机森林回归、支持向量回归和弹性网络回归)来预测症状严重程度或行为表现。通常的流程包括数据集划分、特征降维和模型训练,如图1所示。首先,将原始数据集划分为训练集(用于特征选择和模型训练)、验证集(用于验证和调整模型参数)以及测试集(用于评估模型性能)。在使用训练集训练模型之前,通常通过特征选择或特征融合来进行特征降维,以提高训练效率并减少过拟合的风险。在训练过程中,模型会根据验证集的表现进行调整。最终,分类模型的有效性在独立测试集中通过准确率、特异性、敏感性或AUC(曲线下面积)进行评估,而回归模型的性能则通过均方误差或相关性进行评估。然而,迄今为止,许多研究仅基于交叉验证结果报告模型性能,而没有使用独立的测试集进行验证,这可能导致结果的可靠性和泛化性降低,因此解读此类研究的结果时需要格外谨慎。通过这一常规流程,多数机器学习研究能够实现精神障碍患者与健康对照组的AUC60%-90%之间的区分。在诊断应用中,AUC低于60%的模型被认为性能较差,而AUC超过80%的模型被视为性能较好。

图片

1机器学习步骤概述

典型的步骤,包括数据分裂,特征简化,和模型训练,用于精神疾病患者的机器学习研究。

越来越多的证据表明,机器学习技术在改善ADHD(注意缺陷多动障碍)诊断、理解其神经生物学基础以及评估治疗策略方面具有显著优势。例如,当前ADHD的诊断通常需要通过与家长和老师(儿童ADHD)或患者(成人ADHD)的访谈,全面了解患者当前及过去症状,以及这些症状对日常功能的影响。机器学习研究能够通过大量样本数据,筛选并优化出对诊断最为关键的问题,从而帮助开发更加高效的ADHD诊断流程。此外,机器学习还能够预测治疗效果,为精准医疗的发展提供支持。在ADHD神经影像研究中,机器学习研究的蓬勃发展部分得益于ADHD-200数据集的公,这一数据集为自动化ADHD诊断提供了可能。近年来,其他公开数据集(如青少年大脑认知发展数据集ABCD)的发布,也进一步推动了ADHD领域的机器学习研究。

现有ADHD机器学习研究的主要方向是开发分类算法,用于区分ADHD患者与健康对照组,或与共病障碍患者之间的差异。不可否认的是,机器学习算法在预测任务中表现最佳。然而,样本量常常成为研究的限制因素。由于数据收集与维护所需的巨大投入,获得大规模、高质量的数据集十分困难。在小样本研究中,模型可能会产生偏高的分类准确率,并缺乏足够的泛化性,尤其是当缺乏适当的验证过程时(如未设立独立验证集,或在验证集与训练集中存在数据泄露。例如,在数据划分之前进行特征选择或特征降维,或训练集与验证/测试集之间的数据泄露,都会导致机器学习模型的偏差。尽管存在这些问题,小样本研究也具有其独特的价值。相较于大规模样本研究,小样本研究往往能够招募更具同质性的受试者群体。在这些同质性较高的样本中,通过适当的验证和评估过程,重要特征的识别往往比构建准确的分类模型更有助于ADHD的研究。凭借机器学习模型学习复杂模式的能力,它们还可以用于比较不同的数据模态,或识别关键特征。然而需要注意的是,现有的特征重要性计算方法仍存在局限。例如,最先进或复杂的模型并不一定能够自然地排序特征的重要性,而通用的特征重要性评分可能无法准确描述模型中真实利用的关系。此外,许多研究虽然报告了特征重要性评分,但其重点往往在于展示具有高分类准确率的机器学习模型,而非理解最具代表性的生物学信息。

现有的综述已总结了不同机器学习模型在区分ADHD(注意缺陷多动障碍)患者与健康对照组或其他疾病患者中的有效性。然而,除了构建用于辅助诊断的分类模型外,机器学习还因其能够揭示ADHD病因的广泛异质性,而在研究ADHD的潜在机制方面展现出独特优势。本综述的目的是汇总当前文献,探讨机器学习算法在理解ADHD神经机制中的应用和优势,同时提出存在的问题及未来研究方向。尽管在特征重要性的解释上仍存在一定局限性,探索机器学习的潜在应用有望推动ADHD领域基于特征的可解释性模型的发展。本综述纳入的研究需符合以下标准:(1) 使用机器学习算法,(2) 总样本量不少于40例,(3) 包含交叉验证步骤,(4) 模型评估独立于模型训练,(5) 提供特征对比(如特征重要性或不同测量模态的表现)。本综述的完整检索词列表见附录文件,使用机器学习算法研究ADHD的研究概览见附图1。所纳入研究的详细方法和主要发现见附表14
本文涉及到的部分算法,在脑海科技多模态脑影像分析云平台可一键分析。平台内置一键式分析700+算法(包括fMRI、T1、DTI、MRS、QSM、机器学习等),用户无需学习代码,几天就可以掌握脑影像数据分析,欢迎添加微信号19906719439(樊老师)咨询产品相关

图片

机器学习在多动症的特征

机器学习在帮助ADHD诊断中的应用已经在现有的综述中被广泛涵盖,因此,在本综述中将不会被详细讨论。简单地说,一些证据表明,机器学习算法有可能有利于ADHD的诊断通过简化诊断过程在复杂的情况下(例如,实现类似的准确性,增加患者的准确性或增加准确性与额外的神经行为测量或活动记录。分类模型的贡献可能受到诸如所使用的样本量等因素的限制,这些因素往往导致夸大的准确性。相反,通过检查分类模型中最重要的特征,机器学习算法能够识别出ADHD的核心特征

在一项近期于瑞典进行的全国性研究中,研究者利用包括随机森林、弹性网络、深度神经网络和梯度提升在内的多种机器学习模型,对238,696名个体的家庭和病史信息进行了分析,以识别ADHD的显著预测因。该研究的最佳模型达到了71.7%的敏感性和65.0%的特异性,结果表明,儿童ADHD的主要风险因素包括父母有犯罪记录、男性、家族中有ADHD患者、学业困难以及学习障碍。另一项研究使用深度神经网络分析了父母和教师的Conner量表评分,以区分ADHD儿童和健康儿。该模型的准确率达89%,更为有趣的是,研究指出教师在对抗性行为评分中的判别能力高于家长,同时,直接描述症状的问题比隐喻性描述的问题更具诊断价值。

在针对成人ADHD的研究中,一项涉及1249名受试者的研究表明,难以组织、不完成任务、粗心大意和难以投入休闲活动是成人ADHD的关键特征。现有机器学习研究的证据拓展了对ADHD特征的理解,并为开发更加可靠高效的诊断标准提供了指导。

除了将受试者划分为传统的诊断组,机器学习辅助的ADHD诊断研究还通过识别参与者的新亚群来提升对ADHD临床表现和异质性的理解,从而提高诊断的准确。例如,Fair等人评估了在七项神经心理学任务(包括抑制、工作记忆、唤醒、反应变异性、时间信息处理、记忆广度和处理速度)中的表现数据,研究对象包括285ADHD儿童和213名对照组儿童。通过社区检测方法,研究在ADHD组和对照组中均发现了四个亚群。随后利用支持向量机(SVM)对这些亚群进行分类,诊断准确率达到了84.1%,而在未分群的情况下仅为65%。同样,Kleinman等人将健康儿童及患有ADHD、双相情感障碍或两者兼有的儿童重新分为两组,依据的是连续性表现任务(CPT)的表现。随后采用线性判别分析(LDA)分别基于《精神障碍诊断与统计手册》(DSMIV组和CPT定义的组构建分类模型。结果显示,CPT定义的组的判别准确率明显更高(95.2%),而DSM IV定义的组则为23.8%。在一项较新的研究中,研究者在包含ADHD儿童、自闭症谱系障碍(ASD)儿童及健康对照的组合群体中基于12个领域的行为测量数据进行了聚类分析。研究发现了三个以执行功能为基础的群组,包括灵活性和情绪调节薄弱、抑制控制薄弱,以及工作记忆、组织与规划薄弱。随后使用SVM在独立数据集中验证了这些亚型,分类准确率达到了88.9%。在部分受试者中,检测到的亚群比DSM定义的临床组解释了更多的个体差异。这些研究表明,尽管现有的临床分类足以识别ADHD,但难以全面捕捉其中的异质性。

总体而言,现有机器学习研究中对ADHD行为和认知表现的分类模型准确率在66%96%之间波动。这种不一致部分来源于样本总量、临床组在总样本中的比例、测试或测量选择、模型选择和验证方法的差异。因此,设计可靠的分类模型需要格外谨慎。此外,能够探索ADHD异质性的机器学习技术(如聚类分析、回归分析)不仅有助于改进诊断,还可能通过提供更恰当定义的样本,推动未来对ADHD潜在机制的研究。

点击下方链接了解平台更多算法:

(1)基于Fixel分析太难?脑海科技多模态脑影像云平台一键解锁白质纤维束全分析流程!

(2)你的大脑竟在“秘密切换状态”?隐马尔可夫模型带你看见动态的大脑!——脑海科技多模态脑影像云平台,一键完成脑动态研究
(3)临床科研双加速|无需代码实现白质功能协变网络分析,一键产出SCI级结果
(4)高阶功能连接分析:脑海科技多模态脑影像云平台助力临床医生探索大脑高阶特性
(5)GSCORR:从“噪声”到“脑疾病解码器”——脑海科技多模态脑影像云平台,一键解锁大脑功能分析
(6)告别繁琐流程!基于源的形态学分析(SBM)进入一键式智能时代
(7)告别繁琐流程!脑海科技分析平台助您一键产出SCI级形态学网络结果
(8)一键生成个体形态脑网络!拓扑指标全自动分析!
(9)CaSCN分析揭示大脑结构变化的“多米诺骨牌效应”!脑海科技多模态脑影像云平台一键解析脑区间的因果传导链,让顶刊发现触手可及!
(10)DTI-ALPS:一键揭秘脑类淋巴系统,助力神经疾病精准诊疗
(11)GCA解码大脑因果网络:脑海科技多模态脑影像云平台一键式产出SCI级结果
(12)大脑里居然有“聊天记录”!动态因果模型曝光脑区间的秘密对话!——脑海科技多模态脑影像云平台,一键完成“对话”解析
(13)MRI中的“髓鞘探测器”:T1w/T2w比值揭秘
(14)大脑暗藏"帧间表情包"!FOCA破译局部神经的时空协作密码—脑海科技多模态脑影像云平台,一键生成3D像素剧场的“双优成绩单”

(15)捕获大脑的“高光时刻”!高振幅共波动分析揭秘全脑协同爆发瞬间:脑海科技脑影像云平台,秒级定位“关键帧”

机器学习在ADHD生物学机制研究中的应用机制

神经影像学研究

结构性MRI和弥散张量成像:

ADHD的神经解剖学已经被研究了几十年。然而,结果是不一致的。最近的一项大型分析报告报道了ADHD患者不同皮质区域的表面积的细微改变。使用弥散张量成像(DTI)是一种测量微观结构变化的神经成像技术的研究,也报道了广泛分布的区域的白质改变。这一现有证据表明ADHD可能与高度局部的解剖改变无关,而是与更弥漫性的改变有关。现有的研究可能受到使用传统统计方法的限制,这些方法对多个区域的微妙变化以及它们之间的相互作用缺乏敏感性。另一方面,机器学习可以同时模拟许多特征,这使得机器学习方法特别适合于理解支持ADHD的广泛结构改变。例如,Peng等人报告了一种基于极端学习机器的分类模型的结果,该模型使用来自ADHD-200sMRI数据来区分ADHD儿童和对照组,准确率为90.18%。该模型确定了顶叶、颞叶和岛叶的表面积、折叠指数和体积是ADHD最重要的预测因素。另一项使用SVM进行分类的研究表明,脑干中的白质体积是区分ADHD男孩和对照组的最重要特征。使用LASSO回归,最近的一项DTI研究报道,在74ADHD患者和对照组中,黑质/腹侧被盖区和纹状体之间的束强度能够预测冲动性,斯皮尔曼相关性为0.17。在一个大队列研究(来自35个研究地点的4183名受试者)中,深度学习神经网络显示,sMRI是儿童ADHD的良好预测因子,但在成人中不是,这支持了与ADHD相关的结构改变随着年龄的增加而减少的观点。使用sMRI的研究也可以识别出区分ADHD与其他常见疾病的结构特性。例如,Lim等人研究了ADHDASD和控制对照组的结构特性的鉴别能力。以体素级灰质体积为特征,高斯过程分类算法以79.3%的准确率区分了ADHD(与ASD相比的ASD),并突出了几个结构特性对这种分类贡献很大的区域。这些区域可能特别参与了ADHD的病理生理学,而不是ASD。尽管这些有希望的结果,Oztekin et al.发现,家长和老师评级的执行功能SVM模型导致了92.6%的准确性,而使用sMRI数据单独导致了61.2%的准确性,并添加解剖特征模型包含神经认知措最小的好处。因此,在某些情况下,sMRI测量在分类方面的额外好处可能有限,尽管它们仍然有助于识别潜在的结构差异。

机器学习也可以用于探索新的sMRI特征,这可能为正在进行的ADHD研究提供最佳的鉴别能力。例如,Chang等人基于局部二值模式(一种图像纹理分类方法)生成了新的形态学特征,以区分来自210ADHD226个对照组的ADHD-200数据集[76]的数据。应用SVM模型,检测ADHD的准确率为69.95%。同样,Igual等人利用解离偶极子的体积特征建立了基于SVM的分类模型,准确率为72.48%,特异性为85.93%,灵敏度为60.07%。另一个团队对新的区域间形态连接特征使用了混合机器学习方法,并报告了分类准确率为74.65%。虽然目前,这些研究并没有有助于我们理解ADHD本身的解剖改变,但它们通过突出可能有利于改进诊断或样本分类的特征,为该领域做出了贡献。

基于任务的功能磁共振成像:

基于任务的功能磁共振成像是一种常用的方法来检查大脑激活或功能连接在参与一个特定的认知领域。诸如体素级激活、最优区域之间的功能连接(roi)或网络拓扑属性(如图2所示)等特征可以用来构建机器学习模型。一些研究已经将机器学习技术应用于从ADHD患者身上收集的功能磁共振成像数据。例如,通过应用各种机器学习算法的功能激活在时间歧视任,侧翼任务,和停止信号任务,研究强调,额叶区域的任务激活是重要的多动症的分类,表明功能的额叶区域在多动症的重要性。

图片

2功能神经影像学特征。一个体素水平的特征,例如,基于任务的功能磁共振成像中的体素水平的激活或静息状态功能磁共振成像中的区域同质性。B功能连接。C图论分析中的网络拓扑性质。功能磁共振成像的功能磁共振成像。

重要的是,机器学习算法可能能够检测到功能模式(例如,多个大脑区域在区分ADHD和控制方面的集体贡献),否则在使用传统方法时可能无法被检测到。例如,Wolfers等人应用高斯过程分类器,在停止信号任务中,基于功能磁共振成像数据来区分ADHD受试者、未受影响的兄弟姐妹和对照者。该模型能够区分ADHD患者与AUC0.65的兄弟姐妹,以及AUC0.64的对照组参与者。结果显示,额外侧和下顶叶区是ADHD的高度鉴别特征。Hart等人利用高斯过程分类器,根据在停止信号任务(用于测量反应抑制)中记录的功能磁共振成像数据,来区分ADHD男孩和对照组。以体素级功能激活为特征,分类准确率达到77%。有趣的是,使用传统的单变量分析没有显示显著组间差异的体素在使用机器学习时显示出较高的鉴别能力。

静息状态功能磁共振成像:

大脑表现出内在的自发活动,可以在休息时被测量出来。rs-fMRI测量等收集到的数据可以用来生成机器学习特征,如区域同质性(ReHo)、低频波动的分阶振幅(fALFF)和网络连通性。由于rs-fMRI数据不需要任务的执行,因此在ADHD儿童中很容易实现。分类技术强调了处于静息状态的大脑活动在ADHD中具有潜在重要性的区域。例如,使用SVM的研究表明,默认模式网络、额顶叶区域、小脑、楔前叶/后扣带皮层区域和背侧前扣带皮层的功能连接在区分ADHD中起重要作用。

如前所述,ADHD-200数据集已经允许使用机器学习算法对ADHDrs-fMRI相关性进行大量调查。各种rs-fMRI特征已经被探索,包括ReHofALFF、功率谱、功能连接、体素和roi级功能网络。Eloyan等人构建了一种基于多数投票的分类算法,包括运动皮层连通性的随机森林、主要聚类的SVM、分解功能连通性的梯度增强方法、功能连通性和运动参数的梯度增强方法。最终的模型达到了94%的特异性和21%的敏感性,并且运动网络内的连通性在ADHD参与者的分类中最为重要。一些研究利用SVM构建了分类模型,并报道了额叶、顶叶和小脑在ADHD和对照组以及ADHD不注意亚型和ADHD联合亚型之间最具区别性。同样,一项图形卷积神经网络研究确定,额叶、颞叶和枕叶区域和小脑是ADHD和对照组最具鉴别性的区域。

尽管基于rs-fMRI的机器学习模型取得了成功,但诸如性别、年龄和认知测量等表型信息可能比rsfMRI数据提供了更多的鉴别能力。然而,rs-fMRI特征的添加仍然可能是有益的。例如,Bohland等人发现,添加这些特征增加了对新数据的泛化。此外,研究表明,rs-fMRI数据更能预测疏忽症状,而不是多动/冲动症,当单独使用为男性和女性受试训练的SVM时,分类准确率提高,这反映了这种模型的某些应用可以产生更准确的结果。这些考虑可能在未来的rs-fMRI研究中有用。

脑电图描记器:

脑电图由于其高可及性、低成本、非侵入性,在ADHD的研究中得到了广泛的应用。脑电图数据产生的共同特征是不同位置的频带功率和事件相关电位(ERPs),这是对感觉或认知过程的发生进行时间锁定的电反应,如图3所示。一些使用机器学习的研究表明,从脑电图数据中提取的特征可以用于区分ADHD患者与对照组和其他共病条件,其准确性在69-91%之间。基于脑电图特征对ADHD的特定诊断亚型进行分类也是可能的,尽管分类准确率较低,约为72%的。

一些研究已经研究了脑电图数据的特定特征的预测能力。例如,利用深度神经网络,一项研究发现,在刺激后100-200 ms时间范围内的erp在间隔时间任务中区分ADHD儿童和对照组很重要。该模型能够区分ADHD组和对照组,准确率为69%。此外,有几个因素似乎有助于基于脑电图的模型的准确性。一些研究已经评估了分类的最佳实验范式。例如,Chang等人报道,任务和休息条件之间的过渡时期的信号比任务条件或休息条件期间的信号对ADHD更有鉴别性。Tenev等人报道,与单一条件(82.3% vs 70%)相比,结合多种任务条件的模型的分类准确率显著提高。使用去/不去任务的研究报告了在最具区别性的任务条件下的不一致的结果。例如,Mueller等人报告说,基于erp的网络中无go对视觉持续注意任务的预测能力显著高于Go条件下。然而,Biederman等人报道,使用Go条件信号的基于SVM的模型在无Go条件下获得了更高的AUC0.92vs0.84)。年龄也可能是对分类的一个重要影响因素。例如,当对脑电图数据应用SVM时,将受试者分成不同年龄组可以提高分类精度。

机器学习在研究新的脑电图特征方面也很有价值。例如,Kim等人使用机器学习来验证不匹配负性(一种对比常规听觉刺激和偶尔的新刺激时的活动的新措施),以区分患有ADHD的成年人和对照组。SVMbased模型的分类准确率为81%,确定额叶、颞叶和边缘叶是分类中最重要的区域。研究还利用其他新特征构建了机器学习模型,包括各种基于熵的特征和混沌理论中的基于分形维数的特征。随着研究继续使用机器学习方法,很可能是最佳分类ADHD患者的新特征将继续被确定。

功能近红外光谱学:

功能近红外光谱学(fNIRS)是一种无创的、便携式的测量大脑皮层血流动力学反应的方法。相对于功能磁共振成像,fNIRS不太容易受到运动的影响,因此非常适合研究ADHD,机器学习有潜力利用fNIRS的高时间分辨率,同时克服其低空间分辨率。一项研究将SVM应用于工作记忆任务[111]ADHD儿童和对照组的fNIRS数据。最终的模型达到了96%的准确率,并强调了背外侧前额叶皮层、颞叶皮层、内侧前额叶皮层和后前额叶皮层在分类ADHD和对照组中是最具区别性的。安村等人将一个基于SVM的模型应用于来自ADHD儿童和在反向Stroop任务中收集的对照组的fNIRS数据。该模型的准确率为86.25%,灵敏度为88.71%,特异性为83.78%。将样本分为三个年龄组(<10岁,10-12岁,>12岁)显著提高了分类的准确性。

多模态成像

由于机器学习能够同时建模多个特征,因此它非常适合于ADHD神经标记物的多模态研究。例如,Zhou等结合rs-fMRIABCD数据集的sMRIDTI数据,报道额叶和颞叶、颞叶、小脑、丘脑和基底节区的功能连接是儿童ADHD最具区别的特征。Luo等人利用了多模态成像数据,包括提示注意任务中的fMRI数据、sMRI和弥散张量成像。该算法结合了一系列机器学习模型,在区分成人ADHD和对照组方面达到了89%的准确率,在区分ADHD坚持者和汇款者方面达到了90%的准确率。结果表明,额叶、顶叶和杏仁核体积的功能连通性对区分ADHD和对照组具有重要作用,而额叶、顶叶和壳核的功能连通性对区分ADHD持久者和汇款者具有重要作用。Owens等人了基于任务的fMR来自ABCD数据集的数据和结构MRI数据,以研究ADHD症状与影像学测量之间的关系。使用弹性网络算法,结果显示,与其他模式相比,工作记忆任务中的功能激活可以预测ADHD症状,以小效应量解释了2%的方差。结合多模式数据提供了识别一系列生物标志物的机会,鉴于其复杂的病因,这在ADHD中尤其有利。

图片

基因研究遗传研究

遗传学和双胞胎研究表明,ADHD是高度遗传性的。这种遗传性可能是由于多基因风险。最近的全基因组关联研究为理解与ADHD的遗传关联提供了有希望的结果。机器学习同时处理多个自变量,允许评估各种风险因素之间的相互作用。此外,它强调了在统计上不重要但可能导致ADHD的危险因素。这些特性使机器学习成为研究多动症基因标记的一个特别有价值的工具。van der Meer等人使用随机森林回归模型研究了29个压力相关基因对ADHD、阈下ADHD和儿童ADHD严重程度的预测能力控制。该模型解释了12.5%ADHD严重程度的差异,并表明,除了慢性应激源外,调节端粒酶逆转录酶表达的区域在预测ADHD严重程度方面也很重要。其他研究使用随机森林和卷积神经网络来研究ADHD的遗传预测因子,并揭示了GRM1GRM8EPHA5基因区域是ADHD的重要预测因子。使用多项机器学习算法,最近的一项研究报告称,年龄和性别是基于遗传信息的分类模型的重要预测因子。此外,基因区域SNAP25ADGRL3DRD4对预测疏忽、多动或冲动症状有显著贡献。SVM模型也表明,microRNAADHD具有较高的鉴别能力,可以预测ADHD患者的药物反应。

多组学研究

机器学习算法允许将遗传数据与认知和神经成像数据等数据相结合。例如,使用条件随机森林,Sudre等人能够预测ADHD的严重程度,AUC0.79。虽然认知测量在总体分类中最为重要,但基因组学在检测病情恶化的ADHD儿童方面很重要,这突出了多模态机器学习方法的实用性。Yoo等人结合通过sMRIDTI的解剖特征、rs-fMRI的功能连通性以及去甲肾上腺素、多巴胺和谷氨酸相关的遗传数据,建立基于随机森林的ADHD分类模型和回归模型。使用皮质厚度和体积的分类模型在区分ADHD参与者和对照组方面取得了最佳的表现,准确率为85.1%AUC0.877。此外,回归模型能够解释18%ADHD评分量表的方差。当包括基因数据时,这两种模型都没有得到改善。未来的机器学习研究可能需要进一步研究ADHD患者的遗传数据、神经认知表现、行为问题和神经生物学改变之间的关系。

机器学习对ADHD治疗和预后的预测

ADHD的异质性给制定有效和可靠的治疗策略带来了困难。哌醋甲酯(MPH)是治疗多动症的主要药物之一;然而,30%的患者的反应较差。机器学习技术有利于预测治疗结果,因为它们有能力从相对较少的先验知识中提供预测。一些研究已经使用SVM预测了对MPH的反应,其特征包括神经心理测试表现和临床信息信息和sMRI数据。Faraone等人采用了套索回归的方法来预测青少年对一种新型非兴奋剂药物(SPN-812)的反应。通过收集到第123周的应答数据(症状评分从基线开始变化),预测6周后的应答者状态(良好应答者定义为>症状评分改善50%)。lasso回归模型根据2周时的结果预测了长期结果,准确率为75%。机器学习也可以用来预测药物的不良结果,这在ADHD治疗中很常见。例如,Yoo等人基于多个变量预测了使用MPH治疗的睡眠副作用,准确率达到了95.5%。基于长期短期记忆模型的研究结果,foulavand等人报道,在11624ADHD 儿童的大队列中,青少年时期开始ADHD药物治疗是发展物质使用障碍的一个重要预测因素。Zhang-James等人也报道了ADHD药物治疗作为物质使用障碍的重要预测因素之一,以及12岁前的ADHD诊断和犯罪行为。鉴于找到最合适的ADHD治疗方法在很大程度上仍然依赖于药物的试错和药物治疗的不良结果的风险,使用机器学习模型预测治疗结果的能力有可能减少经济和医疗负担。

讨论

越来越多的研究正在利用机器学习技术来报告与ADHD相关的神经机制的可解释的结果,并建立准确的分类模型。这些研究已经为有关ADHD的功能、结构和生理相关性的文献做出了贡献。

机器学习模型的性能

分类模型的一个特别优势在于能够对个体进行标记。除了检测重要特征外,机器学习还可辅助ADHD个性化治疗方案的制定。精准医疗的理念已在许多其他疾病中引入和实,而机器学习研究能够加速其在ADHD中的应用。这一应用将无疑从大型数据集(如ABCD数据集、人脑映射数据集和英国生物样本库)日益增加的可获取性中受益,这些数据集可用于训练更加可靠的分类模型。小样本研究团队也可通过与其他组织的合作(例如增强神经成像基因组学元分析联盟ENIGMA)受益。此外,He等人还提出了元匹配方法,以在独立数据集上利用大规模公共数据集的信息。基于此类数据构建的可靠模型可以显著减轻临床医生的工作量,从而提高现有医疗系统的服务能力,减轻受影响家庭和社会的负担。

目前,ADHD分类模型的准确性在60%90%之间存在较大差异,这种不一致性可能由多个机器学习设计因素引起。首先,机器学习算法的选择可能会根据不同的数据集影响模型性能。在样本量较小的研究中,通常倾向于选择参数少或无需参数调整的算法,而大数据集的研究则可以尝试深度学习算法的有效性。第二个因素是不同组间的样本量平衡。大多数研究能够在患者组和对照组间维持相对平衡的样本量,但对于临床研究或基于人群的研究而言,实现样本平衡较为困难,这可能导致结果过于乐观。例如,同一模型在一项人群样本中的AUC可能显著高于在匹配对照的临床样本中的表现(AUC0.86VS.0.72)。最后,验证-测试策略的选择也会影响分类模型准确性的稳定性。独立的大型测试集是测试模型泛化能力的最佳选择,但仅适用于数据量较大的研究。嵌套交叉验证可能是另一种选择,其中内层交叉验证用于训练算法参数,外层交叉验证专门用于性能评估。然而,目前已有的ADHD机器学习研究中,超过一半的研究仅使用单一交叉验证进行结果报告,这可能导致特征过拟合并降低结果的泛化能力。

重要的特征的识别

机器学习技术的一个主要好处是,它们总是涉及多元数据,而一些机器学习模型,如SVM和随机森林,可以在彼此的交互作用下对特征的贡献进行排序。因此,可以根据其对ADHD的贡献来评估其识别ADHD的重要临床或生物学特征。精度(或AUC)也可以用来比较不同特征集的有效性。机器学习模型的训练过程广泛地学习与数据集中的分类标签相关的信息。当用来自不同模式的特征来训练相同的模型时,准确性可以部分地反映出ADHD中特定模式的敏感性。这一证据可用于指导未来假设驱动的研究中的实验设计。然而,一些因素限制了现有机器学习研究中所报道的重要特征的可解释性。首先,并不是所有的机器学习模型都有内在的操作,以对输入特征在学习过程中的重要性进行排序。虽然存在广义的特征重要性方法,如排列重要性,但这些方法并不一定代表原始模型中使用的协变量信息。另一方面,对于包含特征排序机制的机器学习模型,报告的结果可以受到模型的排序方法的限制。例如,线性SVM中的特征排名只识别ADHD的显示线性关系的高贡献特征。此外,现有的大多数研究只关注报告达到高分类准确性的学习过程,而没有充分考虑研究特征的“生物学意义”。最后,该领域在评估机器学习研究的质量方面仍然缺乏黄金标准。例如,本综述中的研究报告了基于不同评估方法的模型性能,如交叉验证、嵌套交叉验证或独立测试集,使用了各种指标,包括准确性、AUC、特异性和敏感性,这意味着性能可能不具有可比性。作者可以选择不代表真实表现的有利指标,而解释这种过度拟合或有偏见的研究的特征重要性需要额外的预防措施。

图片

4.机器学习研究的生成方法和维度方法。两组间分类的鉴别模型与生成模型。区分模型的目的是定义不同组之间的明确界限,而生成模型的目的是描述每个组,并根据概率或可能性进行分类。B维度方法。回归模型用于研究目标临床测量与转化维度上的数据之间的关系。

当前的挑战

尽管有巨大的前景,但在机器学习的异质性可以为ADHD提供显著的临床益处之前,也存在挑战。首先,机器学习算法目前缺乏可解释性。高精度模型通常由一组变量构建,每个变量在区分主题时提供部分信息。变量之间的关系很难被描述。目前,人们可以依靠该功能的重要性评分来为调查特定措施提供未来的方向。能够转化客观测量之间复杂相互作用的模型确实有助于理解与ADHD相关的神经机制。第二个挑战是在小样本上训练的分类模型的通用性有限。虽然这里报道的大多数研究都采用了交叉验证方法来对抗过拟合和泛化问题、临床研究中特征数量与受试者数量不平衡的本质以及研究样本的高异质性仍然限制了的通用性。值得注意的是,当将训练好的模型应用于新的主题时,分类准确率可能会显著下降,这突出了在实现机器学习时克服泛化问题的关键需要。

未来方向

机器学习技术目前仍在广泛的发展中有几个方向有可能解决现有的问题。其中一个方向是采取生成式的方法。大多数现有的机器学习研究都使用了鉴别模型,专注于寻找样本内已知群体之间的边界。相反,生成模型侧重于表征群体和基于概率预测群体分配,如图4a所示。此外,生成模型还可以通过识别聚类在一起的子组来表征样本。考虑到ADHD的诊断通常是基于主观测量,并且经常观察到共病,分类过程中的一个硬边界可能不是ADHD的适当阈值。在本文回顾的文献中,判别模型在构建准确的分类模方面更有效。这可能是由于使用精心选择的纳入和排除标准的样本更均匀。与判别模型相比,生成模型不太容易受到数据集中引起的偏差的影响,因此可以很好地泛化。此外,由于精神障碍的异质性,可能有多种病因来源或不同的临床特征。生成的无监督学习模型可以检测到隐藏的传统统计方法。这一特性为捕捉ADHD中嵌入的异质性提供了机会。更重要的是,更同质的子组扩展了重要特征的可解释性。

另一个方向是采用一个维度的方法ADHD的分类定义可能不足以全面地描述ADHD的症状。Fair等人报道了基于认知表现的不同的ADHD亚组,这表明除了基于DSM的症状测量外,可能还需要使用多种认知测量来描述ADHD的神经生物学特性。使用基于回归的机器学习算法同时将生物学特征与多个临床维度联系起来,可以将ADHD临床表现和生物学特性的异质性联系起来,从而提高了可解释性,例如图4b。这个维度方向与国家心理健康研究所诊断标准(RDoC)项目一致,该项目引入了一个框架来消除诊断施加的边界。值得注意的是,一些研究已经基于认知或行为特征来定义了临床分组,并且所有的研究都比传统的DSM临床分组产生了更独特的分组。由于缺陷可以通过几个维度来解释(例如,注意力、认知控制或RDoC矩阵中的感知结构),因此它可能更容易与相关的生物基质联系起来。此外,这也为探索ADHD的表型或内表型带来了机会,并解释了当前研究发现的异质性。

总之,早期使用机器学习来研究ADHD的尝试显示出了有希望的结果。除了寻求较高的分类准确性外,利用机器学习研究ADHD的研究还可以识别特征的重要性和模式的鉴别能力,从而提供临床和研究目标。未来的研究重点是提高模型的可解释性和通用性。

个人总结:注意缺陷多动障碍(ADHD)是一种在儿童中普遍存在且异质性的神经发育障碍,可能延续至成年。由于对其神经机制的理解仍不充分,导致个性化和高效治疗策略的制定面临挑战。研究表明,ADHD可能是认知、遗传和生物学等多重因素综合作用的结果。相较于传统统计方法,机器学习在识别复杂的多变量交互关系方面具有显著优势。本文综述了现有机器学习研究对ADHD机制理解的贡献,涵盖行为、神经认知、神经生物学测量(如遗传数据、MRIfMRIEEG、近红外光谱)及其在预防和治疗策略中的应用。同时,探讨了机器学习模型在ADHD研究中的潜力与局限性,强调在模型设计中应注重解释性和泛化能力。

参考文献

Cao M, Martin E, Li X. Machine learning in attention-deficit/hyperactivity disorder: new approaches toward understanding the neural mechanisms. Transl Psychiatry. 2023 Jul 1;13(1):236. doi: 10.1038/s41398-023-02536-w. PMID: 37391419; PMCID: PMC10313824.

解读:何迪


上一篇:往期精彩|ACTION:用于功能性MRI脑网络分析的增强和计算工具箱
下一篇:往期精彩|NeuroImage:膝关节炎如何影响大脑?静态与动态功能网络变化全解析