close
预约产品演示
请完善以下信息,我们将联系您进行演示
*
*
我已阅读并同意《隐私政策》
close
预约数据分析
请完善以下信息,我们将联系您进行沟通
*
*
我已阅读并同意《隐私政策》

往期精彩|Comput Biol Med:DFC-GCNN:基于动态功能连接-图神经网络的印度电影情感脑动力学fMRI数据集构建

发布:2026-02-16    浏览:8 次

摘要:

功能磁共振成像(fMRI)是一种无创神经影像技术,能够检测与情绪相关的脑激活模式。该技术使研究者得以实时观察大脑的功能变化,因此在情绪识别领域具有重要价值。为提升情绪识别系统的性能,深入理解情绪处理背后的神经机制至关重要。尽管全球范围内已有大量相关研究,但针对印度人群的 fMRI 情绪识别研究仍相对匮乏,这限制了现有模型的普适性。

为填补这一空白,研究团队构建了一个具有文化针对性的神经影像数据集(见 OpenNeurodatasets/ds005700),旨在识别印度多样化受试者群体中的五种情绪状态:平静、恐惧、欣喜、抑郁和兴奋。为确保文化契合度,情绪刺激材料选自宝莱坞电影片段。

本研究详述了 fMRI 任务设计、实验设置、数据采集流程、预处理步骤、基于一般线性模型(GLM)的统计分析,以及基于 Power 等人(2011)功能图谱的脑区划分所进行的感兴趣区(ROI)动态功能连接(DFC)提取方法。

研究提出了一种基于图卷积神经网络(Graph Convolutional Neural Network, GCNN)的监督式情绪分类模型,该模型以不同阈值下的 DFC 矩阵构建图结构。该 DFC-GCNN 模型在五折交叉验证中实现了 95% 的分类准确率,突显了关键情感脑区(包括杏仁核、前额叶皮层与前脑岛)中情绪特异性的连接动态特征。研究结果强调了时间变异性在情绪状态分类中的关键作用。

通过引入这一具有文化特异性的神经影像数据集及基于 GCNN 的情绪识别框架,本研究不仅提升了图模型在 fMRI 数据中识别区域连接模式的适用性,也为理解情绪处理在神经层面的跨文化差异提供了新视角。此外,该 fMRI 数据集具备高空间与高时间分辨率,为未来情绪神经科学及相关领域研究提供了宝贵资源。

引言

情绪是人类经验的核心,塑造着研究人员的思想、行为与人际互动。日常活动——无论是聆听音乐、观看电影还是阅读——都会显著影响研究人员的情绪状态。同样地,社交网络对心理健康的影响尤为深远,尤其在年轻一代中表现突出。因此,阐明情绪的神经机制已成为神经科学与心理学研究的迫切课题。

目前,可用于测量神经活动的技术包括正电子发射断层扫描(PET)、近红外光谱(NIRS)、脑磁图(MEG)、脑电图(EEG)以及功能磁共振成像(fMRI)。其中,fMRI 作为一种非侵入性手段,因其卓越的空间分辨率而在脑功能连接(functional connectivity, FC)研究中备受青睐 。

作为一种强有力的脑功能探索工具,fMRI 能够以高空间分辨率捕捉血流的细微变化。其采集的血氧水平依赖(blood-oxygen-level-dependent, BOLD)信号可反映脑区代谢需求的时序变化,从而间接揭示大脑的应答与功能状态。

图片

既往研究所采用的研究设计汇总

随着人工智能(AI)的最新进展,功能磁共振成像(fMRI)数据被越来越多地用于构建面向疾病诊断、情绪识别等不同场景的机器学习(ML)模型。算力的提升与数据规模的扩大,使得 ML 得以在人口学、临床、遗传与 fMRI 等多源数据中挖掘复杂关联。ML 算法依靠对海量数据的处理,能够识别潜在模式与特征,并据此预测未来结局。

由于 fMRI 数据维度极高,深度学习(DL)模型亦被引入神经影像分析,以期更精细地提取最优特征。Liang 等 利用注意机制与情绪数据集解码 fMRI 信号,并在两类数据集上分别应用支持向量机(SVM)与深度神经网络(DNN)。情绪数据集通过呈现国际情感图片系统(IAPS)诱发受试者情绪,研究者借助 Lausanne 脑图谱提取 129 个脑区作为感兴趣区(ROI)供SVM  DNN 建模。Orlando 等则针对不同年龄群体探讨情绪识别的神经相关物,以识别情绪识别能力衰退的早期征象。Candemir 等提出三阶段检测框架,利用 fMRI 信号研究社会支持相关的情绪变化。Kaheni 等采用聚类技术,依据神经活动将大脑划分为性质相近的区域,以评估嗅觉功能;他们进一步结合卷积循环神经网络(CRNN,融合 CNN  LSTM)对健康与嗅觉障碍受试者进行分类。Portugal 等让创伤受影响的被试在扫描中观看中性及残损图片,并基于高斯过程回归模型预测创伤后应激障碍(PTSD)症状。

 fMRI 情绪识别研究中,主要采用任务态 fMRItb-fMRI)与静息态 fMRIrs-fMRI)两类范式。实验设计又可分为组块设计、事件相关设计及混合设计;诱发方式与分类模型亦各不相同。表 1 汇总了既往研究所用方法,展示了文献中的关键策略。

多数 fMRI 研究聚焦于静息态 FC 变化,任务态 FC 探索相对不足。然而,任务态数据更有助于洞察大脑对自然刺激或任务的响应。传统 ML在此领域应用广泛,其中 SVM 与线性判别分析(LDA)尤为常见;DL  fMRI 上的潜力仍未充分释放。此外,以视频诱发情绪的 fMRI 数据极为稀缺。

现有情绪识别模型多采用标准化情绪面孔、FERP  IAPS 图片作为刺激,亦有研究使用声音与叙事文本(见表 1)。相比之下,情绪影片在 fMRI 研究中尚未充分应用,却能诱发更强烈的情绪反应:影片整合视觉、听觉和对白等多维信息,可连续调节个体的情绪脑状态。

鉴于影片刺激的 fMRI 数据稀少,本研究通过播放电影片段采集数据,以探究大脑对不同情绪刺激的反应,并识别跨个体的激活模式。

尽管 fMRI 情绪识别研究蓬勃开展,现有模型在跨文化应用时仍存在偏倚:刺激材料与神经模式均受文化语境塑造,导致在异文化人群中可能出现误分类。例如,文化相关的情绪刺激可能在不同人群中激活不同网络或 ROI

为此,本研究提出文化特异的情绪识别框架,利用印度受试者观看宝莱坞影片的 fMRI 数据,在印度语境下生态化地研究情绪神经基础。核心差异在于刺激材料——宝莱坞电影片段。研究者向 40 名印度裔健康受试者呈现影片,采集五种情绪状态(平静、恐惧、欣喜、抑郁、兴奋)的fMRI 数据,以期揭示不同情绪刺激对应的脑区激活模式。

fMRI功能连接(FC)衡量脑区间功能属性的时间相关性;动态功能连接(DFC)则刻画 FC 模式在扫描期间随时间的波动,而非假设其始终恒定。DFC 在解码情绪与心理状态方面备受关注,若干研究已用 EEG-DFC 展示认知任务中脑网络的时序重组。最新进展亦尝试融合频域特征与连接模式以提升跨被试情绪识别与运动想象检测精度。

本研究采用 DFC 以考察情绪刺激下脑功能网络的时间可变性。为建模这些复杂动态交互,引入图卷积神经网络(GCNN),旨在利用图结构数据捕获 fMRI 中的时空依赖,构建高精度、文化适应的情绪识别模型。相比 CNNGCNN 更适合 fMRI 数据:其可表征脑网络的非网格、复杂拓扑,从而更精准地分析连接模式,深入洞察脑功能。

此外,GCNN 因其对结构化数据的强大建模能力而在多领域受到关注。图神经网络(GNN)与多尺度 CNN 在动态连接中的结合,已在疲劳检测、自主场景信任评估等任务中展现优异性能,进一步印证了拓扑与时变脑网络表征在认知与情感计算中的价值,亦为本研究从 fMRI-DFC 解码情绪模式提供动机。

1.1 本文贡献

本研究在 fMRI 模态下首次系统采集了由视频诱发情绪的数据,涵盖平静、恐惧、欣喜、抑郁与兴奋五种情绪(图 1)。主要成果如下:

• 以宝莱坞电影片段为刺激材料,采集 40 名健康印度受试者的 fMRI 数据,构建包含上述五种情绪的数据集。原始数据以 Brain Imaging Data StructureBIDS)格式公开,存储于OpenNeurohttps://openneuro.org/datasets/ds005700),数据量 7.21 GB(原始 BIDS)。

• 开发高精度预处理流程,有效降低噪声并校正受试者间的异质性信号模式。

• 识别并分析印度受试者在观看本土情绪影片时被激活的关键情感脑区。

• 基于高维 fMRI 数据,在选定感兴趣区(ROI)内解析动态功能连接(DFC)模式,重点关注与情绪状态相关的时间变异性。

• 通过在不同阈值下提取的 DFC 矩阵优化深度学习模型的样本规模,提升分类模型的稳健性与泛化能力。

• 设计并实现面向情绪分类的 DFC-GCNN 模型:以动态功能连接(DFC)模式为输入,利用图结构表征功能连接,捕捉脑区间复杂的动态交互特征,从而提升情绪识别的准确性与可解释性。

图片

2 fMRI研究所用电影片段详情:观看时长、扫描体积及对应情绪

通过解析功能性脑网络并将深度学习技术应用于 fMRI 数据,本研究聚焦于情绪信息处理与情绪调节机制,有望推动诊断技术的革新。该研究具有深远影响,尤其是在提升情绪识别系统的文化适应性方面:基于印度人群构建的模型,将显著提高面向印度用户的 AI 应用(如心理健康诊断、情绪感知虚拟助手及人机交互技术)的准确率。此外,本研究为文化特定情境下的情绪处理神经动力学提供了新见解,为未来更具包容性与个体化的神经科学研究奠定基础。

材料与方法

本节介绍任务选择、刺激呈现及 fMRI 数据情绪标签的完整流程。

2.1 任务选择

数据采集所用的刺激材料取自印度情绪影片库(Affective film dataset from India, AFDI的创建与验证研究 [35]

所有影片片段均按诱发特定情绪的标准筛选,以高画质下载后裁剪至 30 s。为确保视频播放与扫描序列严格同步,fMRI 任务采用 E-Prime 软件呈现。表 2 汇总了各影片片段的时长、扫描体积及对应情绪类别。

2.2 刺激

任务态实验采用情绪片段白噪声(休息)交替的组块设计,共 20 个组块(情绪 10 组,白噪声10 组)。白噪声用于消除前一组情绪的后效。每个组块时长 30 s,总实验时长 600 s10 min)。五种情绪各呈现两次,单次运行即可完成。图 2 展示了情绪片段白噪声的循环结构。每位受试者在扫描过程中通过头线圈上的镜面观看放映于扫描室外电视屏幕的任务视频,共观看 20 段剪辑,以诱发多样化情绪并采集高质量 fMRI 数据(NeuroEmo)。

图片

数据采集流程概览:从受试者知情同意、扫描准备、实验设计,到数据 BIDS 格式转换的全过程。

图片

数据采集过程中用于诱发情绪的任务时序示意图

受试者在扫描仪内被动观看影片,全程无需作出任何反应。音频通过降噪耳机播放,音量经调节确保在扫描噪声之上仍能清晰听见。

2.3 情绪标签  

任务态 fMRI 数据与每种刺激一一对应,共采集 20 段视频(情绪类别:平静、恐惧、欣喜、抑郁、兴奋及白噪声)。每段 30 s 的视频内,以 3 s 间隔执行 10 次扫描,即每段视频采集 10 fMRI 体积(volume)。因此,每位受试者在任务态(FE-EPI)中共采集 200 个体积。每个体积依据所呈现的视频内容进行标记,从而获得与五种情绪类别对应的兴趣体积标签。

实验

3.1 数据采集

本研究方案及实验流程经印度兰契中央精神病学研究所(CIP)伦理委员会批准(批号:IEC/CIP/2022-23/1709)。数据于 2023  5 月至 2024  4 月在 CIP 认知神经科学中心fMRI 平台采集。伦理措施包括:获取书面知情同意;对所有个人信息严格保密,禁止未经授权的披露与再分发;确保受试者在实验过程中免受任何伤害。谨向所有参与者致谢(GitHub 项目地址:https://github.com/abgeena/NeuroEmo)。

共招募 40 名健康志愿者,均签署知情同意。排除标准:体内存在金属植入物或既往相关手术者。实验前向受试者详细说明注意事项,包括禁止携带金属物品及手机进入扫描区;扫描期间要求头部保持固定不动。

数据采集使用 Philips Ingenia 3T 磁共振扫描仪(见图 3),配备 16 通道头部线圈,一次性完成高分辨率结构像(T1w)与高时间分辨率功能像采集,包括静息态 fMRI 场回波平面成像(FE-EPI-REST)和任务态扫描(FE-EPI)。回波平面成像(EPI)是一种快速成像技术,可在短时间内获取 MR 图像,尤其适用于 fMRI。单次实验总时长约 25 分钟,依次完成基础定位像、T1wFE-EPI-REST  FE-EPI 扫描。扫描参数如下:结构像(T1w):矩阵大小 192 × 192 × 256,体素大小 1 × 1 × 1 mm,层厚 1 mm,层间距 1 mm,回波时间(TE2.943 ms,重复时间(TR6.5 ms,翻转角 9°。静息态功能像(FE-EPI-REST):矩阵大小 96 × 96 × 38,体素大小 2.29 × 2.29 × 4 mm,层厚 4 mm,层间距 4 mm,回波时间(TE35.001 ms,重复时间(TR2026.97 ms,翻转角 90°,层数 38。任务态功能像(FE-EPI):矩阵大小 128 × 128 × 36,体素大小 1.8 × 1.8 × 4 mm,层厚 4 mm,层间距 4 mm,回波时间(TE35 ms,重复时间(TR3000 ms,翻转角 90°,层数 36,升序采集,具备高时间分辨率。数据集维度见图 4。原始数据(DICOM 格式)大小约 20 GB,后续按 BIDS 标准整理,最终数据集(原始 BIDS 格式)大小为 7.21 GB

人口学特征及数据采集详细信息见表3。此外,参与者的十项人格量表(TIPI)问卷响应用于评估大五人格维度(五因素模型),结果见表4

图片

3 NeuroEmo 数据采集场景示意图

图片

4 NeuroEmo 数据集概览

图片

样本概况(N = 40——社会人口学特征与数据采集详情

图片

4男性与女性大五人格(BFQ)特征描述性统计

3.2 数据预处理

预处理是任何分析之前必须完成的首要步骤。从扫描仪直接获取的 fMRI 数据通常会受到噪声、尖峰、平均信号强度差异、数据伪迹及鬼影等问题的干扰,这些干扰来源于受试者的头动、呼吸、心跳,或因扫描仪的涡电流、梯度发热等因素。如果这些问题未被察觉而直接纳入分析,将破坏实验结果。

预处理的核心在于剔除受噪声、头动、信号差异、切片时间误差、脑结构差异及空间畸变影响的数据。预处理后,功能像首先被叠加到各自的 T1w 结构像上(共配准),随后可进一步配准到通用脑模板上(空间标准化)。

 5 展示了本研究所采用的 fMRI 预处理流程,表 5 则总结了各预处理步骤的重要性;各步骤对应的数学计算见公式 (1)–(4)。具体流程如下:首先,通过 dcm2niix 将采集到的 fMRI DICOM 数据转换为 NIFTI 格式,以分离头文件与图像文件。随后,利用 BIDS 转换工具对数据进行整理,并验证其合规性以备后续使用。

图片

采集数据的预处理步骤流程图

图片

5 fMRI 数据需完成的预处理步骤

随后,利用 MATLAB 平台的统计参数映射工具箱 SPM12  BIDS 格式化数据进行进一步处理。为进行运动校正,先将功能像与每位受试者的首帧功能体积重新对齐并完成配准,并按式 (1) 计算 6 个运动参数(个平移量与 3 个旋转量):

图片

????为原始功能体积中某一体素的原始坐标;????′为该体素经变换后的坐标;????为旋转矩阵;????为平移向量。

随后,对按升序采集的 36 层切片进行切片时间校正,校正后的信号按式 (2) 计算:

图片

其中:????为时刻????的信号,Δ????为第 i 层切片相对于参考切片的时间差,????ₖ为原始信号的时间点,????为插值核函数。

随后,将功能像与每位受试者自身的高分辨率 T1w 结构像进行共配准,并以第一帧为参考。共配准完成后,对 T1 像执行分割,将其划分为灰质(GM)、白质(WM)和脑脊液(CSF)图像,并结合重配准步骤得到的 6 个运动回归量一并保存。

 fMRI 研究中,灰质因其富含信息性信号而被重点关注。分割完成后,下一步将受试者数据标准化至通用模板,即蒙特利尔神经研究所(MNI)标准空间。

然而,鉴于多受试者数据集存在异质性模式,为消除个体间差异,必须将不同受试者的 fMRI 数据对齐至共同空间,以支持跨被试的认知分析。为此,首先利用 DARTEL 构建研究特异模板,将各受试者图像转换至此模板;随后,将该研究特异模板进一步标准化至 MNI 标准空间,如式 (3) 所示:

图片

其中,???? MNI 标准空间中的体素坐标;????_normalized 表示经标准化后的图像;????为变形场(deformation field)。对齐的目的是确保所有受试者的 fMRI 响应在统一空间中精确配准,从而最大化同类刺激之间的神经活动相关性,并最小化不同类刺激之间的相关性,以突出神经活动的差异。

在最后一步,使用高斯核对图像进行空间平滑处理,半高全宽(FWHM)设为 8 mm,计算公式如下:

图片

其中:I(x) 为图像,G(x) 为高斯核函数。每一步预处理完成后均实施严格的质量控制。

3.3 统计分析

预处理完成后,为识别不同情绪状态的神经相关位点,采用单变量分析策略。本研究使用一般线性模型(General Linear Model, GLM)对数据进行分析,以定位在各类情绪状态下显著激活的脑区。

GLM 是一种常用于 fMRI 数据分析的统计模型。它利用线性回归来建立 BOLD 信号与实验设计之间的关系,如公式 (5)(6) 所示:

图片

其中,????为时间序列的观测 BOLD 信号向量;????为设计矩阵;????为待估计的参数向量;????为误差项。在预处理图像上依次进行 GLM 的一级(个体水平)和二级(组水平)分析。一级分析针对每位受试者独立实施,实验条件包含五种情绪类别:平静、恐惧、欣喜、抑郁与兴奋。模型中纳入了每一条件的起始时间与持续时间。通过设定对比向量,以“平静”作为基线,分别比较其余四种情绪。具体对比为:兴奋 vs. 平静、恐惧 vs. 平静、欣喜vs. 平静、抑郁 vs. 平静,并采用 t 统计量检验,如公式 (7) 所示。对于对比向量 c统计量计算如下:

图片

其中:tt统计量;c为对比向量;β̂为估计的β系数;var(cβ̂)为对比向量与β̂乘积的方差。二级分析对一级分析中的每一对比进行单样本 t 检验。显著团簇的判断标准为:体素水平 p < 0.05,且团簇体素数 ≥ 30

3.4 感兴趣区(ROIs  

由于 fMRI 数据体素级别的时序维度极高,且在某些特定脑功能实验(如视觉或听觉刺激)中,只有部分脑区被激活,因此选取关键脑区是开展精准脑研究的前提。

为降低维度并聚焦相关信号,本研究采用 Power 等(2011)提出的 Power-264 图谱,通过 Python  Nilearn 库提取预定义 ROIs 的时间序列。每个 ROI 被定义为半径 r = 5 mm 的球体区域。

 X(v, t) 表示 fMRI 数据,其中 v  V_j 表示第 j  ROI 对应球体区域 V_j 内的体素,时间 t  {1, 2, , n}。第 j  ROI 的时间序列计算为该球体区域内所有体素的平均激活值。为保证信号尺度一致,各 ROI 的时间序列均按式 (8)(9)进行标准化:

图片

其中,????为第jROI 原始时间序列 ????的均值;????为其标准差。标准化后的时间序列????̃(????作为后续分析的输入。ROI 时间序列提取的整体算法总结于算法 1

3.5 动态功能连接与阈值处理  

本文采用动态功能连接(DFC)进行特征选择,用以捕捉不同脑区间随时间变化的连接模式。图 6 展示了每位受试者在各类情绪下 DFC 的三角化表示。随后,对这些矩阵进行多级阈值处理,仅保留最强连接,以抑制噪声并增强网络动态的可解释性,如图 7 所示。

研究人员采用滑动窗口法计算 ROIs 之间的动态功能连接(DFC)。给定时间序列矩阵 ????^{n×m},其中 n 为时间点总数, ROI 数量。设定窗口长度 w = 4 个时间点,步长 s = 2 个时间点。

对每个窗口 ????k,其起始时刻为 tk {0·s, 2·s, …, (n-w)·s},提取对应的时间子矩阵????k^{w×m},随后按公式 (10) 计算该窗口内 ROI 的皮尔逊相关矩阵 [38]

图片

其中,Ti(t)  Tj(t) 分别代表窗口内第 i 与第 j  ROI 的时间序列,T̅i T̅j为其各自均值。  

在得到相关矩阵 Ck后,进行阈值处理以剔除较弱连接。给定阈值 τ ∈ {0.75, 0.80, 0.85, 0.90},阈值化后的连接矩阵Ckτ 按公式 (11) 计算:

图片

因此,对于每一个滑动窗口,研究人员都得到了一个经过阈值处理的动态功能连接矩阵 ????????k。本文所提出的 DFC 计算算法汇总于算法 2;而所有受试者在全部情绪条件下的 ROI 时间序列提取、DFC 计算以及阈值应用的完整流程则汇总于算法 3。此外,表 6 列出了本研究使用的窗口大小、阈值范围及数据维度等参数值。

3.6 DFC-GCNN 分类器

为对 DFC 矩阵中蕴含的时空依赖关系进行建模,本文提出图卷积神经网络(GCNN)。每个功能连接矩阵被视为脑区图的邻接矩阵:节点对应脑区,边对应连接强度。DFC-GCNN通过分层表征学习,对不同情绪所特有的连接模式进行分类。模型总体框架见图 8,算法流程总结于算法 4

网络结构依次包含图卷积层、ReLU 激活、批归一化、Dropout 正则化及全局均值池化,以节点特征完成情绪分类。

设图 ????= (????????),其中????为节点(即 ROIs),????为边(ROIs 间功能连接)。输入特征矩阵 ????^{????×????对应????个节点,每个节点特征维度为????。模型学习目标为映射函数????????→ ????,将每个图分类至????种情绪类别之一。

图片

图片

6 p < 0.05 阈值下不同情绪的DFC 矩阵 (a)平静(b)恐惧(c)欣喜(d)抑郁(e)兴奋

图片

不同阈值下 DFC 的环形连接图

图卷积运算的数学表达如式 (12) 所示:

图片

·H^(l)^{N×d_l}:第 l 层的输入节点特征矩阵

·A^{N×N}:图的邻接矩阵,表示脑区 ROIs 之间的功能连接

·D^{N×N}:对角度矩阵,其中 D_{ii} = Σ_j A_{ij}

·W^(l)^{d_l×d_{l+1}}:第 l 层可学习的权重矩阵

·σ:激活函数,此处采用 ReLU

3.6.2 批归一化(Batch Normalization

批归一化步骤确保每层输入均值为零、方差为一,按式 (13) 计算:

图片

其中,μ_B  σ²_B 分别表示小批量 B 的均值与方差;γ  β 为可学习的缩放与平移参数。

3.6.3 Dropout 正则化

为防止过拟合,训练阶段随机将部分元素置零,其计算按式 (14) 进行:

Dropout(????) = ????????(14)

其中,????Bernoulli(????)是从参数为????(即 dropout 率)的伯努利分布中采样的二元掩码。

3.6.4 全局均值池化  

在图卷积操作之后,采用全局均值池化(GMP)将节点级信息聚合为单个图级表征,如式 (15) 所示:

图片

8 基于任务态 fMRI 数据的 DFC-GCNN 情绪识别模型示意图

图片

其中,????为节点????的特征向量,|????|为节点总数。

3.6.5 全连接层

池化后,通过全连接层进行分类,如式 (16)所示:

图片

其中,????_fc{d_hidden × E}与 ????_fc分别为全连接层的权重与偏置,为类别数,此处 E = 5

4 结果与讨论

各对比条件的统计图均使用 SPM 进行计算,并借助 Python  Nilearn 进行可视化。

在一级分析基础上,采用单样本 t 检验进行二级分析,分别以“平静”作为基线,对“恐惧、欣喜、抑郁、兴奋”四种情绪进行对比。

图片

图片

9 不同对比条件的脑表面视图

(a) 恐惧 vs. 平静 (b) 欣喜 vs. 平静 (c) 抑郁 vs. 平静 (d) 兴奋 vs. 平静

图片

10 不同对比条件的 z 值图(阈值 p < 0.05

(a) 恐惧 vs. 平静 (b) 欣喜 vs. 平静  (c) 抑郁 vs. 平静  (d) 兴奋 vs. 平静

图片

训练前的参数值与数据维度

根据 fMRI 分析结果,研究人员分别计算了以下四种情绪对比在大脑双侧(左、右半球)的激活图:恐惧 vs. 平静、欣喜 vs. 平静、抑郁vs. 平静、兴奋 vs. 平静

 9 展示了这些对比的正、负激活图,色标对应 z 值,阈值设为 p < 0.05;图 10 则给出了仅显示正激活的 z-map。表 7 汇总了每个对比中前四个最大团簇的统计信息,包括峰值 MNI 坐标、峰值 z 值及对应的 AAL [39] 脑区标签。

从表 7 可见:恐惧 vs. 平静:中颞叶(Temporal_Mid)与枕下回(Occipital_Inf)显著激活,提示这些区域在恐惧加工中活动增强。欣喜 vs. 平静:激活集中在顶下小叶(Parietal_Inf)与中扣带回(Cingulate_Mid),表明感觉与情绪处理网络共同参与。抑郁 vs. 平静:顶上小叶(Parietal_Sup)与中扣带回(Cingulate_Mid)占主导,反映注意与情绪调节区域的活动改变。兴奋 vs. 平静:颞上回(Temporal_Sup)及颞叶区域显著激活,揭示听觉与情绪整合在兴奋状态下的增强,体现了各情绪状态独特的神经模式。

图片

除上述整体结果外,本文还进一步讨论了左右半球在这些情绪对比中的差异:

左半球:在“恐惧 vs. 平静”中,左半球的颞上回左(Temporal_Sup_L)、顶上小叶左(Parietal_Sup_L)及枕中回左(Occipital_Mid_L)显著激活,提示左半球在处理恐惧及注意驱动反应中的优势作用。在“欣喜 vs. 平静”中,左半球的扣带回中左(Cingulate_Mid_L)与顶上小叶左(Parietal_Sup_L)出现激活,表明积极情绪加工在左半球的偏向性活动。右半球:在“恐惧 vs. 平静”中,右半球的颞中回右(Temporal_Mid_R)与梭状回右(Fusiform_R)被激活,突显右半球在恐惧加工中的参与。

综上,不同情绪状态诱发的脑区激活呈现明显的半球差异:负性情绪(恐惧、抑郁)与右半球活动增强相关,而正性情绪(欣喜、兴奋)则与左半球活动增强相关。这一半球功能专门化揭示了不同情绪体验背后的独特神经机制。

所观察到的神经激活模式与既往神经科学发现一致:如恐惧反应中杏仁核与岛叶的增强,以及情绪调节与评价过程中的前额叶参与,均印证了模型输出的有效性及其在情感神经科学文献中的可解释性。正性情绪(如喜悦)主要与左额叶区域活动相关,该区域与趋近行为和积极情感相联系;而负性情绪(如恐惧、悲伤)则与右额叶半球相关,该区域与回避行为和负性情感相联系。

统计分析完成后,去除白噪声对应时间点,将提取的 ROI 时间序列输入所提模型进行训练与测试。模型在 Google Colab 上运行,开发环境为 Python 3.11.4,硬件配置为第 11  Intel(R) Core(TM) i7-11370H @ 3.30 GHz16 GB RAM  NVIDIA GeForce GTX 3050 笔记本 GPU

模型所用超参数设置见表 8:输入节点特征:264 维(基于 Power-264 图谱的 ROIs)。输出:类情绪。隐藏层维度:32Dropout0.5。学习率:0.01。权重衰减:5×10。训练轮数:30 epoch。批次大小:32

采用 5 折交叉验证(随机种子 42)评估模型泛化能力,确保结果可复现。通过验证集与训练集指标反复调参,防止过拟合。图 11 和图 12 分别展示了DFC-GCNN  5 折交叉验证中的混淆矩阵与准确率曲线。进一步,模型在不同单阈值及联合阈值下的效果见表 9;消融实验结果列于表 10。并计算了精确率(precision)、召回率(recall)及 F1-score;表 11 给出了各情绪类别在不同折上的上述指标,图 13(a) 展示了 DFC-GCNN 在各情绪类别上的 precisionrecall F1-score,图 13(b) 对比了多种深度学习模型的准确率。所提模型还与 CNN、图注意力网络(GAT)、卷积增强 TransformerConformer)及 CRNN 等进行对比。

DFC-GCNN 在各情绪分类任务上均取得最高平均准确率 0.95,显著优于传统 ML 与其它DL 模型,证明其能有效捕捉 DFC 数据中复杂、非线性关系。研究结果表明,DFC 提供了静态指标无法实现的、时间分辨的脑连接理解。

 14(a)  (b) 分别绘制了DFC-GCNN  5 折交叉验证中的损失曲线与 ROC 曲线及其 AUC 值。

消融研究

为探究所提框架中不同处理阶段的贡献,本研究对基于 GCNN 的情绪识别模型的三种变体进行了消融研究:

1.SFC-GCNN:直接以静态功能连接(SFC)矩阵为输入,不考虑时间动态性。

2.DFC-GCNN 无阈值:使用 DFC 矩阵,包含连接的时间波动,但未进行阈值处理。

3.DFC-GCNN 带阈值:所提方法,对 DFC 矩阵进行阈值处理,仅保留最显著的边后输入 GCNN 模型。

各变体的分类准确率见表 10。此外,图15 展示了不同变体对应的混淆矩阵,凸显了带阈值 DFC-GCNN 在预测准确率和分类性能上的提升。这些结果表明,相较于 SFC,纳入 DFC 可提升性能;而应用阈值处理能够聚焦更具信息量的 FC,显著增强模型效果。

此外,类似研究已证明 DFC 在情绪相关任务中的价值,尤其是在基于 EEG-fMRI 联用的神经反馈训练中。相比之下,本研究聚焦于基于 fMRI  DFC 分析,使用文化相关刺激进行情绪识别,彰显了 GCNN 等图模型在解码时变连接模式中的优势。这些互补发现进一步夯实了 DFC 方法在情感神经科学中的重要性。

图片

7各对比条件下前四大团簇的统计数据、峰值MNI坐标、峰值及对应AAL脑区

图片

8所提DFC-GCNN模型的超参数设置详情

图片

不同选定阈值下所提DFC-GCNN模型的性能评估

图片

10 不同模型的消融实验结果

图片

11DFC-GCNN模型在每个折中的精确率、召回率和F1分数

当前研究结果表明,动态功能连接(DFC)能够提供一种丰富且具有时间分辨率的脑活动视角,而传统的静态连接测量方法则无法捕捉到这些信息。这种动态表征有助于更好地模拟情绪处理过程中不断变化的特点,与神经科学研究中的新共识相一致。此外,图卷积神经网络(GCNN)的应用不仅在基于脑成像的情绪识别领域展现出了巨大潜力,还在多个现实世界的应用场景中取得了显著成果。例如,GCNN 已被成功应用于阿尔茨海默病等神经退行性疾病的诊断、工业自动化中的表面缺陷检测、在线学习中的智能推荐系统以及药物建模中对酶抑制剂的预测 。这些研究充分证明了 GCNN 在处理复杂结构化数据时的多功能性和强大能力。本研究中基于 DFC  GCNN 模型的成功与这一广泛趋势相吻合,进一步强化了其在基于神经成像的情感计算任务中的潜在应用价值。

所提出的模型可应用于临床或心理学研究等实际场景。本研究中通过观看文化相关影片所采集的数据集,可拓展用于研究情绪处理过程中的跨文化差异。该模型可用于脑机接口(BCI),以开发能够感知情绪的人工智能系统,从而提升虚拟现实(VR)、游戏以及自适应学习环境等应用中的用户体验。此外,该模型还有助于通过识别与抑郁症、焦虑症和创伤后应激障碍(PTSD)等情绪障碍相关的功能连接变化,实现对这些疾病的早期检测。它还可以用于分析个体在情绪处理方面的差异,推动个性和行为研究的发展。基于人工智能的情绪检测系统能够在顾客体验分析、工作场所的压力检测或智能环境中的实时情绪适应等方面发挥辅助作用。

结论、局限性及未来工作

研究结果表明,不同情绪状态会引发大脑各区域独特的激活模式,与现有情绪处理理论相吻合。例如,“恐惧 vs. 平静”对比显示颞叶和枕叶区域(如中颞叶、枕下回)显著激活,表明这些区域活动增强;“欣喜 vs. 平静”对比中,顶下小叶和中扣带回显著重叠,提示感觉与情绪处理区域的激活;“抑郁vs. 平静”对比中,顶上小叶和中扣带回占主导,反映注意与情绪调节区域活动改变;“兴奋 vs. 平静”对比显示颞上回及颞叶区域显著激活,表明兴奋状态下听觉与情绪整合增强。这些发现凸显了不同情绪的独特神经处理机制。 此外,DFC 矩阵分析揭示了每种情绪状态独特的连接模式。例如,恐惧状态下杏仁核与前额叶连接增强,而快乐状态下颞叶与顶叶区域连接加强。这些结果明确了情绪处理的神经相关性,与以往涉及多种情绪状态的研究一致,表明每种情绪会引发不同脑区的独特激活模式。这进一步强化了大脑中情绪处理的复杂性,以及在理解情绪体验时考虑区域激活的重要性。

图片

11 所提DFC-GCNN模型的5折交叉验证结果混淆矩阵

图片

 12 所示为所提 DFC-GCNN 模型在每折中的准确率变化情况。

图片

 13. (a) DFC-GCNN 模型在不同情绪类别上的精确率、召回率和 F1 分数性能表现;(b) 所实施深度学习模型的准确率对比。

图片

14. (a) 每个折的训练损失曲线;(b) 所提 DFC-GCNN 模型的接收者操作曲线(ROC)和曲线下面积(AUC)。

图片

15. 比较不同模型的消融研究混淆矩阵。

总之,将动态功能连接(DFC)与图卷积神经网络(GCNN)相结合,为 fMRI 数据分析带来了重大进步。该方法不仅加深了研究人员对大脑网络时间动态性的理解,还为复杂认知和情绪状态的分类提供了有力框架。

fMRI具有无创性和高空间分辨率等优势,基于脑内血流变化检测神经活动:神经元活跃时局部血氧消耗增加,反之亦然。只要遵循安全规范,fMRI 是一项非常安全的技术。然而,fMRI 数据存在噪声问题,采集与分析时必须经过预处理才能提取有效信号。此外,fMRI 的时间分辨率相对较低,常需借助共注册的结构扫描来弥补。实验与研究设计时必须考虑这些局限性。

未来研究可探索以下方向:开发更精良的机器学习模型和深度学习技术,以应对 fMRI 数据的高维度和噪声问题;应用更先进的 GCNN 架构或其他基于图的深度学习模型;尝试更长的时间窗口或不同的连接性指标,以进一步提升模型的准确率和可解释性。另一个有前景的方向是将 fMRI 与其他模态数据结合,构建更全面的大脑活动和情绪识别模型。此外,实时 fMRI分析也是值得探索的领域,可实现情绪状态的动态追踪。最后,扩大研究至更多样化和更大规模的数据集,有助于提升研究结果的普适性,并推动稳健的跨文化情绪识别模型的开发。应对这些挑战并探索这些方向,将显著推动领域发展,为研究和临床实践提供更准确、可靠的模型。

参考文献

Abgeena, A., Garg, S., Goyal, N., & P C, J. R. (2025). NeuroEmo: A neuroimaging-based fMRI dataset to extract temporal affective brain dynamics for Indian movie video clips stimuli using dynamic functional connectivity approach with graph convolution neural network (DFC-GCNN). Computers in biology and medicine, 194, 110439. https://doi.org/10.1016/j.compbiomed.2025.110439

解读:万家利

审核:褚凡


上一篇:Biol. Psychiatry:创伤后应激障碍(PTSD)中的恐惧与情感痛苦
下一篇:没有了!