往期精彩|Nature Neuroscience：解决脑发育的大型自动化MRI分析中的人为偏差-杭州脑海科技有限公司

摘要总结：

本研究基于ABCD大样本青少年脑发育数据，系统评估图像质量对结构MRI（sMRI）测量及其与临床变量关联的影响。作者发现，低质量图像会显著偏倚皮层厚度、表面积等指标，并导致假阳性/假阴性结果。人工质量控制（MQC）与自动化指标（表面孔数SHN）结合可部分缓解偏差，但无法完全消除。即便在高质量图像中，手工编辑仍显著改变测量值，尤其在8–10岁儿童中影响最大。研究强调，大样本不能替代高质量图像，质量控制是确保脑-行为关联可信性的关键。

摘要：

大规模、基于人群的青少年磁共振成像（MRI）研究有望为神经发育及精神疾病风险带来变革性洞见。然而，青少年MRI尤其容易受到运动伪影及其他伪影的影响，从而引入非随机的噪声。在“青少年脑认知发育研究”项目中，该研究对11 263例9–10岁儿童所获得的T1加权MRI扫描进行了视觉质量控制，发现55.1%图像质量欠佳的样本其皮层厚度与表面积的测量存在偏差。这些偏倚影响了结构MRI与临床指标之间的关联分析，导致假阳性与假阴性结果并存。表面孔洞数目——一种用于量化拓扑复杂度的自动化指标——能够以较高的特异性可靠地识别低质量扫描；将其作为协变量纳入模型后，可在一定程度上缓解与质量相关的偏倚。进一步审视高质量扫描时，该研究还发现图像预处理过程中引入了额外的拓扑错误。通过人工手动校正，这些错误得以修复，并可在重复实验中一致地改变厚度测量值，同时增强年龄—厚度关联的强度。该研究在此证明，不恰当的质量控制削弱了利用大样本检测有意义关联的优势；通过进一步的自动化与人工干预，这些偏倚可被有效减轻。

1 引言

磁共振成像（MRI）在临床神经科学研究中被广泛用于探讨健康个体及神经精神疾病患者神经解剖结构的差异。结构（T1加权）MRI（sMRI）扫描可在个体水平上可靠地提供皮层厚度、表面积及体积等指标，并可将其余脑影像数据（如功能MRI和正电子发射断层扫描）配准至解剖模板，以便开展群体水平的分析。基于精神疾病神经发育模型的预测，大规模儿童与青少年脑MRI研究有望揭示早期精神病理的神经特征。这些洞见可进一步用于改进早期识别与治疗策略。因此，美国国立卫生研究院及其他资助机构已在青少年脑发育纵向MRI研究方面投入大量资源，例如正在进行的青少年脑认知发育（ABCD）研究。近期工作强调，此类临床MRI研究需要纳入数千名受试者，因为精神病理学与MRI指标之间的关联效应量往往较小。此外，儿童与青少年的MRI扫描尤其容易因受试者运动而产生伪影。一个尚未回答的问题是：当样本量达到数千人时，是否足以弥补因纳入低质量sMRI图像而导致的测量误差？抑或，较小规模的研究提示，可见的运动伪影不仅引入随机噪声，还可能带来偏倚，而偏倚能否被更大样本所抵消仍不确定。另一个相关问题是，在扫描采集、处理或分析阶段所采用的自动化质量控制（QC）措施，是否足以识别并校正大规模儿童sMRI研究中的低质量图像。值得注意的是，与功能MRI不同，头动在sMRI分析中并非常规量化，其对sMRI测量的影响研究亦较少——尽管已有研究将诱发或实测运动与sMRI估计偏倚联系起来。图像预处理软件可提供自动化QC指标，如FreeSurfer处理流程中的整体“通过/未通过”评级。ABCD研究将该指标与原始数据筛查及临床（放射科）评估相结合，以决定是否将图像纳入分析。然而，在较小规模的青少年样本中，常规自动化QC指标对人工（视觉）QC所识别的sMRI伪影的检测敏感性并不一致。因此，最后一个值得考虑的问题是——尤其对ABCD这类在10年内从逾一万名青少年中采集六套MRI扫描的大规模研究——在经后处理的sMRI扫描中实施人工质量控制（MQC）以及更为耗时且资源密集的手动皮层编辑，究竟能带来多大的增益。根据图像质量的不同，一名熟练技师对单次扫描进行手动编辑可能仅需30分钟，也可能耗时数日。尽管手动编辑在识别儿童sMRI病例—对照差异方面的效用曾受到质疑，但其在准确检测青少年亚临床神经发育细微差异中的重要性在其他研究中已得到证实。

该研究总体目标如下：（1）揭示潜在图像质量差异对sMRI测量及临床应用分析的影响；（2）评估额外自动化与MQC干预对降低与质量相关错误风险的效果。上述分析主要依托对ABCD研究基线（9–10岁）及第2年随访（11–12岁）超过12 000例sMRI图像的深度MQC评估，并比较人工与自动化QC干预的效果。

2 结果

2.1 基线扫描的图像治疗差异

研究设计、纳入标准、sMRI预处理及MQC评分方法详见“方法”部分。共10,295例基线T1扫描（年龄9–10岁）完成MQC评分。对全脑T1像逐层多平面观察后，整体外观被评为：1分（几乎无需人工编辑，n=4,630，45.0%）、2分（需中度编辑，n=4,063，39.5%）、3分（需大量编辑，n=1,383，13.4%）或4分（无法使用，n=219，2.1%）（图1b、c及补充表1）。评分已上传至美国国立精神卫生数据档案馆（NDA）。评分在时间序列上分布稳定（扩展数据图1a及补充表2），纳入228例存在分割错误的扫描后结果不变（扩展数据图2及补充表1b）。除325例外，其余扫描均通过ABCD NDA自动“通过/不通过”判定；这325例主要集中在高MQC组（MQC=1占0.4%，MQC=2占1.4%，MQC=3占10.6%，MQC=4占48.9%）。补充表1a列出不同MQC组的人口学、临床及扫描仪特征。图像质量较高的个体略年长、女性比例高，儿童行为量表（CBCL）外化症状及总症状得分较低。扫描仪厂商亦影响质量：未配备实时运动校正的飞利浦机型平均MQC评分最佳（1.34，95% CI 1.29–1.38），优于配备该功能的西门子（1.71，95% CI 1.69–1.73）和GE（1.96，95% CI 1.93–1.99）（控制年龄、性别及精神病理后均P < 0.0001）。

图1 MQC协议图

2.2 图像质量对皮层测量的影响

皮层厚度、表面积及体积的自动测量常用于识别病例-对照差异或预测维度特征。该研究评估MQC评分与FreeSurfer指标的相关性。MQC评分与皮层厚度呈线性负相关，广泛分布于皮层（图2a）；与侧/上部表面积呈正相关，与内侧/下部表面积呈负相关（图2b）；对体积的影响呈异质性（图2c）。MQC=1与MQC=2、3、4的两两比较显示，随评分变差，结构指标效应量逐渐增大（补充表3a–c列出Desikan-Killiany 68个ROI结果）。例如，MQC=1与2、3、4比较，分别有39、55、61个ROI厚度差异显著（FDR q < 0.05）。厚度受QC影响强的区域不仅限于既往较小样本（n=1,840）研究所报道的ROI，且方向一致（如外侧多个ROI增厚，内侧枕叶及后扣带回变薄）。皮质下体积亦随MQC升高而普遍减小（补充表4）。

该研究进一步比较其他自动QC指标，包括表面孔数（SHN），与人工MQC评分的一致性。SHN与MQC评分同步升高（rho=0.59；各MQC层间SHN均值差异均P ≤ 1.02×10⁻¹²¹）。SHN与厚度、表面积、体积的线性关联（图3a–c）与MQC结果高度相似。SHN预测MQC的能力优于其他自动指标，且与MQC关联模式一致（扩展数据图3）。SHN在不同时间点评分中分布稳定（扩展数据图1b）。

随后，该研究检验将SHN作为协变量能否减弱扫描质量差异对sMRI指标的影响。以MQC=1与2、3、4比较，控制SHN后，厚度效应量（Cohen’s d）减少42%–59%，表面积减少39%–57%，体积减少16%–62%（图3d–f及补充表3d–f、补充表5）。MQC=1与2比较时，厚度差异显著的39个ROI中，17个在控制SHN后不再显著，1个新出现显著。该研究进一步结合SHN与MQC，建立四级自动QC分级系统，仅凭SHN阈值即可将扫描分为类似MQC的A–D四级（图3g）。通过ROC分析确定三个最优SHN切点：最严格切点29.5，排除MQC≥2扫描（敏感度=0.81）；中间切点36.5，排除MQC≥3扫描（敏感度=0.81）；最宽松切点62.5，排除MQC=4扫描（敏感度=0.93）（图3h–k）。四级SHN分层对sMRI指标的线性影响与MQC分组（图2）及连续SHN值（图3a–c）高度一致。扩展数据图5显示MQC与SHN各自解释独立的质量变异。敏感性分析纳入228例FreeSurfer分割错误扫描后，SHN分布及ROC最优切点均无实质变化（补充表6）。

图2 MQC评级与sMRI指数之间的关联（n=10261）

图3 SHN对结构MRI指标的影响，以及结合MQC评分对SHN等级的划分（样本量：10,261）

2.3 第二年扫描图像质量效应的复现

借助ABCD研究第二年扫描数据，该研究检验了基线扫描所得SHN分级的可靠性。在剔除不符合基线分析纳入标准的个体后，ABCD数据档案馆共提供6,941例已完成最小预处理的第二年T1加权像；这些数据经FreeSurfer预处理并提取SHN（扩展数据图6）。值得注意的是，第二年扫描整体质量优于基线，83.9%被划为SHN A级，而基线仅57.3%。从已预处理的第二年扫描中，该研究按SHN分级与扫描仪厂商均衡抽取了1,000例半随机样本进行MQC人工评分（方法与补充表7）。补充表8显示，第二年扫描的SHN分级可预测MQC评分：SHN与MQC呈单调递增（rho = 0.58）。SHN分级能有效滤除MQC评分较高的扫描，敏感度介于0.87（区分MQC≥2与MQC=1）至1.00（区分MQC=4与<4）。扩展数据图7展示各SHN分级内MQC评分的分布；扩展数据图4b显示SHN分级对全部6,941例第二年扫描sMRI指标的影响（多数未行MQC评分），与图4a对比证实SHN分级可重复地捕捉扫描质量差异，尤其对皮层厚度与表面积。

2.4 应用sMRI分析中的误差风险

该研究首先验证年龄-皮层厚度这一公认关系。青少年期皮层普遍变薄，此现象在样本量小但质控严格的研究中已有报道。以SHN校正后MQC=1的4,617例为“金标准”，与未质控的10,257例“全样本”比较。即使在9.0–10.9岁的横断面数据中，全样本亦可见显著年龄-厚度关联（图4a），但年龄效应量远小于QC评分对厚度的效应（图2a）。在金标准样本中，68个皮层ROI有59个呈显著负相关（FDR q < 0.05），且不受SHN调整影响。值得注意的是，部分ROI在全样本中不显著，经SHN校正后恢复显著，表明SHN减少了因未质控而产生的Ⅱ型错误，但涉及区域极少。图4b按MQC=1的效应量排序，可见随MQC 2、3、4级扫描逐步纳入，效应量递减，与先前小样本（n=1,598，平均15.0岁）结果一致：低质量扫描会削弱年龄对皮层厚度的效应。

2.5 阳性对照：年龄与皮层厚度

2.6 探索性分析：维度性精神病理学与皮层体积

该研究继而考察CBCL量表与皮层体积的关联。多项研究（含ABCD数据）报道CBCL总分与皮层体积呈负相关。在一项聚焦ABCD遗传与神经发育机制的论文中，该研究在控制MQC与SHN后，发现外化症状（CBCLext）与基线皮层体积关系最强。未质控的全样本（n=10,257）显示CBCLext与皮层体积呈广泛负相关（图4c），但效应量小于年龄-厚度关系（图4a）。全样本中43个ROI呈显著负相关（FDR q < 0.05；图4d与补充表10）。而在金标准样本（n=4,617）中，仅3个区域显著。剔除体积≥4标准差的374名受试者后，显著区域数几乎不变（补充表11）。为解释两样本差异，该研究逐步放宽QC阈值。结果显示，效应量随样本量增加而膨胀，提示混杂因素并非统计功效。MQC=1时体积测量平均变异系数（CV）为0.15，MQC=4时升至0.24；CBCLext的CV仅从0.22升至0.24，说明膨胀由扫描质量而非临床异质性驱动。右中颞、双侧岛叶及双侧上额等区域在纳入MQC=2扫描后即出现显著关联，且仅当纳入MQC≥3扫描时才达显著；这些区域在金标准样本中效应量小，却在未质控样本中因膨胀而被判为显著，属于Ⅰ型错误。相反，左上颞、左中央前及双侧中央后等区效应量稳定，提示其金标准不显著源于统计功效不足（Ⅱ型错误），即使样本>4,500。

为区分真阳性、假阳性与假阴性，该研究将低质量扫描的效应量是否落在金标准（MQC=1）±1标准误内作为判据（补充表12a）。由此额外确定9个真阳性区域，其中部分仅在纳入MQC≥3扫描时显著。随后，该研究以SHN分级替代MQC重复上述分析（补充表12b），直接比较人工与自动质控结果。MQC法认定的12个真阳性中，9个也被SHN法捕获；但SHN法额外认定16个“真阳性”，而MQC法均将其视为假阳性。

图4 变量QC对sMRI数据应用分析的影响

2.7人工编辑对sMRI测量的影响

图像重建误差会影响sMRI测量，并因头动及其他伪影而加剧。这些误差包括颅骨剥离错误、分割错误、强度归一化错误、软脑膜表面错位及拓扑缺陷。在FreeSurfer中，可通过手动编辑脑及白质蒙版中的体素、调整分水岭阈值及添加控制点进行校正。该研究在图像质量相对较高的扫描中检验人工编辑对sMRI指标的影响，以评估是否可将此干预仅保留给MQC>2的扫描。共随机选取150例基线MQC=1扫描及30例基线MQC=2扫描，由受过培训的协调员进行人工编辑。编辑前后皮层厚度与体积的变化方向及效应量见图6（MQC=1与2合并，n=180）及扩展数据图8a–c（分开显示），ROI层面的变化列于补充表13a–c。人工编辑对皮层厚度与体积的影响最显著，二者均呈下降趋势。40个区域的皮层厚度变化达统计显著（FDR q < 0.05，Cohen’s d 0.16–0.92），28个区域的皮层体积变化显著（Cohen’s d 0.18–0.73）。部分区域在MQC=2扫描中编辑效应强于MQC=1扫描（如双侧海马旁、尾中额及上顶叶）。体积图显示上矢状窦区域编辑效应强烈，尤其影响上顶叶皮层。应用分析表明，编辑后皮层厚度与年龄关系的效应量略有增强（更负）（t = 2.31，P = 0.024，d = 0.10）。扩展数据图9汇总了基线MQC=1或2扫描中显著受MQC、表面编辑或二者共同影响的ROI及其方向，提示即使限于最佳两组质量，QC差异及细微拓扑缺陷仍可在全皮层产生弥漫影响，且 poorer QC 与拓扑缺陷对sMRI测量的偏倚方向相反。为评估编辑效应的可重复性及发育特异性，该研究将ABCD结果与另一无重叠的292名8–18岁青少年MRI队列（麻省总医院，MGH；放射学报告无病理）比较。该队列先前用于分析产前叶酸与皮层发育关系。与ABCD相比，该队列包含临床而非研究受试者、所有可编辑图像、混合场强及厂商、年龄范围更广。尽管存在差异，ABCD中40个厚度编辑显著区域里，18个在MGH队列中同向效应名义显著（15个FDR显著，Cohen’s d 0.12–0.98）。值得注意的是，这18个区域中，8–10岁组编辑前后平均厚度变化大于其他年龄组（11–12、13–14、15–17；总F = 8.49，P = 0.0001，事后比较均P ≤ 0.0002；扩展数据图10a）。同样，8–10岁组个体间厚度变化的标准误最大（总F = 64.53，P = 2.25 × 10⁻¹⁷，与其他组比较均P ≤ 6.53 × 10⁻¹⁰）。最后，编辑对年龄-厚度关系的影响存在年龄组差异（F = 21.54，P = 3.88 × 10⁻¹²）；8–10岁组编辑效应最强（d = −1.18），高于其他任何组（均P ≤ 7.73 × 10⁻⁹；扩展数据图10b）。

图5 日益严格的质量控制对外化症状的统计显著性和效应大小的影响——体积发现

图6 手动编辑对sMRI指数的影响

3 讨论

该研究结果揭示了大型儿童青少年脑MRI队列中扫描质量的普遍且复杂的细节问题，这类问题亟需多管齐下的干预措施，才能避免sMRI分析出现误差。依托迄今为止规模最大、采集流程统一的儿童青少年sMRI数据集，该研究采用人工质控（MQC）将高质量扫描与存在不同程度可见伪影的扫描区分开。纳入较低质量扫描会给广泛使用的sMRI指标（如皮层厚度、表面积）带来显著偏倚。引入表面孔数（SHN）这一自动拓扑复杂度指标后，上述效应仅部分缓解；然而，在将sMRI指标与临床变量关联的应用分析中，即使加入SHN，也无法防范大部分Ⅰ型与Ⅱ型错误。此外，即便在最高质量扫描中，人工编辑仍会显著改变皮层厚度与表面积；这些改变在某些区域的方向与仅控制SHN或MQC时相反，并在一个独立的临床队列中得到复现。总体而言，这些发现挑战了“仅凭大样本量即可提高脑-行为关系检测效力”或“足以抵消图像质量差异带来的误差风险”的假设。

研究结果不仅适用于描绘正常与异常脑发育轨迹的发展研究，也适用于将结构指标与临床测量关联的应用分析。与sMRI-临床关联的效应量相比，扫描质量差带来的偏倚效应量（d = 0.14–2.84）或人工编辑效应量（d = 0.15–0.92）通常高出一个数量级，表明这些关联极易受到伪影影响。最新分析指出，脑全关联研究需纳入数千名受试者才能检测到微小但真实的效应。该研究同样发现，仅使用最高质量（MQC = 1，n = 4,617）扫描时，不足以在多个区域检测到皮层体积与外化精神病理的关联；当纳入质量略低的MQC = 2扫描（n = 4,057）后，这些关联才达到显著。然而，纳入MQC = 2扫描也在部分区域引入了错误的体积-外化症状关联，其效应量相较于MQC = 1组显著膨胀。进一步纳入更低质量扫描（MQC = 3或4）则导致更明显的效应膨胀及额外假阳性。这些结果提示，在大型MRI研究中，样本量与扫描质量之间存在复杂权衡，尤其在效应量较小时需格外谨慎。

大型且多样化的样本无疑具有统计功效高、外推性强的优势，并且在心理学与神经精神病学研究中可减少发表偏倚及可重复性危机。然而，“大数据”科学也存在诸多陷阱，包括多重比较控制不足、抽样偏倚、测量误差以及统计显著性与临床显著性不符等，这些问题同样阻碍了电子病历、流行病学与卫生服务研究等领域。针对脑影像，一项最新研究利用理论数据模拟数千级样本量，发现潜在偏倚的风险可能超过方差降低带来的收益。该研究的现实数据进一步警示，在青少年sMRI研究中，不能把数据数量与数据质量等同视之。这些发现对其它易出现头动的人群（如患有精神或神经系统疾病的患者，以及年龄极幼或极高者）同样具有启示意义。

除了采用最佳实践减少受试者头动外，该研究表明，将视觉质控与人工编辑这一相对耗时的手段，与SHN等自动指标联合使用，可为青少年队列的sMRI发现提供最佳保护。然而，在数千例样本中实施人工编辑面临可行性挑战。该研究提供了若干可供权衡的QC策略：资源充足且发现关键时，可采用耗时的人工评分与编辑；若不可行，则可仅依赖SHN分级。

随文发布的《扩展方案》针对两种情形提供了具体建议：其一为耗时、费力的人工评分与编辑方法；其二，在资源不足时，可仅依赖SHN指标进行质控。若研究者决定在分析中纳入质量较低的扫描，应重点核查效应量的稳定性（即与QC最佳亚组相比），尤其当显著结果位于易受误差影响的区域及测量类型（厚度、面积、体积；见图2与补充表3）时。值得欣慰的是，该研究对较大青少年（ABCD第二年、MGH队列）的分析显示，随年龄增长，所需干预可能减少。随着自动质控方法日益精进，其有望进一步提升QC效率，并加强神经发育MRI研究中的因果推断。

4 方法

4.1 ABCD 样本

ABCD 研究共招募 11,875 名 9 或 10 岁的儿童，覆盖美国 22个站点。参与者种族与民族构成反映美国总体水平，并特意增加多胎及多胞兄弟姐妹比例。主要分析使用 9–10 岁基线数据。研究获各机构伦理委员会批准，家长签署书面知情同意，儿童提供口头同意。

4.2 MRI 采集

sMRI 扫描在 3 T Siemens、Philips 或 GE 机型上完成，参数统一。T1 加权像矩阵 256×256，层数176–225，TR 6.31–2,500 ms，TE 2–2.9 ms，分辨率 1×1×1 mm。Siemens 与 GE 机型配备实时运动检测并自动重扫。NDA 提供 160 例外 minimally processed T1 像；剔除 451 例需临床会诊及 160 例无T1 数据者。

4.3 MQC 评分制定

预先评估 500 例随机扫描后，两名资深评分者（各完成 >300 例儿童 MRI 手工编辑）与一名受训评分者确定四级质量（1=最佳，4=最差）。标准依据：(1) 文献常见伪影类型；(2) 预计手工编辑耗时。扩展方案提供示例图。流程：

1.三平面全层浏览，识别信号缺失、>1 cm³囊肿或大片伪影（ghosting、ring），直接评为“缺失/囊肿”或4分。

2.逐层检查需手工修正的小范围缺陷：脑膜/颅骨残留、强度归一化错误、灰白质分割错误、非解剖性皮层突变。

3.评级：1分≤30 min；2分≈1–2 h；3分≈数小时；4分无法或不宜编辑。

4.4 MQC 评分实施

由同一受训评分者（S.E.）在不知任何个体信息情况下完成全部基线扫描评分。单评分者策略可保证内部一致性，并用 SHN 及第二年数据复现加以验证。先完成 5,105 例欧洲裔随机扫描，再随机评估剩余扫描。368 例被 ABCD 自动 QC 标为“不建议纳入”；手工复核再剔除 740 例大囊肿及 228 例持续分割错误/信号缺失（图1a）。

4.5 信号缺失组织损失定量

228 例局灶性信号缺失扫描仍按 1–4 级评估未受损部分。用 Freeview 7.1.1 测量缺失区三轴径，按椭球公式估算体积；用 MarsBar构建长方体并重叠，阈值设为 >10 例共同缺失区，显示于xjView。

4.6 SHN 及其他自动 QC 指标

SHN 取自 FreeSurfer aparc 统计表，为欧拉数（顶点+面−边），数值越高表示拓扑缺陷越多。计算 7.1 版 Baseline 与第二年SHN 并上传 NDA。用 MRIQC 24.0.2 获取对比度-噪声比、信噪比、前景/背景能量比、背景峰度、熵聚焦准则、Mortamet 质量指数 2、白质标准差等，并与 MQC、SHN 做相关。

4.7 精神病理测量

采用家长填写 CBCL，共 8 个子量表，可汇总为总分、内化、外化 t 分（年龄性别校正）。

4.8 第二年 T1 复现

ABCD 4.0 发布 7,829 例第二年 T1 像。对 6,941 例基线已评MQ 1–5 且符合纳入标准者行 FreeSurfer 处理并算 SHN。按质量分层及机型比例半随机抽取 1,000 例第二年扫描行 MQC 评分（含 168 例 SHN D 层），由两名已培训评分者（E.L.、K.A.K.）盲态完成，ICC>0.75。

4.9 ABCD 手工皮层编辑

基于既往 64 例临床样本（8–11 岁）29 个 ROI 出现 d≥0.5 的厚度变化，估算 180 例可提供 92% 检验效能。随机选 150 例 MQ 1 分及 30 例 2 分扫描，由技术员（S.E.）用Freeview 7.1.1 编辑 brainmask、wm、brain.finalsurfs.manedit 及表面，直至再处理后边界误差最小。编辑前后厚度、面积、体积变化用配对 t 检验及 FDR 校正（q<0.05）。

4.10 MGH 扫描手工编辑

292 例 8–17 岁临床扫描（2005–2015，无病理报告）由 K.F.D. 按相同标准编辑，用 FreeSurfer 5.0 计算 68 ROI 前后差异，评估年龄组（8–10、11–12、13–14、15–17 岁）差异（ANOVA）。

4.11 统计分析

MQC 时间稳定性：将无缺失/囊肿基线扫描按评估顺序分 10 组，控制年龄、性别、机型、CBCL 后，用 ANOVA 检验 MQC 均值线性或二次趋势。

基于表面的 sMRI 分析：FreeSurfer 7.1 平滑 22 mm FWHM，一般线性模型控制年龄、性别、ICV、站点、机型，评估 MQC 线性及两两对比对厚度、面积、体积的影响；绘制未校正 logP 及 Cohen’s d 图。补充分析检验 SHN 线性效应及相互控制后的效应。

ROI 分析：用 R 4.1.2 及 lme4 包，混合效应模型控制年龄、性别、ICV（固定），站点、机型、家系 ID（随机），FDR 校正（q<0.05）。

SHN 分层：用 pROC 包行 ROC 分析，以 Youden 指数确定三个切点（1 vs ≥2；1–2 vs ≥3；1–3 vs 4），定义 A–D 四级。纳入分割错误扫描做敏感性分析，并在 1,000 例第二年扫描中验证敏感度、特异度、准确率。

QC 与 MRI-临床关联应用分析：线性混合模型逐步纳入 MQC 1、1–2、1–3、1–4 扫描，考察厚度-年龄及厚度-外化症状关联；补充分析加入 SHN 协变量及剔除体积 ≥4 SD 的极端值。

手工编辑效应：ABCD 基线扫描用配对 t 检验比较编辑前后 ROI 指标，表面图用 FreeSurfer 一般线性模型，无协变量（年龄、性别、机型、CBCL 对编辑差值无显著影响）。MGH 数据聚焦与 ABCD 一致的显著区域，按年龄组比较编辑幅度及方差（ANOVA）。

扩展数据：

扩展数据图1 手动质量控制（MQC）评级随时间的稳定性图

扩展数据图2 sMRI 处理中的信号缺失（n = 228）

扩展数据图3 在基线（n=10294）和第2年（n=999），手动质量控制（MQC）和表面孔数（SHN）与其他自动质量控制指标（QCM）的比较图

扩展数据图4 SHN等级对（a）基线（n=10295）和（b）第2年（n=6941）sMRI指数的影响比较图

扩展数据5 |SHN层与MQC对sMRI指数方差的独特贡献

扩展数据6第2年的随访扫描示意图

扩展数据图7 在选定的第2年随访扫描中，表面孔数（SHN）与手动质量控制（MQC）的关系

扩展数据图8 手动编辑对sMRI指数的影响

扩展数据图9 仅在MQC=1和2扫描中通过手动质量控制和皮质编辑检测到的sMRI测量误差的位置和方向

扩展数据图10 手动编辑对MGH样本皮质厚度和年龄-厚度关系的影响

精读分享

研究背景

青少年大脑发育的结构磁共振成像（sMRI）研究对于理解神经发育轨迹及精神疾病风险具有重要意义。然而，青少年扫描过程中易出现头动、分割错误等图像质量问题，这些问题可能引入系统性偏差，影响脑结构测量（如皮层厚度、表面积、体积）及其与临床变量的关联。尽管大样本研究被广泛认为是提高统计效能和可重复性的关键，但图像质量控制在大型自动化处理流程中常被忽视。

研究目的

本研究旨在系统评估图像质量对青少年sMRI测量及其与临床指标关联的影响，并探索人工质量控制（MQC）与自动化质量控制指标（如表面孔数 SHN）在减少质量相关偏差方面的有效性。

研究方法

数据来源：ABCD研究（基线：11,875名9–10岁青少年；第二年随访：约6,941名）。

质量控制：

1.人工评分（MQC）：将图像分为1–4级（1为最佳，4为最差）。

2.自动评分（SHN）：基于皮层重建拓扑完整性计算，分为A–D四级。

3.手工编辑：对180例高质量图像进行人工修正，评估其对测量结果的影响。

分析内容：

1.图像质量与sMRI指标（厚度、面积、体积）之间的关系；

2.图像质量对年龄-皮层厚度、外化症状-皮层体积等临床关联的影响；

3.比较人工与自动质量控制方法的效果；

4.在独立临床样本（MGH队列，292人）中复现手工编辑效应。

研究结果

1.图像质量普遍存在差异：基线扫描中约55%图像存在不同程度质量问题，影响sMRI测量。

2.质量偏差显著影响测量结果：

l低质量图像显著改变皮层厚度、表面积和体积；

l自动SHN指标与人工MQC评分高度相关，可部分缓解质量偏差；

l控制SHN后，MQC相关效应量下降16%–62%。

3.临床关联分析中质量偏差引发假阳性/假阴性：

l年龄-厚度关联在低质量图像中效应被削弱；

l外化症状-体积关联在低质量图像中效应被人为放大；

l仅使用高质量图像（MQC=1）时，部分区域因样本量不足未能达到显著性。

4.手工编辑显著改变测量结果：

l厚度与体积在40与28个区域中显著变化；

l编辑效应在8–10岁儿童中最强，随年龄减弱；

l在独立MGH样本中复现18个区域的编辑效应。

研究结论

1.大样本并不能自动抵消图像质量带来的系统性偏差；

2.自动化质量控制（如SHN）可作为初步筛选工具，但不能完全替代人工质控；

3.手工编辑在高质量图像中仍能显著改变测量结果，尤其在年幼儿童中；

4.研究设计应在样本量与图像质量之间做出权衡，避免“数量优于质量”的误区。

研究意义

1.方法学层面：首次系统评估并量化图像质量对青少年sMRI研究的影响，提出MQC+SHN联合质控策略；

2.实践层面：为大型神经影像研究提供可行的质量控制流程与分层建议；

3.理论层面：强调在发展神经科学中，图像质量是可信脑-行为关联的前提条件。

研究局限性与未来方向

1.手工评分与编辑耗时耗力，难以在大规模研究中全面推广；

2.研究主要基于ABCD与MGH两个样本，需在其他年龄组、疾病人群中验证；

3.自动化方法（如SHN）仍存在误判可能，需进一步优化；

4.研究未涉及功能MRI或其他模态，质量控制策略是否适用尚待探索。

未来的研究方向可能包括：

1.开发更智能、高效的自动化质量控制算法（如深度学习）；

2.建立跨研究、跨平台的标准化质量控制流程；

3.在多中心、多模态、多年龄段数据中验证现有策略的普适性；

4.推动质量控制与效应量稳定性评估成为大型神经影像研究的常规环节。

参考文献

Elyounssi S, Kunitoki K, Clauss JA, et al. Addressing artifactual bias in large, automated MRI analyses of brain development. Nat Neurosci 2025;28(8):1787–1796; doi: 10.1038/s41593-025-01990-7.

解读：柴逸凡

审核：林增臻

往期精彩|Nature Neuroscience：解决脑发育的大型自动化MRI分析中的人为偏差

产品中心

官网动态

研究动态

关于我们

软件下载

服务热线

客服邮箱