Nature Medicine | 使用多模态深度学习预测子宫内膜癌复发风险
Volinsky-Fremond, S., Horeweg, N., Andani, S., Barkey Wolf, J., Lafarge, M. W., de Kroon, C. D., … & Bosse, T. (2024). Prediction of recurrence risk in endometrial cancer with multimodal deep learning. Nature Medicine, 1-12.
代码地址:https://github.com/AIRMEC/HECTOR
预测子宫内膜癌 (EC) 的远处复发对于个性化辅助治疗至关重要。目前病理和分子分析相结合的黄金标准成本高昂,阻碍了实施。在这里,我们开发了 HECTOR(基于组织病理学的子宫内膜癌定制结果风险),这是一种多模态深度学习预后模型,使用苏木精和伊红染色的全幻灯片图像和肿瘤分期作为输入,研究对象为来自八个 EC 队列(包括 PORTEC-1/-2/-3 随机试验)的 2,072 名患者。 HECTOR 在内部( n = 353)和两个外部(n = 160 和n = 151)测试集中的 C 指数 分别为 0.789、0.828 和 0.815,优于目前的黄金标准,并确定了具有明显不同结果的患者(通过 Kaplan-Meier 分析,HECTOR 低危、中危和高危组的 10 年无远处复发概率分别为 97.0%、77.7% 和 58.1%)。HECTOR 还比目前的方法更好地预测了辅助化疗的好处。形态学和基因组特征提取确定了 HECTOR 风险组的相关性,其中一些具有治疗潜力。HECTOR 改进了目前的黄金标准,可能有助于在 EC 中提供个性化治疗。
EC 是高收入国家中最常见的妇科恶性肿瘤,发病率呈上升趋势。虽然大多数局部性疾病患者可通过手术治愈,但仍有 10%–20% 的患者会出现远处复发,而远处复发通常无法治愈。辅助化疗可降低这种风险,但会增加毒性 。因此,目前的指南建议根据多种临床病理学风险因素(例如组织学亚型、分级、淋巴管腔侵犯 (LVSI)、FIGO(国际妇产科联盟)肿瘤分期)和(如果有)EC 的分子分类进行辅助治疗。分子分类可识别出分别由POLE突变(POLE mut)或 p53 异常(p53abn)定义的良好和不良结果患者,以及以错配修复缺陷(MMRd)或无特定分子特征(NSMP)为特征的中间结果。最近,人们努力将临床病理学和分子因素结合起来;然而,在实践中,由于结合越来越多的因素的复杂性、组织病理学因素评估中观察者之间的高变异性以及分子检测的成本和周转时间,挑战仍然存在。此外,组织学切片包含大量视觉信息,其中一些具有预后潜力,病理学家在分级和肿瘤组织分型中只能部分捕捉到这些信息。
深度学习 (DL) 模型,包括使用数字化苏木精和伊红 (H&E) 染色的肿瘤切片的模型,在预测分子改变 、细胞组成 和预后 方面表现出色,优于基于标准病理学家的评估。最新一代自监督学习和全切片图像( WSI )预测DL 模型更是如此,它们使用基于注意力的网络、Graph、或 Transformer 来提供更精细和可解释的图像表示。此外,用于预后预测的多模态 DL 模型有望胜过仅依赖 H&E WSI 提供的形态信息的单模态方法。我们之前开发了一个 DL 模型,基于图像的 (im) EC 中的四种分子类别 (im4MEC),以准确预测肿瘤 H&E WSI 中的分子 EC 分类,并表明基于图像的分子类别可以预测预后。其他人对 EC 二元复发进行了分类或使用单/多模态 DL 模型来预测EC 总体生存率(一致性指数 (C 指数) 为0.629–0.687),但这些依赖于更详细的肿瘤分析,例如多重免疫荧光染色或H&E WSI 与基因组和/或转录组数据的组合,而这两者目前都无法在临床实践中提供。因此,仍然迫切需要一种能够从常规临床诊断生成的输入数据预测 EC 远处复发的方法。
在本研究中,我们报告了 HECTOR的开发和评估情况。HECTOR 是一种多模态 DL 模型,用于根据 EC 术后女性的H&E WSI 和解剖分期预测远处复发。该模型涵盖八个 EC 队列,包括三项大型随机试验。
HECTOR 是一个两步 DL 模型,其中第一步是自监督肿瘤图像表征学习,第二步是远处复发预测任务
为了训练和验证HECTOR的远处复发预测任务,我们收集并整理了含肿瘤的子宫切除标本H&E染色的WSI和综合临床病理学数据集、2,072例肿瘤分期(FIGO 2009)I-III EC 患者的分子和临床远处复发数据,涵盖8个队列,包括PORTEC-1、-2 和 -3 随机试验3、26、27、28、29、30(扩展数据图1 ;研究CONSORT图显示为补充图1和2以及补充表1和2 )。其中,两个基于人群的队列被作为两个外部测试集:在格罗宁根大学医学中心31 (UMCG;n = 160 名患者) 和莱顿大学医学中心 (LUMC;n = 151 名患者) 接受治疗的患者,其中 LUMC 外部测试集还模拟了每个患者最多 3 个肿瘤块的诊断情景。其余患者被随机分成 20% 保留的内部测试集 ( n = 353) 和 80% 训练集 ( n = 1,408),并进行五倍交叉验证。训练集、内部测试集、UMCG 外部测试集和 LUMC 外部测试的中位随访时间分别为 7.8、8.4、5.3 和 2.9 年,在此期间,246 名 (17.5%)、62 名 (17.6%)、14 名 (8.8%) 和 24 名 (15.9%) 患者出现远处复发。重要的是,接受化疗的患者(主要是 PORTEC-3 随机试验的实验治疗组 ( n = 225))被排除在训练之外,因为这种治疗会影响远处复发风险3 , 4 (扩展数据图1 )。然而,这些 PORTEC-3 患者被 HECTOR 用于辅助化疗益处的下游分析。
为了训练 HECTOR 的自我监督学习步骤(这需要一个没有结果数据的大型成像数据集),我们用 TCGA-UCEC (子宫体子宫内膜癌癌症基因组图谱)的一个额外队列以及由于诊断时癌症转移(FIGO 2009,IV 期)或缺失结果( n = 1,862;方法)而被排除在远处复发任务之外的 WSI 丰富了训练集。
总之,包括两个训练步骤和下游分析,本研究包含来自 2,751 名患者的肿瘤数据。
HECTOR 设计和性能
为了设计 HECTOR 并获得基于最高 C 指数的预测远处复发的最佳 DL 模型,我们对五重交叉验证进行了消融研究(补充表3)。HECTOR 的第一步包括用于块级自监督表征学习的vision transformer(图1a)。HECTOR 的第二步是多模态三臂架构,用于预测无远处复发概率(图1b)。三臂架构融合了来自含肿瘤子宫切片的 H&E 染色的 WSI 的预后信息、im4MEC 直接从 H&E WSI 预测的基于图像的分子类别11和手术评估的解剖阶段(基于 FIGO 2009 系统分为三层,其中 I 期表示肿瘤局限于子宫内,II 期表示宫颈范围,III 期表示超出宫颈范围,包括阴道、附件、盆腔和淋巴结) 。为此,我们将基于注意的多实例学习与嵌入层相结合,将离散风险因素(基于图像的分子类别和解剖阶段)映射到更高维的连续向量空间,其中每个因素的重要性由基于门控的注意控制。消融研究(补充表3)还包括多任务学习,第二个训练目标是预测基于图像的分子类别而不是冻结的 im4MEC,或者用集成补丁空间信息的 DL 模型(例如 Transformer 23和基于注意的图神经网络15 )取代基于注意的多实例学习。 这两种架构在此任务上的表现并不优于基于注意的多实例学习。方法中提供了更多详细信息,补充表4和5中提供了 HECTOR 配置的摘要。
在未见的内部测试集上,HECTOR 获得了 0.789 的 C 指数,在 UMCG 外部测试集上,获得了 0.828 的 C 指数。LUMC 外部测试集的性能在“多个 WSI 的性能”中描述。
为了帮助临床解释,我们首先将分类 HECTOR 风险组定义为训练集中连续风险评分的四分位数。然后将前两个四分位数的组合并以简化,因为它们在训练集中具有非常相似的临床结果(根据 Kaplan-Meier 分析,无远处复发概率分别为 98.1% 和 95.8%;补充图3),并应用于内部和外部测试集。其次,我们使用 Cox 比例风险 (CPH) 模型计算 HECTOR 的风险比 (HR),其中连续和分类 HECTOR 风险评分为自变量,远处复发时间为因变量。
HECTOR 在训练测试集(HR = 5.06;95% CI:4.35–5.89;P = 9.00 × 10 −99)、内部测试集(HR = 2.69;95% CI:2.07–3.49;P = 1.31 × 10 −13)和 UMCG 外部测试集(HR = 5.84;95% CI:3.06–11.14;P = 8.37 × 10 −8)中作为连续变量表现出很强的预后价值。在内部测试集上,HECTOR 低风险组(n = 175)、中风险组(n = 82)和高风险组(n = 96)的 10 年无远处复发概率分别为 97.0%(95% CI:0.930–0.988)、77.7%(95% CI:0.670–0.854)和 58.1%(95% CI:0.469–0.677)(对数秩P = 1.78 × 10 −10;图2d)。以HECTOR低风险组为参考,内部集中HECTOR高风险组和中风险组对应的HR分别为15.63(95%CI:6.58~37.13;P =4.81×10−10 )和7.67(95%CI:3.06~19.22;P =1.37×10−5 )。在 UMCG 外部测试集中,观察到类似的分层,HECTOR 低风险组(n = 102)、中风险组(n = 44)和高风险组(n = 14)的 5 年无远处复发概率分别为 93.9%(95% CI:0.859-0.974)、91.4%(95% CI:0.756-0.972)和 19.0%(95% CI:0.0097-0.553)(对数秩P = 5.56 × 10 −10;补充图4)。 UMCG外部测试集中HECTOR中间组对应的HR为2.26(95%CI:0.61~8.42;P =0.225),高危组对应的HR为20.42(95%CI:5.92~70.50;P =2.00×10−6 )。
与当前预后金标准的比较
我们将基于 DL 的风险评分(即单臂、双臂和 HECTOR 模型)与当前的 EC 预测标准(包括临床病理风险因素和五重交叉验证中的分子 EC 分类)进行了比较(图2a)。为此,我们首先按所需输入类型比较 C 指数:(1)“基本”CPH 模型,包括病理学家仅使用 H&E 图像定义的变量(组织学亚型、等级和 LVSI);(2)基础模型加解剖阶段;(3)基础模型加解剖阶段和分子 EC 分类。在五重交叉验证中,给定基于 H&E 的输入数据,单臂和双臂模型区分度优于基本 CPH 模型(C 指数 = 0.681;95% CI:0.624–0.738)。 HECTOR 模型鉴别力优于使用相同输入的基础 CPH 模型加解剖阶段(C 指数 = 0.716;95% CI:0.672–0.761),并且优于或与需要测序、免疫组织化学 (IHC) 和专家病理学的基础 CPH 模型加解剖阶段和分子 EC 分类(C 指数 = 0.762;95% CI:0.732–0.791)一样好。
我们进一步在多变量分析中以HECTOR连续风险评分为自变量,将HECTOR预后值与当前临床病理学和分子风险因素进行了比较。在多变量模型中,已知风险因素(组织学亚型、等级、LVSI、FIGO 2009 I-III期、年龄、分子分类)组合成一个风险评分(称为CLINICAL风险评分)不具有预后价值(HECTOR HR = 4.62(95% CI:3.72-5.73;P = 5.02 × 10 −44)对比CLINICAL HR = 1.08(95% CI:0.90-1.30;P = 0.402))(图2b)。类似的多变量分析(包括风险因素作为个体变量)显示HECTOR具有独立的预后价值(HR = 5.26; 95%CI:4.21–6.56; P = 2.30×10 -48),只有FIGO 2009 III期疾病具有统计学意义(HR = 1.50; 95%CI:1.05–2.14; P = 0.026)(图2c)。纳入HECTOR风险评分后,其他已知风险因素不再具有预后价值,表明这些因素已被HECTOR捕获。例如,分别来自真实测序和 IHC 的POLE mut 和 p53abn 分子类别 —HR = 0.66(95% CI:0.26–1.69; P = 0.384)和 HR = 0.90(95% CI:0.61–1.34;P = 0.616)— 以及 LVSI 等组织学因素(HR:1.05;95% CI:0.77–1.42,P = 0.776)对于预测远处复发不具有附加预后价值。
鉴于目前的预后金标准将 p53abn EC 归类为高危肿瘤,将 MMRd 和 NSMP 归类为具有异质结果的中危肿瘤,我们验证了 HECTOR 在训练和内部测试集中在 MMRd、NSMP 和 p53abn 分子类别中细化预后的能力。特别是,HECTOR 低危组还在整个数据集中确定了约 5.3%(300 例中的 16 例)的 p53abn EC 病例,预后良好(补充图5)。沿着这些思路,我们估计了 HECTOR 和结合临床病理学和分子因素的 ESGO-ESTRO-ESP 2021 指南5之间风险分类明显不同的患者数量(补充图6)。在所有根据指南分类的中高危肿瘤患者中(且无远处复发报告),48.2%(1,146 例中的 552 例)的患者被预测为 HECTOR 低危,16.9%(366 例中的 62 例)的患者仅在高危肿瘤中被预测为 HECTOR 低危。在所有根据指南分类的低至中高危肿瘤中,11.2%(1,170 例中的 131 例)的患者被预测为 HECTOR 高危,仅低危肿瘤中为 4.9%(287 例中的 14 例)。
多个 WSI 的性能
为了在第二个现实世界外部测试集中评估 HECTOR 的预后价值和稳健性,我们利用了这样一个事实:LUMC 队列中的大多数病例每个患者都有来自不同组织块的多个包含肿瘤的 H&E WSI(151 例中 121 例有 3 个 WSI,21 例有 2 个,9 例有 1 个;图2e)。这使我们能够在诊断环境中验证 HECTOR 的外部性能,并随后测试对 H&E WSI 选择的稳健性。初步评估使用从每个患者随机选择一个 WSI 获得的 HECTOR 评分,重复 100 次,显示 LUMC 外部测试集上远处复发的预测平均 C 指数为 0.802(95% CI:0.799–0.804)(图2f)。
通过添加更多 WSI(将每个患者的 HECTOR 风险评分作为 WSI 的平均值或中位数),HECTOR 性能和风险分层略有改善,C 指数为 0.810(95% CI:0.808–0.811),每个患者最多 2 个 WSI,C 指数为 0.813 或 0.815,最多 3 个 WSI(图2f)。测试了一种不同的方法,其中将 WSI 组合为一个单一的图像输入包,得到 C 指数为 0.805。使用 HECTOR 风险评分中位数计算的每位患者的 5 年无远处复发概率为:HECTOR 低风险组 ( n = 70) 为 98.4% (95% CI: 0.891–0.998),HECTOR 中风险组 ( n = 44) 为 74.8% (95% CI: 0.534–0.874),HECTOR 高风险组 ( n = 37;对数秩P = 1.00 × 10 −6 ) 为 52.6% (95% CI: 0.323–0.694) (图2g和补充图7)。相应的 HR(对于连续 HECTOR 风险评分)为 3.73(95% CI:2.34–5.96;P = 3.17 × 10 −8)和(对于分类高风险与中等风险)34.51(95% CI:4.52–263.39;P = 6.37 × 10 −4)对 15.08(95% CI:1.91–119.16;P = 0.010)。此外,HECTOR 在 LUMC 外部测试集的患者分层中的表现扩展到总体生存率(低风险、中风险和高风险的 5 年概率分别为 88.4%(95% CI:0.769–0.944)、69.9%(95% CI:0.468–0.845)和 47.0%(95% CI:0.289–0.633);补充图8)。
肿瘤内异质性造成的潜在混杂因素似乎也很小,因为在 142 例具有超过 1 个 WSI 的病例中,有 85 例在各个 WSI 中具有一致的 HECTOR 风险组预测,而只有 3 例具有 3 个 WSI 的病例在每个 WSI 中具有不同的预测 HECTOR 风险组(补充图9 – 12和补充说明p16)。
与预后因素和输入贡献的关联
DL 预后模型可能提供关于决定临床结果的相关性或特征的信息。通过多元线性回归对内部测试集进行初步分析(图3a、b),显示较低的 HECTOR 风险评分与子宫内膜样 (EEC) 组织学亚型、1 级和POLE mut EC 的已知有利风险因素相关,而较高的 HECTOR 风险评分与不利因素相关,包括非 EEC 组织学亚型、3 级、FIGO III 期、LVSI、p53abn EC、雌激素受体阴性和 L1 细胞粘附分子 (L1CAM) 阳性(补充表7 – 9和补充图13)。MMRd EC、2 级和 FIGO 2009 II 期分布在整个风险评分轴上,且无统计学意义。
为了更深入的解释,我们评估了 H&E WSI、im4MEC 和解剖阶段对预测的影响,即每种方式是否降低(负贡献)或增加(正贡献)发生远处复发的 HECTOR 风险评分。我们对 H&E WSI 使用了归一化的积分梯度 (IG) 值,并对内部测试集中同一病例的 im4MEC 或 FIGO 解剖阶段的固定值使用了预测风险评分的差异。H&E WSI 主要有正贡献,其值随着 HECTOR 风险评分而线性增加(图3c和补充图14)。我们还注意到对 3 级 EEC 或非 EEC 组织学亚型和 LVSI 的贡献幅度更大(图3d)。这两个观察结果可能表明,H&E WSI 中捕获的不利形态特征是风险评分预测的重要驱动因素。基于图像的分子分类和 FIGO 2009 I-III 期的使用与 EC 领域的专业知识一致,其中 im POLE mut 和 imMMRd 主要降低 HECTOR 风险评分,而 imp53abn 强烈增加 HECTOR 风险评分(图3e、补充表8和补充图15),并且更高的解剖阶段增加了 HECTOR 风险评分(图3f和补充图16)。
这些分析使我们能够剖析内部测试集中预测为 HECTOR 低风险的六名远处复发患者的数据(补充表10和补充图17)。实验测试将基于图像的分子类别替换为真实分子类别,结果表明 im4MEC 在这些情况下的错误分类对 HECTOR 风险组没有影响。专家妇科病理学家审查了单个 WSI 输入后发现,至少在两例中,WSI 缺少病理报告中报告的不利视觉特征(大量 LVSI 或高级别肿瘤区域)。我们还注意到三例预测为 HECTOR 高风险的病例,它们带有POLE突变。虽然同样的实验证实了基于图像的分子类别对这些病例的 HECTOR 预测几乎没有影响,但这三例病例都患有明显的 FIGO 2009、II 期或 III 期疾病(补充表11)。
结果风险的形态相关性
为了确定HECTOR可能使用的预后形态特征,提取了对风险评分影响最大的前5%的H&E WSI区域(降低和增加),并由内部测试集中的专家妇产病理学家进行审查(图4a和补充图18-22 ) 。在HECTOR低风险组中,降低风险评分的形态特征被确定为光滑的管腔边界、发炎的基质和上皮内淋巴细胞、上皮内中性粒细胞和丰富致密的无肿瘤正常子宫肌层。在HECTOR高风险组中增加风险评分的形态特征是粗糙的管腔肿瘤表面(也称为钉状物)、LVSI、具有明显核异形性的实体瘤生长、促纤维化基质反应和有丝分裂图的存在(图4a)。在 HECTOR 低风险组中,我们观察到具有正贡献的形态特征,尽管相对不太常见,例如模仿钉状表面变化、模仿 LVSI 的回缩伪影、模仿纤维组织增生的水肿松弛子宫肌层和具有分散高级核异形性的实体肿瘤生长(扩展数据图3a)。
使用基于DL的图像分析工具量化有丝分裂活动、炎症细胞密度和肿瘤细胞核大小(图4b和方法)。前5%的区域中存在更多的炎症细胞,从而降低了风险评分,并且这种影响在HECTOR低风险组中更为明显(P = 0.011)。在HECTOR高风险组的前5%区域中发现更高的有丝分裂密度和更大的肿瘤细胞核(均为P <0.001)。这些结果在基于图像的分子类别和FIGO 2009 I-III期(补充图23 – 25)以及在包含肿瘤细胞的区域中过滤时保持一致(补充图26)。在定量空间分析中,我们计算了前5%的区域与肿瘤和侵袭性边界区域的重叠(扩展数据图3b)。后者显示,增加风险评分的区域更多地是从肿瘤中挑选出来的,而不是从侵袭性边界区域中挑选出来的。肿瘤和侵袭性边界区域在降低风险评分的区域中贡献几乎相同,尤其是在 HECTOR 低风险组中。
基因组改变、免疫和转录特征
为了全面分析HECTOR风险评分的分子相关性,我们分析了TCGA-UCEC(n = 381 FIGO,I-III期EC)数据集(图5和补充图27)。ARID1A 、CTCF 、CTNNB1、FGFR2、KRAS和PTEN中的编码驱动突变在HECTOR低风险组中富集(所有P <0.005),而PPP2R1A和TP53突变在HECTOR高风险组中更常见(分别为P = 2.19×10 -3和P = 2.81×10 -7)(图5a和补充表12)。利用转录数据,我们使用多元线性回归对CIBERSORT定义的淋巴细胞群进行了分析(图5b)。这表明,HECTOR 评分的增加与记忆 B 细胞(P = 0.008)、活化树突状细胞(P <0.001)和静息肥大细胞(P = 0.029)呈正相关,与 CD8 + T 细胞(P <0.001)、滤泡辅助 T 细胞(P <0.001)、调节性 T 细胞(P <0.001)和自然杀伤 (NK) 细胞活化(P = 0.049)呈负相关。值得注意的是,这些关联与 EC 分子类别和肿瘤突变负担 (TMB) 无关(补充表13)。进一步的转录组分析(图5c、补充图27c和补充表15)证实,淋巴细胞群的变化反映在典型免疫细胞标志物的差异表达中,包括CD1C、BTLA和CD40LG(在 HECTOR 低风险病例中富集)。 HECTOR 高风险肿瘤还表现出预测 EC 较差结果的基因上调,包括L1CAM和CLDN6,而 HECTOR 低风险病例则显示与激素信号传导相关的基因上调(C1orf64和OVGP1)。
HECTOR 辅助化疗反应预测
PORTEC-3 随机试验3调查了 HECTOR 是否可以预测化疗对远处复发风险的益处。在该试验中,高风险 I-III 期 EC 患者随机接受同步和辅助外照射放射治疗,联合或不联合铂类和紫杉醇化疗。所有有 WSI 的 PORTEC-3 病例(n = 442)都预测了 HECTOR 风险评分,其中包括接受化疗的患者(n = 225)。重要的是,这 225 个病例未用于训练或测试集(扩展数据图4、补充表14和补充图28)。按治疗组和 HECTOR 分析无远处复发概率表明,化疗和 HECTOR 风险评分作为连续变量或分类变量之间存在统计学上显着的相互作用(分别为P INTERACTION = 0.014 和P INTERACTION = 0.064)。
我们对 HECTOR 风险组进行了详细研究(图6a)。在 HECTOR 低风险组(n = 92)和 HECTOR 中等风险组(n = 177)中,两种治疗组的结果同样良好,EC 远处复发概率相似(对数秩P 分别为 0.244 和 0.807)。相反,在被归类为 HECTOR 高危的女性(n = 173)中,接受辅助化疗的女性与仅接受外束放射治疗的女性相比,远处复发概率显着提高(5 年远处复发概率为 62.2%(95%CI:0.511-0.715)vs 42.0%(95%CI:0.311-0.526);对数秩P = 0.007;HR = 0.561(95%CI:0.366-0.862;P = 0.008))。探索性分析表明,预测准确性高于目前用于识别可能受益于辅助化疗的高危肿瘤患者的预后因素,包括浆液性组织学亚型、FIGO 2009 III 期和 p53abn 分子类(图6b)。进一步的探索性分析表明,HECTOR 还识别出 NSMP 和 MMRd 分子类别中受益于辅助化疗的患者(补充图29和30)。当按 HECTOR 基于图像的分子类别分支进行子分层时,这些结果保持一致(补充图31)。因此,HECTOR 表现出显著的预测效用,可能超过当前方法所提供的效用。
讨论
HECTOR 是一种深度学习模型,在 2,072名I-III 期 EC 3、26、27、28、29、30、31 患者中进行了训练和验证,并进行了长期随访,该模型仅使用子宫切除标本的 H&E 染色肿瘤切片和解剖分期即可预测术后远处复发风险。HECTOR 在三个未见的测试集中获得了远处复发结果的 C 指数0.789、0.828和 0.815。其性能与临床上实施的其他癌症类型的预后 DL 工具相当(结直肠癌复发的 C 指数为 0.714 和 0.744 39,前列腺癌 10 年远处复发的 AUC 为 0.78 40),并且与 OncotypeDX 等分子预后检测相比也具有优势(乳腺癌 10 年远处复发的 C 指数为 0.641 41)。值得注意的是,HECTOR 的表现优于目前联合病理学和分子分析进行远处复发风险预测的诊断金标准,并且在 PORTEC-3 随机试验3中还被发现可以预测辅助化疗的益处。有待前瞻性验证,我们的结果表明,HECTOR 可能成为一种对 EC 女性进行个性化预测的高效工具,同时缩短周转时间并降低测试成本。 HECTOR 还可以帮助发现生物标志物,从而改善有针对性的治疗决策。
HECTOR 性能是新的多模态、整合、三臂架构的结果,该架构利用来自 H&E WSI、im4MEC 11和解剖阶段34的预后信息。这种多模态架构优于仅使用基于 H&E 信息的替代 DL 模型,证实了其他研究16、42的结果。有趣的是,将 im4MEC 模型嵌套在 HECTOR 中可以提高性能,而在其他研究中,拷贝数变异或转录组学的整合并不能改善对 EC 16 中总体生存率的预测。我们证明,DL 模型可以端到端学习解剖阶段等分类临床风险因素的预后价值,以提高预测准确性。HECTOR 朝着整合患者级成像、基于图像的分子和临床见解迈出了一步,这可能使其他癌症类型的类似研究受益,其中单模态 DL 模型仅在图像上开发17、20、39 。
我们对模型可解释性和风险评分相关性的初步研究为增进我们对 EC 和其他癌症类型生物学的理解提供了良好的前景。例如,HECTOR 低风险评分与免疫细胞浸润的关联与显示免疫浸润 EC 10预后更好的数据一致,尽管目前尚不清楚 HECTOR 是否直接量化来自 H&E WSI 的淋巴细胞亚型(例如 T 细胞)。HECTOR高危 EC 中CLDN6的上调与这是远处复发的预测因子一致43 。HECTOR 高风险和CLDN6上调的病例可以作为嵌合抗原受体 T 细胞靶点44 。虽然已知促纤维增生性基质反应可预测结直肠癌的不良预后,但我们在本研究中描述的关联以前尚未在 EC 45中报道过。这是否代表L1CAM过表达的形态学读数46目前尚不清楚。我们还证实了 EC 中已确定的不利组织病理学风险因素与较高的 HECTOR 风险评分相一致5。因此,我们预计 HECTOR 优于标准组织病理学可能是由每个因素的非线性组合以及更重要的是 WSI 对视觉信息的非分类处理所驱动。
HECTOR 的设计在临床实施方面具有相当大的前景,因为它建立在两种广泛可用且具有成本效益的常规诊断输入之上:一张 H&E 染色的肿瘤载玻片,我们使用基于图像的而不是真实的分子分类和诊断时肿瘤扩散的高级临床信息(扩散到宫颈或子宫以外,不包括远处),这与不断发展的 FIGO 分期系统9无关。在前瞻性临床试验中经过适当验证后,HECTOR 可能具有巨大潜力,可以在辅助治疗中对 EC 女性进行个体化分类,从低风险到高风险。临床医生后续的治疗决策可以得到相应的指导,因为 HECTOR 低风险预测可以提供一种方法来降低辅助治疗的级别,或鼓励对预测为 HECTOR 高风险的患者进行辅助全身治疗建议(例如化疗3、4或临床试验中的靶向治疗47、48、49)。 HECTOR 高危中的治疗指导可以通过选择性靶向分子检测(如 MMRd)或甚至基于深度学习的具有良好准确性的分子预测来支持11。虽然我们的数据支持 HECTOR 可以减少 EC 女性的治疗不足和过度治疗,但它也可以节省资源有限的环境中的挑战和费用,在这种环境中,分子检测和专家病理学家审查很难或不可行。我们推测 HECTOR 未来的技术改进可以是将其输入扩展到连续的数字化 H&E 染色的子宫切除术切片,然后进行三维重建50、常规执行的 IHC 染色的 WSI 51、术前放射学图像52或编码患者级临床信息的临床报告53。此外,通过利用宫颈、卵巢和(或)淋巴结切片的放射学图像进行基于深度学习的解剖阶段评估将使 HECTOR 独立于病理学审查。
我们的研究有几个优势。我们总共研究了 2,751 名患者,包括 3 项随机试验,这使这项研究成为迄今为止在 EC 领域进行的规模最大的基于 DL 的预后研究之一。我们最先进的多模态 DL 方法使我们能够利用来自多种因素的预后信息,包括 H&E 图像以外的因素。专家病理学审查和分子分析使我们能够根据 EC 风险分层的当前黄金标准对我们的方法进行基准测试。我们研究的局限性在于,我们当前基于多实例学习的模型不了解区域之间的空间关系,并且并非设计为利用多个 WSI 之间的信息,这两者都可能提高性能54、55 ;尽管尚未发现上下文感知架构可以提高此任务的性能。此外,通过试验其他从早期到晚期的融合技术42或使用借口任务学习更通用的形态分子表示,可以进一步优化形态、分子和解剖阶段的复杂相互作用。研究中的一些患者没有接受手术分期淋巴结清扫术26,27 ,这种考虑可能在解剖分期输入中引入了一些噪音,并可能解释了多变量分析中晚期疾病 III 期的残余预后价值。鉴于POLE mut EC 突变很少转移56,我们承认 HECTOR 可能会高估这些罕见情况下的风险。此外,由于缺乏可用于训练基于 DL 的 EC 特定图像分析工具的标记数据集,因此并非本研究中量化了在 H&E 区域观察到的所有形态相关性(例如,结构变化)。重要的是,HECTOR 性能需要进一步验证,无论是在比我们检查的具有大量欧洲血统的队列更具多样性的未经选择的队列中,还是在前瞻性试验中。因此,前瞻性验证将首先在 PORTEC-4a 试验中进行57。此外,由于 EC的治疗前景正在迅速发展,最适合 HECTOR 高危患者的辅助全身治疗需要不断验证4、58或(前瞻性地)在其他随机试验中探索47、48、49、59。
总之,HECTOR 的验证和扩展有助于精准医疗的实施,从而提高接受初次手术的 I-III 期 EC 女性的预后,并在全球范围内改善全身治疗推荐和治疗降级。
方法
道德声明
PORTEC-1、PORTEC-2 (NCT00376844) 和 PORTEC-3 (NCT00411138) 研究方案已获得莱顿、海牙、代尔夫特医学伦理委员会和参与中心的医学伦理委员会的批准。研究按照《赫尔辛基宣言》的原则进行。莱顿医学伦理委员会 (编号 B21.065 和 B21.011) 已获得临床试验和回顾性队列 (TransPORTEC 研究,Medisch Spectrum Twente (MST)) 的回顾性使用的伦理许可,LUMC 队列 (nWMO-D4-2023-002) 和丹麦队列也已获得区域教育中心、De Videnskabsetiske Komiteer (H-16025909) 的伦理许可。临床试验的所有研究参与者均提供了知情同意。伦理委员会已为其他研究提供了知情同意豁免。对于 UMCG 队列,医学伦理委员会批准使用数据,并鉴于研究的观察性质提供了知情同意豁免。
群组
我们使用了福尔马林固定石蜡包埋 (FFPE) 肿瘤材料和来自三项随机试验和六个临床队列的 EC 患者的临床病理学数据。我们的研究参与者均为女性,不考虑性别认同。
PORTEC-1 试验招募了 1990 年至 1997 年间患有早期中危 EC 的 714 名女性,在初次手术后,随机分配接受盆腔外照射放射治疗或无辅助治疗26。PORTEC -2 试验将 2000 年至 2006 年间患有早期高危至中危 EC 的 427 名女性随机分配接受外照射放射治疗或阴道近距离放射治疗27。PORTEC -3 随机试验纳入了 2006 年至 2013 年间患有 I-III 期高危 EC 的 660 名女性,并将她们随机分配接受单纯盆腔外照射放射治疗或外照射放射治疗联合同期和辅助化疗3。回顾性 TransPORTEC 研究纳入了 116 名来自国际患者的高危 EC 肿瘤,采用与 PORTEC-3 相同的纳入标准,来自 5 个机构(荷兰 LUMC 和 UMCG、英国曼彻斯特伦敦大学学院和圣玛丽医院以及法国维尔瑞夫古斯塔夫鲁西研究所)28。MST 的前瞻性队列包括 257 名 I-III 期高危 EC 患者,纳入标准与 PORTEC-3 相同,他们于 1987 年至 2015 年期间在荷兰恩斯赫德的 MST 接受治疗29。丹麦队列包括 451 名高级别 EC 患者,这些患者均在丹麦妇科癌症数据库中前瞻性注册30。 UMCG 队列是一个基于人群的队列,包括 1984 年至 2004 年在 UMCG 接受治疗的患者,即 278 名患者,其随访数据收集至 2010 年(参考文献31 )。LUMC 队列是一个回顾性收集的基于人群的队列,包括 2012 年至 2021 年在 LUMC 诊断和治疗的 222 名患者。最后,从 cBioPortal 65、66下载了公开可用的 TCGA-UCEC 队列32,其中包含 529名患者。
数据集
根据肿瘤材料的可用性,为每个患者提供一张具有代表性的子宫切除术标本 H&E 染色载玻片(补充图1和2以及补充表1、2和14 )。对于 LUMC 队列,我们为每个患有 EC 的患者病例收集了三张诊断性 H&E 染色肿瘤载玻片,每张来自不同的 FFPE 肿瘤组织块。使用两台扫描仪3Dhistech P250(分辨率为每像素 0.19 µm)和 3Dhistech P1000(分辨率为每像素 0.24 µm)以 ×40 放大倍数扫描 H&E 载玻片。手稿中提供的任何图像都是未经处理的扫描件。我们的病理专家对所有 WSI 进行了定性审查,然后排除了没有肿瘤、组织质量差和扫描失焦问题的病例,最终共计 2,560 例,每例至少有一个 WSI(补充图1和2中的 CONSORT 图表)。
在本研究中,根据以下标准,一些病例被排除在 HECTOR 的监督训练之外:(1)缺少远处复发随访数据,(2)FIGO 2009 IV 期34因为在诊断时已经有远处复发,(3)接受辅助化疗治疗,因为这可能降低了远处复发的风险3,4 。分类解剖期 I 、 II 和 III 是根据 FIGO 2009 分类34定义的。因此,它代表肿瘤局限于子宫内(I 期),肿瘤扩散到宫颈基质(II 期)或诊断时扩散到阴道、附件、盆腔和淋巴结(III 期)。辅助治疗中的远处复发定义为盆腔外的任何复发。因此,远处复发包括腹部转移和主动脉旁淋巴结转移。远处复发时间定义为从随机分组(PORTEC-1、-2 和 -3)或初次手术日期(MST、TransPORTEC 研究、丹麦、UMCG 和 LUMC 队列)开始,到诊断转移日期或无转移患者的最后一次随访或死亡日期结束。我们还强调,辅助化疗在收集临床队列时并不是标准治疗方法,接受辅助化疗的绝大多数患者来自 PORTEC-3 随机试验(n = 225)。
按照上述标准,监督训练-测试分组共纳入 2,072 例病例:584 例来自 PORTEC-1(参考文献26),395 例来自 PORTEC-2(参考文献27),217 例来自 PORTEC-3(参考文献3),67 例来自 TransPORTEC 研究28,226 例来自 MST 队列29,272例来自丹麦队列30,160例来自 UMCG 队列31,151例来自 LUMC 队列。然后,我们保留了一个内部测试集和两个外部测试集,均代表未经选择的人群。内部测试集是通过随机抽取 20% 的监督训练集获得的,按离散时间间隔和审查状态分层,以确保跨时间存在足够多的事件(n = 353,其中 116 个来自 PORTEC-1,100 个来自 PORTEC-2,43 个来自 PORTEC-3,13 个来自 TransPORTEC 研究,35 个来自 MST 队列,46 个来自丹麦队列;中位随访时间为 8.45 年,共发生 62 起事件)。第一个外部测试集是 UMCG 队列(n = 160 名患者;中位随访时间为 5.32 年,共发生 14 起事件)。第二个外部测试集是 LUMC 队列(n = 151 名患者:121 名有 3 个 WSI,21 名有 2 个 WSI,9 名有 1 个 WSI;中位随访时间为 2.90 年,共发生 24 起事件)。最后,剩余的 1,408 个 WSI 用于 HECTOR 的监督训练(468 个来自 PORTEC-1,295 个来自 PORTEC-2,174 个来自 PORTEC-3,54 个来自 TransPORTEC 研究,191 个来自 MST 队列,226 个来自丹麦队列;中位随访时间为 7.77 年,共发生 246 起事件)。
此外,还根据 PORTEC-3 随机试验3中先前排除的化疗病例(n = 225)以及 TCGA-UCEC 中 I-III 期患者(n = 381)预测了 HECTOR 风险评分。
对于自监督学习,我们仅使用已预留用于监督训练的 1,408 个 WSI,因此严格限制为不属于内部和外部测试集的 WSI。此外,自监督学习训练还丰富了处于任何疾病阶段、治疗或远处复发结果数据未知的病例(n = 454,其中 31 例来自 TransPORTEC 研究,5 例来自 MST 队列,16 例来自丹麦队列,402 例来自 TCGA-UCEC),最终自监督学习病例为 1,862 例。
绩效评估
在 C 指数指标33的指导下,在监督下游任务上评估了超参数优化和模型比较(包括使用自监督学习的补丁表征学习的架构选择) (使用 tau = 10 年和 scikit-survival Python 包(v.0.17.2))。为此,对为监督训练保留的 1,408 个 WSI 执行了五倍交叉验证程序。根据五倍中的最高平均 C 指数选择性能最佳的架构和超参数。然后在完整训练集上重新训练最终模型(称为 HECTOR),并在内部和两个外部测试集(UMCG 和 LUMC)上进行评估。另外计算了累积 AUC 37和 Brier 分数38 。
鉴于 LUMC 外部测试集每个病例最多包含 3 个 WSI,而内部测试集和 UMCG 外部测试集只包含 1 个,我们进行了多次实验,使用随机抽样得出患者级风险评分。首先,我们随机选择一个 WSI 用于每个病例并重复该实验 100 次,得出平均 C 指数和 CI。其次,我们随机为每个病例选择最多 2 个 WSI(如果可用),然后对每个患者的两个风险评分取平均值并重复 100 次。第三,我们选择外部测试集中所有可用的 WSI(每个病例最多 3 个 WSI(如果可用)并计算两个或三个风险评分的平均值和中位数。在另一项实验中,我们通过将所有可用 WSI 中的斑块特征合并到一个特征包中来合并每个患者的 WSI。
WSI 预处理
使用 Otsu 阈值进行 WSI 分割。以 180 µm 执行非重叠修补,并将补丁大小调整为 256 × 256 像素2。平均而言,此过程为每个 WSI 生成一袋 10,185 个补丁。
基于 Vision transformer 的块表征学习
我们遵循自监督学习的进步,采用了基于 Vision transformer 的深度学习模型,该模型能够学习多种分辨率的细粒度、块级表示。为此,我们训练了 EsVIT 并将其与 CtransPath (在组织病理学领域训练的替代模型)进行了比较(补充表3)。我们修改了最初提出的四阶段 Swin (基于变换器的 EsVIT 架构),以捕获细胞和区域级组织信息并适应我们的计算资源。第 1 阶段的块大小加倍为 8 像素,以减少序列长度并增加视野以捕获细胞视图。在第 2-4 阶段,我们保持双因素特征图合并率,并将输入图像的大小调整为 256×256 像素2而不是 224×224 像素2,以避免在第 4 阶段出现不可分割的块大小。最后,第 3 阶段堆叠的变换器的数量从六个减少到四个,其余的保持为两个。第一个嵌入维度保持不变,为 96,各阶段的注意力头数量也保持不变,分别为 3、6、12 和 24(补充表4)。
通过从用于自监督学习的 1,862 个 WSI 中随机提取每个 WSI 最多 2,000 个patches(大小为 180 µm,调整为 256×256 像素2) ,整理出了 3,702,447 个 patches 的数据集。此后,在 3 个 Nvidia RTX 8000 GPU(图形处理单元)上对修改后的 EsVIT 进行训练,批大小为 128,持续 100 个epoch,窗口为 14,以鼓励学习补丁之间的长期依赖关系。为了提高性能,我们还使用了视图和区域级预测 DINO(无标签的自蒸馏)头,在第一个时期没有权重归一化和冻结层,默认输出维度为 65,536(参考文献60)。我们遵循 EsVIT 作者的建议,使用较小的批次大小,将动量老师增加到 0.9996,并从初始老师温度 0.04 开始。在训练过程中,为了进一步降低损失,我们将教师温度从 0.04 调整到 0.02。我们使用 AdamW 和默认参数、默认优化程序(十个 epoch 的线性预热,然后使用余弦调度程序调整到 1 × 10 −6 )和权重衰减(余弦调度程序从 0.04 调整到 0.4)进行了优化。数据增强的使用与原始出版物60中完全相同。
训练完成后,从每个阶段的堆叠 Transformer 的注意力头中提取块级特征。对于我们的下游任务,我们观察到提取最后 8 个块与出版物 60 中提到的默认最后 4 个块相比有所改进,产生了大小为 3,456 的特征向量(补充表3)。
多模态 DL 预测模型
为了构建用于远期复发预测任务的多模态模型,首先仅使用 H&E WSI 模态(称为基于 H&E 的单臂模型)进行消融研究,然后整合基于 H&E 的 im4MEC 11 预测得出的基于图像的分子类别(称为双臂模型)和分类阶段(因此称为 HECTOR)。本节描述 HECTOR,补充表5总结了架构和训练参数,而“消融研究”提供了有关一些训练实验和架构选择的更多详细信息。
基于 H&E 的单臂模型将从 EsVIT 60中提取的 180 µm 大小为 3,456 的斑块级特征包作为输入,其中每个包的斑块数量各不相同。为了针对事件发生时间数据进行训练,并给定基于注意力机制的多实例学习 (AttentionMIL) 模型之一的批次大小,根据未经审查的患者分布的四分位数将时间尺度离散化为四个区间,并使用 −log(似然损失)61。
在 AttentionMIL 模型中,我们报告称通过添加另一个 WSI 预处理步骤,性能略有提升。具体来说,通过使用三个补丁的 L2 范数阈值和 0.8 的余弦相似度对高度相关的附近补丁级特征进行平均,WSI 形态信息在空间和语义上进行了压缩。此步骤将特征包从平均 10,185 个补丁减少到 180 µm 的 1,723 个(补充表3)。每个平均补丁级特征通过 3 个全连接层逐渐压缩到 512。注意模块计算潜在特征的注意力分数,在池化之前减少到 256,从而产生大小为 512 的滑动级嵌入。
为了利用分子类别(此处基于图像,源自基于 H&E 的 im4MEC 11预测)和分类(FIGO 2009)I、II 和 III 期变量的已证实的预后价值,并且鉴于 AttentionMIL 模型从块中计算出 H&E 幻灯片级别嵌入,我们尝试了中后期融合,以在 H&E 幻灯片级别嵌入中整合幻灯片级别、基于图像的分子类别和患者级别解剖阶段信息。我们提出了一种方法,首先将每个分类风险因素编码到高维向量空间,使用一个大小为 16 的可学习嵌入层,然后使用 Elu 激活函数和一个大小为 8 的完全连接层。接下来,对来自不同模态的嵌入应用具有双线性积的基于门控的注意机制,以根据参考文献16加权每种模态的重要性。为了捕获所有交互并保留单峰嵌入,将一个嵌入附加到注意力加权嵌入中,然后使用 Kronecker 积35进行融合。值得注意的是,为了使用基于图像的分子类别作为 HECTOR 的输入模态,我们在专门为本研究设计的训练集上重新训练了 im4MEC 模型。这样做是为了避免任何信息泄露,因为在本研究中,用于训练原始 im4MEC 模型的一些案例被用作验证测试。
通过在全连接层的生存分类头之前使用大小分别为 256 和 128 的两个全连接层进一步减少了最终的多模态嵌入,输出大小为离散时间间隔的数量。架构中的每个全连接层后面都有一个 0.25 的 dropout 和一个 ReLU 激活函数。
HECTOR 训练了 24 个时期,初始学习率为 3 × 10 −5,在第 2、5 和 15 个时期衰减 10 倍。Adam 优化器使用默认参数,权重衰减为 1 × 10 −5。HECTOR也是通过改编开放存取库11、16、21的部分内容而开发的。
消融研究
为了首先找到从 H&E 模态(单臂模型)预测远处复发的最佳架构,我们将三种最先进的 WSI 分类架构调整为适用于我们的远处复发预测任务:AttentionMIL22 、遵循参考文献15 的图形注意网络(其半径最多为 32 个连接的补丁节点)和遵循参考文献23的变压器架构。这两种架构都是从它们的开放存取库中调整而来的。它们都使用 EsVIT 提取的相同特征包进行训练,批次大小为 1,离散生存损失相同(-log(似然损失))。我们发现 AttentionMIL 架构在这个预后任务中产生的 C 指数比图形注意网络和变压器更高,同时计算复杂度要低得多(补充表3 ),这证实了参考文献15对 TCGA-UCEC的发现。
为了整合 H&E WSIS 中 im4MEC 预测的基于图像的分子类别,实验包括:(1) 迁移学习,其中 AttentionMIL 主干针对分子类别进行预训练,随后在预后任务上进行微调;(2) 多任务学习,其中添加了第二个训练目标,除了预后之外,还预测基于图像的分子类别;(3) 融合来自冻结 im4MEC 模型的基于图像的分子类别(从中间层或最终预测的分类类别中提取,然后是嵌入层和注意门)。在实验 2 中,实施了第二个分类头,使用生存损失(-log(似然损失))和交叉熵分类损失的加权和进行训练。权重因子被视为超参数,并使用五倍交叉验证进行优化。实验 3 包括使用嵌入层和注意门纳入预测的分类类别,导致平均 C 指数最高(补充表3)。
围绕融合阶段类别的实验包括使用扩展的 FIGO 2009 分类法或简化的三类分类法(I、II 和 II)进行训练,然后使用嵌入层和注意力门,后者实现最高的 C 指数(补充表3)。
与临床病理数据分析的关联
我们以 HECTOR 连续风险评分为因变量,以临床病理数据为回归变量,进行了多元单线性回归分析。统计检验为双侧检验,统计学显著性为P值 <0.050。回归系数和精确P值已在补充表7中报告。
输入贡献
IG 方法63用于测量 WSI 的贡献并识别 WSI 内与风险函数预测相关的斑块。给定离散时间间隔,对四个神经元目标取 IG 分数的平均值。特征缺失的 IG 基线表示为来自白色斑块的斑块级特征。所有 IG 分数均按患者在 -1 和 +1 之间进行标准化,同时保持符号和 IG 分数为零,并进一步取平均值以获得 WSI 级 IG 分数。趋向于 1 的正 IG 值表示它对增加风险评分有正贡献,而负值表示它有助于降低风险评分。由专家病理学家在前 5% 的斑块中选择一次代表性斑块,增加和减少每个病例的风险评分。
im4MEC 和 FIGO 阶段预测的基于图像的分子类别的贡献是通过将阶段和基于图像的分子类别值固定为我们选择的值(称为“参考组”),然后计算预测风险评分的差异来计算的。与 IG 方法类似,正差异或负差异分别表示对风险评分的正贡献或负贡献。
细胞水平组成
作为 HECTOR 可解释性部分的一部分,为了量化提取的高贡献斑块的视觉特征,我们首先使用细胞分割和分类 Hover-Net 14 DL 模型来获得炎症细胞计数,并在 EC 特定的 WSI 11上重新训练。然后,使用基于泛癌症 DL 的检测器64检测有丝分裂图,该检测器在 EC 组织上进行了微调,以用于本研究。通过扩展原始训练集69来执行微调,其中包含我们在 PORTEC 数据集中的 10 个 WSI 中进行内部注释的额外数据点,这些数据点被选中以覆盖 EC 组织学类型的多变性。区域级炎症和有丝分裂活动密度定义为按平方毫米面积标准化的绝对计数,并进一步对区域数取平均值以获得患者级密度值。肿瘤核的大小以 mm 2为单位报告,并按患者取平均值。使用感兴趣区域(即具有负贡献或正贡献的区域)内的线性回归检验 HECTOR 风险评分与患者水平视觉特征数量之间的统计关联。统计检验是双侧的,当P值 <0.050 时接受统计显著性。线性回归系数和精确P值如下:阴性区域内患者水平炎症密度的系数为 −0.0109(95% CI:−0.019 至 −0.002),P = 0.011;阳性区域内患者水平有丝分裂密度的系数为 0.0447(95% CI:0.033–0.057),P = 1.96 × 10 −12;对于阳性区域内的患者水平肿瘤核面积,系数377.916(95%CI:297.677-458.155),P = 3.10×10 −19 。
结果分析
根据Kaplan-Meier法和双侧对数秩检验进行无远处复发概率分析,P值 <0.050为统计学意义。HECTOR风险组的截断值仅通过取训练集中HECTOR风险评分分布的分位数(25%、50%和75%)来确定。在训练集中,前两组(<25%和25%~50%之间)未显示出任何显著预后差异,因此合并为一组,称为HECTOR低风险组。因此,我们将HECTOR低风险组定义为风险评分低于训练集中中位风险评分值的病例,HECTOR中风险组为风险评分介于训练集中中位风险评分值和第三四分位数之间的病例,HECTOR高风险组为风险评分大于训练集第三四分位数的病例。这些相同的截止值适用于未见的内部、UMCG 和 LUMC 外部测试集以及 TCGA-UCEC 和 PORTEC-3。
为了将 DL 模型的性能与已确定的临床病理风险因素进行比较,我们在 EC 中针对这些临床病理风险因素拟合了 CPH 模型并计算了相应的 C 指数。首先,我们使用可以在组织学幻灯片上直观分配的风险因素:组织学亚型、等级和 LVSI。然后我们添加了 FIGO 2009 I-III 期变量。最后,我们纳入了 EC 的分子类别(POLE mut、MMRd、NSMP 和 p53abn)。为了在五重交叉验证和内部测试集中保持验证集内的一致性,使用均值替代法估算缺失的分子类别(交叉验证中的 1,408 个中的 115 个,内部测试集中的 353 个中的 38 个)。
为了估计 HECTOR 与临床病理风险因素相比的预后价值,我们使用 CPH 和 HECTOR 连续风险评分计算了 HR。对于这些分析,我们纳入了具有完整临床病理和分子风险因素的所有病例(n = 1,254)。首先,我们在多变量分析中将所有临床病理风险因素的 HECTOR 风险评分校正为一个风险评分。为此,首先将 CPH 模型拟合到这些临床病理风险因素上。然后,通过对 CPH 系数和变量进行线性组合来计算得出的风险评分(称为“临床”)。在第二次分析中,我们在多变量分析中将组织学亚型、等级、LVSI、阶段、分子类别以及 L1CAM 和年龄作为连续数据校正了 HECTOR 的连续风险评分。
组织学亚型分类变量被处理为 3 级 EEC 与参考组低级 EEC 和非 EEC 与参考 EEC。分子分类的参考组为 NSMP,FIGO 2009 分期变量的参考组为 I 期。
所有统计检验均为双侧, P值<0.050时具有统计学意义。
基因组和转录组相关性分析
为了分析 HECTOR 风险组的驱动突变频率,使用 MC3 MAF(突变注释格式)数据从参考文献 70 中提取了基因组特征。EC 中前 19 个致癌驱动因素的突变状态从 cBioPortal 门户 65、66 下载,并由OncoKB 71注释。使用双侧χ2检验对每个基因进行 HECTOR 风险组之间致癌突变比例的统计比较,P < 0.050 被认为是显著的。确切的P值和样本量报告在补充表12中。
使用 log 2(免疫细胞亚群的转化比例)作为整个肿瘤的一部分,使用白细胞分数值,计算 HECTOR 连续风险评分与每个免疫细胞亚群之间的关联。以 HECTOR 连续风险评分作为独立变量进行线性回归。此外,我们通过校正分子类别和 TMB 作为其他独立变量来测试关联。双侧P值 <0.050 被认为是显著的。回归系数和精确P值已在补充表13中报告。
从firebrowse.org下载了 TCGA-UCEC 的信使 RNA 测序 (mRNA-seq) 和临床数据。使用 DESeq2 (ref. 72 ) (v.1.40.1) 评估 HECTOR 高风险和 HECTOR 低风险病例之间的差异表达基因。如果 <0.050,则接受使用 Benjamini-Hochberg 错误发现率 (FDR) 调整似然比检验P值的基因(补充表15)。
辅助化疗效果分析
我们预测了 PORTEC-3(参考文献3)治疗组中接受同步和辅助化疗(n = 225)的患者的 HECTOR 风险评分,因此,这些患者之前未被纳入训练和任何测试集。通过以下方法分析辅助化疗和外照射放疗相结合相对于单独外照射放疗的效果:(1)分析按 HECTOR 风险组分层的治疗组的无远处复发概率,并使用 Kaplan-Meier 方法和双侧对数秩检验测量组间治疗效果,和/或使用单变量 Cox 模型测量治疗变量的风险比;(2)计算 HECTOR 连续风险评分与治疗二元变量之间交互项的统计学意义;(3)计算 HECTOR 高危组与治疗二元变量之间交互项的统计学意义(针对 HECTOR 中危组进行校正,并使用 HECTOR 低危组作为参考组)。为了测量交互项(定义为 HECTOR 风险评分(连续或分类)乘以治疗二元变量)的统计显著性,进行了多变量 Cox 回归分析。进行了类似的分析以测试浆液性组织学亚型与化疗治疗二元变量(针对 EEC 和透明细胞组织学亚型进行校正)以及 FIGO 2009 III 期(针对 I-II 期进行校正)和 p53abn(针对 MMRd、NSMP 作为参考组并切除POLE突变肿瘤以达到收敛)之间的相互作用。
所有统计检验均为双侧,统计学显著性为P值<0.050。
软件和软件包
EsVIT 和 HECTOR 分别使用 Pytorch(v.1.8.1 和 v.1.10.0)实现。IG 使用 Captum Python 包(v.0.6.0)实现,使用 scikit-survival Python 包(v.0.17.2)实现 C 指数等指标,使用 Lifelines Python 包(v.0.27.1)实现 CPH 模型和 Kaplan-Meier 方法,使用Scipy Python 包(v.1.5.2)实现χ2检验,使用 altair Python 包(v.4.2.0)实现箱线图可视化,使用 statsmodels Python 包(v.0.13.5)实现线性回归。使用 DESeq2(v.1.40.1) 72和 R v.4.3.0(2023-04-21 ucrt)进行差异表达基因分析。用于图像处理的附加软件包包括 Openslide Python 软件包 (v.1.1.2)、OpenCV (v.4.3.0.36) 和 Pillow (v.7.2.0)。注释由 QuPath (v.0.4.1) 完成。