项目文章 | RNA-seq+WES-seq+机器学习,揭示DNAH5是结直肠癌的预后标志物
肿瘤突变负荷(TMB)已成为预测结直肠癌(CRC)患者预后和对免疫治疗反应的关键生物标志物。然而,全外显子测序(WES-seq)作为TMB评估的金标准,成本高且耗时。此外,高TMB患者之间的异质性尚未得到充分表征。相关研究表明,高TMB患者预后较好,但不同癌症类型之间的突变谱差异显著,现有泛癌症基因panel在特定癌症类型中的应用效果有限。机器学习方法在生物医学预测模型构建中具有重要价值。
2024年11月24日,南昌大学第一附属医院乐爱平教授团队在Biology Direct(IF=5.7)发表了题为“Machine learning-driven estimation of mutational burden highlights DNAH5 as a prognostic marker in colorectal cancer”的研究论文,该文章利用RNA-seq+WES-seq+机器学习,揭示DNAH5是结直肠癌的预后标志物(爱基百客为本研究提供了RNA-seq和WES-seq技术支持)。
研究路线
研究结果
1. 构建和评估机器学习驱动的TMB估计模型
该研究团队从南昌大学第一附属医院(FAHNU)收集了148名原发性结直肠癌(CRC)患者的肿瘤样本、相邻正常组织样本和外周血单核细胞(PBMCs),这些样本(FAHNU队列)用于通过联合分析RNA-Seq和全外显子组测序(WES-seq)数据来预测癌症新抗原(Fig. 1a)。整个模型创建和后续验证的流程图在Fig. 1b中展示。
Fig. 1 研究设计流程图
来自TCGA数据库的患者CRC的体细胞突变数据被用于构建突变矩阵,该矩阵涵盖了586名患者共17,883个基因,特别针对非同义突变。根据突变频率≥5%和基因突变与肿瘤突变负荷(TMB)相关性的标准,筛选出468个与CRC相关的TMB相关基因。在这些基因中,TTN、SYNE1、PIK3CA、MUC16和FAT4是突变频率超过20%的主要突变基因(Fig. 2a)。为了构建TMB估计模型,采用了这468个基因的突变矩阵。研究者使用了八种不同的机器学习模型来确定TMB估计的最优方法。这些模型包括弹性网络(ElasticNetCV)、Lasso回归、线性回归、随机森林、递归特征消除(RFE)、岭回归、支持向量回归(SVR)和XGBoost。每个模型都对每个规定的基因数量进行了1000次迭代,并且在内部验证集上评估了相应的R²分数(Fig. 2b展示了Lasso回归模型的结果)。
随着纳入模型的基因数量增加,所有模型的性能指标开始趋于平稳,达到一致性水平。除了随机森林和XGBoost模型外,其他六种模型的性能轨迹大致平行,尤其是随着基因数量的增加(Fig. 2c)。为了确定模型性能开始达到平衡的阈值,研究者采用了分段线性回归分析模型的R²值轨迹。一个关键的观察是,Lasso模型在20个基因标记时开始性能稳定,平均R²值为0.95。ElasticNetCV模型的性能轨迹与Lasso几乎相同,在31个基因时显示出一致的趋势,记录的R²值为0.949。当基因数量达到38时,ElasticNetCV的表现开始略优于Lasso。然而,当关注包含最少基因的模型时,Lasso模型表现出最佳性能(Fig. 1d)。基于TCGA训练集的结果,研究者推断Lasso模型是TMB估计最合适的选择。
Fig. 2 基于机器学习的TMB估计模型构建与评估
2. 20个基因TMB预测模型在CRC患者中的应用
研究者专注于使用Lasso模型构建一个基于20个基因的TMB预测模型,这个模型在预测TMB时显示出最佳结果(Fig. 3a)。这20个基因包括DNAH3, MUC5B, DNAH5等,它们被选为最优的Lasso基础TMB预测模型(Fig. 3b)。与著名的泛癌TMB预测panel(如MSK-IMPACT和F1CDx)相比,这个20个基因模型表现出明显的差异,只有少数基因与CRC突变负荷明确相关。这强调了泛癌panel在捕捉与结直肠癌特别相关的TMB相关基因方面的不足。在这个20个基因模型中,只有CREBBP和FAT1出现在其他泛癌panel中。
研究者在四个独立的CRC队列中测试了这个20个基因模型,基于20个基因panel的TMB预测模型在所有五个队列中显示出良好的性能(Fig. 3c)。研究者使用了八种不同的机器学习算法来选择20个基因的组合,以构建最优的预测模型。在所有模型中,ElasticNetCV和Lasso模型表现最佳,而Lasso模型在几乎所有队列中都表现最好(Fig. 3d)。
研究者将20个基因模型与F1CDx和MSK-IMPACT商业模型进行了比较,发现20个基因模型的TMB与这些商业模型得出的TMB估计值之间存在显著相关性(Fig. 3e,Fig. 3f)。在所有五个独立队列中,该模型的诊断性能与这些商业检测一致(Fig. 3g)。20个基因模型不仅在结直肠癌中有效,还在其他癌症(如胰腺癌、胶质瘤、宫颈癌和前列腺癌)中估计TMB时表现出有效性。该模型能够准确估计POLE突变的CRC患者的TMB,这些患者通常具有非常高的TMB水平,并在微卫星稳定(MSS)和微卫星不稳定(MSI)的POLE突变患者中提供可靠的TMB估计。综上所述,研究者得出结论,基于20个基因的Lasso模型构建的TMB估计模型最适合临床应用。
Fig.3 20个基因TMB估计模型构建与验证
3. 20个基因TMB模型与CRC患者预后的关联
研究者在三个数据集中评估了TMB与预后之间的关联,这些数据集总共包含超过1000名患者。研究发现,根据20个基因面板模型定义的高TMB患者展现出更好的总生存(OS)率(Fig. 4a)。此外,高TMB与良好的无进展生存(PFS)结果之间也存在显著关联(Fig. 4b)。研究者确定了PFS的理想截断点为274.06,这是由20个基因TMB模型确定的。在这个截断点下,患者的生存结果表现出最显著的差异。这个截断点将患者分为高TMB组(218名患者)和低TMB组(865名患者)(Fig. 4c)。与之前的研究一致,在TMB前20%的患者中存在显著的预后差异。
此外,TMB水平似乎仅与患者的临床分期相关,与年龄或性别等其他因素没有明显联系。研究者构建了包含性别、年龄、肿瘤分期和20个基因TMB的多变量Cox回归模型。多变量Cox回归分析表明,高TMB并不是OS的独立预后指标(Fig. 4d),但它是CRC患者PFS增强的独立预测因子(Fig. 4e)。当TMB被视为连续变量时,它不是OS或PFS的独立预测因子。这支持了TMB作为生物标志物的理解正从定量(突变越多越好)转向定性的观点。综上所述,基于20个基因面板模型估计的TMB与CRC患者的预后存在关联,特别是在预测PFS方面,高TMB是一个独立的预测因子。
Fig.4 20个基因TMB和DNAH5突变预后作用
4. DNAH5突变对TMBhigh CRC患者预后的影响
通过多变量Cox回归分析,研究者发现DNAH5基因的突变是TMBhigh患者更有利的无进展生存(PFS)结果的独立预测因子。具体来说,一个或多个DNAH5突变的存在对应于0.40的风险比(HR),95%置信区间(CI)从0.19到0.87(Fig. 4f)。虽然有DNAH5突变的TMBhigh患者的总生存(OS)没有显著差异(Fig. 4g),但在考虑PFS时,被标记为TMBhighDNAH5mut的患者展现出最佳的生存率(Fig. 4h)。有趣的是,DNAH5突变的预后影响似乎仅限于TMBhigh患者。在TMB较低的患者亚组中,DNAH5突变对OS或PFS均无显著影响(Fig. 4d,Fig. 4e)。
对患者临床特征的分析显示,在TMB高的患者中,男性DNAH5突变更为常见。然而,DNAH5突变与ATUS之间没有显著关联(Fig.5a)。TMB升高与DNA损伤反应和各种DNA修复机制(如错配修复、同源重组、核苷酸切除修复、DNA复制和碱基切除修复)的增加活动相关。特别是在被归类为TMBhigh且有DNAH5突变的患者中,观察到DNA损伤反应和DNA修复途径的最显著活动(Fig. 5b)。GO富集分析显示TMBhigh患者主要表现出免疫信号通路的激活,包括适应性免疫响应、免疫响应的正向调节等(Fig. 5c)。此外,在携带DNAH5突变的TMBhigh患者中,这些免疫信号通路的激活更为明显(Fig. 5d)。
TMBhighDNAH5mut组的TME评分最高,表明TMBhigh患者经历了各种抗肿瘤免疫细胞的显著增加,包括CD8+ T细胞、滤泡辅助T细胞、激活的NK细胞和M1型巨噬细胞,所有这些都显示出显著增加。特别是TMBhighDNAH5mut患者展现出CD8+ T细胞、激活的NK细胞和M1型巨噬细胞的最高浸润率(Fig. 5e)。这些观察结果强调了TMBhigh与抗肿瘤免疫细胞浸润之间的关联。
此外,TMBhigh与免疫治疗敏感性标志物相关,包括T细胞炎症基因表达谱(GEP)、效应CD8+ T细胞和免疫检查点。所有免疫治疗敏感性标志物在TMBhighDNAH5mut患者中都显著上调(Fig. 5f)。此外,TMBhigh还与激活的抗原呈递相关,这在TMBhighDNAH5mut中更为活跃(Fig. 5g)。这些结果进一步证实了TMB与CRC免疫治疗的有效性相关,且伴有DNAH5突变的TMB较高的患者可能从免疫治疗中获益更多。
Fig.5 TMB高且DNAH5突变的患者临床和基因表达特征
5. 20个基因TMB与肿瘤新抗原负荷(TNB)的关联
肿瘤突变可以产生多种抗原,但只有部分能刺激免疫反应。TNB衡量在特定基因组区域内产生的免疫原性抗原的数量。过去的研究表明,较高的TNB与接受免疫疗法的患者有更好的预后相关。在FAHNU和TCGA队列中,使用配对的RNA-seq和WES-seq数据分析了肿瘤新抗原。发现WES TMB和TNB之间存在强正相关。此外,基于20个基因面板模型估计的TMB与TNB也显示出明显的正相关(Fig. 6a)。IC50值小于50nM的新抗原被分类为高亲和力新抗原。WES TMB和基于20个基因面板的TMB都与高亲和力新抗原负荷(HTNB)显示出强相关性(Fig. 6b),表明20个基因面板模型是预测CRC患者新抗原水平的可靠工具。TMBhigh患者也有较高的TNB和HTNB(Fig. 6c)。值得注意的是,TMB、TNB和HTNB在TMBhighDNAH5mut患者中也显著增加(Fig. 6d-e)。分析显示,TMBhighDNAH5mut患者的CD8+肿瘤浸润性淋巴细胞(TILs)密度增加,表明有更活跃的免疫反应,这可能对预后和治疗策略有影响(Fig. 6f-g)。
Fig.6 20个基因TMB与肿瘤新抗原负荷相关
结 论
本文提出了一种基于20个基因的机器学习模型,用于在CRC患者中高效估算TMB。该模型不仅准确预测TMB,还与患者预后显著相关。特别是,DNAH5基因在TMBhigh患者中的突变与更好的预后相关,表明其在个性化治疗中的潜在应用价值。该研究为CRC的精准治疗提供了新的思路和工具。
关于我们
武汉爱基百客生物科技有限公司(简称爱基百客),位于武汉高农生物园,是一家专业提供表观组学科研服务、单细胞与空间组学测序分析和高通量测序分析的新型生物科技服务企业。公司先后引入ChIP、WGBS、ATAC-seq、DNBSEQ-T7、10x Genomics、SeekOne® DD、DNBelabC-TaiM4和Stereo-seq等实验平台,不断提升公司的科研服务能力。
运营至今合作的科研客户超2000家,涵盖国内知名科研院所、高校以及相关生物企业,科研成果曾多次在Science、Cancer Cell、Nature Communications、J HEMATOL ONCOL、Plant Cell 等国际高水平学术期刊发表,受到了客户广泛好评,是国内成长最迅速的高通量测序科研服务企业之一。
原文地址:https://blog.csdn.net/Igenebook/article/details/144288293
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!