自学内容网 自学内容网

AIDD-人工智能药物设计-基准数据集的泛化评估不真实?哈佛医学院提出SPECTRA

Nat. Mach. Intell. | 基准数据集的泛化评估不真实?哈佛医学院提出SPECTRA

今天为大家介绍的是来自哈佛医学院的Maha Farhat团队的一篇论文。深度学习在对分子测序数据进行建模方面取得了迅速进展。尽管在基准测试中表现优异,但我们仍不清楚深度学习模型在多大程度上学习到了通用原理,并能推广到此前从未见过的序列。传统上,基准测试在评估模型性能之前,会先基于元数据或序列相似度将输入数据划分为训练集和测试集,以此来检验模型的泛化能力。然而,作者在此指出,由于未充分考虑跨划分重叠(即训练集与测试集之间的相似性)的完整范围,这种做法会对模型的泛化能力产生错误的刻画。为此,作者提出了SPECTRA,这是一种用于模型评估的框架。在给定某个模型和数据集后,SPECTRA会在跨划分重叠度不断降低的条件下绘制模型性能曲线,并将该曲线下面积用作衡量泛化能力的指标。作者在18个测序数据集和表型上使用SPECTRA,并评估了19个最先进的深度学习模型的泛化能力。虽然没有任何模型能在所有任务上始终取得最高性能,但在某些特定任务中,深度学习模型确实可以泛化到此前未见过的序列。SPECTRA的提出推动了我们对基础模型在生物学应用中如何实现泛化的理解。

Image

机器学习模型在未见数据上的表现(即泛化能力)是生物学研究中应用计算方法的一大挑战。深度学习通过预测序列与表型之间的生物学关系来模拟表型,但由于(1)仅有少量可用的分子测序数据,(2)序列会不断进化并出现数据集中未包含的新突变,导致分布移位,从而降低模型在新数据上的性能。

Image

图 1

如图1a所示,深度学习模型在基准测试与真实应用之间仍存在显著差距。为评估模型在未见数据上的泛化能力,传统做法通常采用元数据(MB)或序列相似度(SB)的拆分方式(图1c),但这些方法难以全面量化模型在不同分布移位下的表现。针对这一问题,作者提出了SPECTRA框架:如图1b, d所示,SPECTRA通过生成跨拆分重叠度(即训练集与测试集的相似性)逐步降低的一系列拆分,并绘制模型性能的谱曲线(SPC),以此观察模型在不同重叠度下的表现,并通过曲线下面积(AUSPC)量化总体泛化能力。该方法为生物学领域在分子测序数据上评估机器学习模型提供了更全面的思路。

模型部分

与目前普遍采用的基于MB与SB进行模型评估的方法不同,SPECTRA通过考察针对特定分子测序数据集的模型“光谱性能曲线”,为模型表现提供了更全面的视角。该方法聚焦于输入分子序列的一个或多个特征,即分子序列属性(MSPs)(例如基因的GC含量)。作者将“谱属性”定义为在特定任务中预期会影响模型泛化能力的一种MSP(例如在预测蛋白质结合任务时,蛋白质的三维(3D)结构就是一项相关谱属性)。

谱属性的定义具有任务针对性,与分子序列数据集和模型共同构成了SPECTRA的唯一输入(图1d)。首先,SPECTRA比较数据集中所有序列对的谱属性,找出共享该谱属性的序列对,并据此构建“谱属性图”(SPG)。然后基于该图生成自适应的训练-测试划分,使跨拆分重叠(即测试集中与训练集共享谱属性的样本比例)逐步降低。SPECTRA通过调整内部谱参数(SP)从SP=0到SP=1,分别对应最大和最小的跨拆分重叠。最后,在每个划分上训练并测试模型,并将模型性能随SP变化的曲线称为该数据集的SPC。SPC曲线下面积(AUSPC)则总结了模型在所有跨拆分重叠水平上的表现,可用于在相同任务或跨任务之间比较模型的泛化能力。

SPECTRA统一了模型评价和基准测试方法

Image

图 2

如图2a所示,基于TAPE、PEER、PDBBind与ProteinGym等基准的元数据与相似度拆分方式仅占据SPC上的个别点位;通过SPECTRA可计算这些拆分对应的跨拆分重叠度,并找到相应的谱参数。例如,在TAPE远端同源性数据集里,家族级别的拆分跨拆分重叠度高达97%,仅能由SP=0.025表示。图2b显示,随着跨拆分重叠度从97%(家族拆分)降至71%(超家族拆分),LSTM和CNN的预测准确率下降了约50%。同样,图2c与图2d中的蛋白质二级结构预测及蛋白质-配体亲和力预测也呈现出类似的模型性能随跨拆分重叠度降低而下降的趋势。这表明传统基准仅反映了曲线上的少数点,易造成对模型泛化能力的高估,而SPECTRA则能提供更完整的评估框架。

SPECTRA揭示了分子机器学习模型中的泛化空白

Image

图 3

如图3a所示,作者在五个不同的分子测序数据集上评估六种模型后,均观察到随跨拆分重叠度降低,模型性能明显下滑。以RIF与INH耐药性预测为例,逻辑回归模型与预训练/微调的大型语言模型(ESM2/ESM2-Finetuned)均在低跨拆分重叠时精度大幅下降。不过,部分模型(如ESM2、ESM2-Finetuned与CNN)在跨拆分重叠度最低(SP=1)时仍维持较高的AUC水平(>0.7)。然而,图3b显示,在按AUSPC衡量的总体泛化能力上,没有任何单一模型在全部任务中都表现最佳。

SPECTRA识别关键谱属性

Image

图 4

如图4a所示,在RIF耐药性预测中,CNN模型在SP=0.9、0.95和1.0的拆分下表现出高方差,AUROC标准差分别为0.09、0.10和0.08,且性能下降分别为26%、31%和23%。这表明可能存在未考虑的谱属性。RIF耐药性主要由RNA聚合酶β亚基(rpoB)基因的耐药决定区(RRDR)的错义突变引起(图4b)。当SP增加时,训练集和测试集中RRDR突变的遗传距离也随之增加,可能导致模型仅学到部分RRDR区域与耐药性的关联,从而降低泛化能力。

为验证这一假设,作者计算了训练集和测试集间RRDR突变位置范围的差异(diff-RRDR),并发现diff-RRDR与AUROC在SP=0.9的拆分中存在显著负相关关系(图4c, d)。相似模式也在SP=0.95和SP=1.0的拆分中观察到。然而,ESM2模型在diff-RRDR增加时性能未下降(图4e),这可能是因为ESM2在预测中考虑了更长的上下文(512个位置),而CNN仅考虑12个位置。这些结果揭示了当前在结核分枝杆菌耐药性预测中CNN 模型的局限性,并表明通过纳入更长的DNA序列上下文可以提升模型的泛化能力。作者将diff-RRDR界定为一种关键谱属性,特别适用于功能性突变集中于DNA活性位点周围的蛋白质表型预测任务。

SPECTRA评估基础模型的泛化能力

Image

图 5

如图5a所示,SPECTRA通过计算AUSPC评估基础模型在特定任务数据集上的泛化能力,并分析预训练数据集与任务数据集之间的重叠对泛化能力的影响。在蛋白质基础模型ESM2的评估中,针对RIF、PZA、INH、SARS-CoV-2和GFP表型预测,AUSPC范围从RIF的0.91到SARS-CoV-2的0.26,不同任务间表现差异显著。进一步分析显示,任务数据集与ESM2预训练数据集UniRef50的重叠与AUSPC显著相关。

此外,通过对任务数据集进行微调,ESM2在PZA、SARS-CoV-2和GFP表型预测中的AUSPC有所提升。这一趋势在其他蛋白质基础模型(如Transception、MSATransformer、ESM1v和Progen)中同样显现,在ProteinGym基准的五个分子测序数据集上观察到类似的相关性(图5b)。这些结果表明,基础模型的泛化能力在很大程度上受预训练数据集与任务数据集重叠程度的影响,而SPECTRA提供了一种全面的框架来量化这一关系并评估模型的实际性能。

讨论

SPECTRA框架通过明确控制训练集和测试集的跨拆分重叠度,系统评估分子机器学习模型的泛化能力,弥补了传统基准对模型泛化能力过于乐观的缺陷。研究表明,模型性能随跨拆分重叠度降低而下降,这种趋势在RIF耐药性预测中尤为显著。传统基准测试忽视训练集、测试集与外部数据集间的重叠问题,可能导致模型在真实应用中表现不佳。SPECTRA能识别关键谱属性(如蛋白质活性位点的突变特征),并揭示基础模型在与预训练数据相似的任务数据集上表现更佳的规律。未来,SPECTRA可应用于RNA、代谢组学等其他领域,为模型性能提供全面评估,推动生物学和其他分子领域的机器学习发展。

参考资料

Ektefaie Y, Shen A, Bykova D, et al. Evaluating generalizability of artificial intelligence models for molecular datasets[J]. Nature Machine Intelligence, 2024: 1-13.


原文地址:https://blog.csdn.net/itwangyang520/article/details/145183151

免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!