【论文阅读】Simulating 500 million years of evolution with a language model

🕗 发布于 2024-09-30 09:46 论文阅读语言模型 人工智能

Simulating 500 million years of evolution with a language model

1、概述

展示了语言模型在蛋白质设计和进化模拟方面的能力。通过对 ESM3 模型的研究，发现其能够生成与自然蛋白质差异较大且具有功能的新蛋白质，如新型绿色荧光蛋白（GFP），表明语言模型可以达到自然进化未探索的蛋白质设计空间，为蛋白质工程和进化研究提供了新的途径和见解。

2、蛋白质与语言模型的背景知识

2.1 蛋白质的进化与特性

蛋白质的的自然进化：经过数十亿年自然进化形成，其模式如同在一个空间中，每个蛋白质通过突变等变化与其他蛋白质相连，进化路径受系统功能维持约束，随机突变和选择塑造其结构和功能。
基因测序调查显示蛋白质序列和结构的多样性，暗示存在潜在的蛋白质生物学语言，可以通过语言模型理解
荧光蛋白特性：GFP家族能形成荧光发色团，无需辅助因子或底物，其独特结构（十一链 β 桶和中心螺旋）使得发色团形成，该过程对突变敏感，少量随机突变即可导致荧光消失，在生物技术中是重要工具。

2.2 蛋白质语言模型的发展

已有多种蛋白质序列语言模型被开发和评估，发现其表示能够反映蛋白质结构和功能，且在无监督学习中学习到，随规模扩大性能提升，如ESM3通过对离散标记的处理和训练，在表示学习和生成应用中取得改进

3、ESM3模型的架构和训练

3.1 架构

3.1.1 总体概述

ESM3是多模态生成模型，对序列、结构和功能等多种模态进行推理，输入通过标记化处理，经过transformer和几何注意力等处理，输出可通过解码器转换为具体形式，如结构标记可解码为原子坐标。
模型采用预训练任务学习蛋白质的深层结构和生物学特性，以解决下一个标记预测任务，从而实现对蛋白质序列、结构和功能的联合建模和生成。

3.1.1.2 具体组成

标记化：所有channel（序列、结构、二级结构、SASA、功能注释、残基注释等等）都表示为标记序列，每个氨基酸位置有特定标记，如序列用29种标记（20种氨基酸+特殊标记），结构标记有4096个+4个特殊标记，功能标记通过对关键词的处理得到等。
输入与前向传播：ESM3能接受多种输入channel，如结构坐标，二级结构标签等，通过嵌入和求和等操作处理后输入transformer块，然后经过回归头得到各个channel的预测结果。
transformer：基于transformer架构改进，采用Pre-LN、旋转嵌入和SwiGLU等，核心修改是在网络第一层插入集和注意力子层，不同规模的模型（ESm3-small、medium、large）有不同的层数和参数设置。
几何注意力：通过处理骨架框架和原子坐标信息，以旋转和平移不变的方式整合几何信息想，实现对蛋白质局部骨架几何的推理，在结构标记编码器和ESM3第一层中使用。
结构标记器：用VQ-VAE编码器将每个残基与一个结构标

原文地址：https://blog.csdn.net/gyx1549624673/article/details/142629779

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Linux下驱动开发实例
下一篇：代码随想录算法训练营day42

PHP常用的超全局变量(8个)
以上介绍了PHP中常用的8个超全局变量，包括GLOBALS、_SERVER、GET、_POST、FILES、_COOKIE、SESSION和_REQUEST。这些变量在PHP脚本中提供了丰富的功
阅读更多2024-10-04
golang grpc进阶
grpc让我们可以像本地调用一样实现远程调用，对于每一次的RPC调用中，都可能会有一些有用的数据，而这些数据就可以通过metadata来传递。metadata是以key-value的形式存储数据的，其
阅读更多2024-10-04
IP与网关的关系
IP地址（Internet Protocol Address）是分配给网络中每个设备的唯一标识符。它的主要作用是识别设备及其在网络中的位置。IPv4地址：由四个以点分隔的十进制数字组成（例如：192.
阅读更多2024-10-04
【docker笔记8-镜像推送】
这里首先要登录到docker，然后需要输入登录用户名和密码，如果是直接使用谷歌账号登录得docker官网，那么这里需要使用google账号和密码。需求：将一个java的demo打包，并通过Docker
阅读更多2024-10-04
通信工程学习：什么是IGMP因特网组管理协议
通信工程学习：什么是IGMP因特网组管理协议
阅读更多2024-10-04
《PMI-PBA认证与商业分析实战精析》第5章需求启发与分析
需求启发和分析是PMI-PBA考试中考题占比最大的部分。需求分析的五类共二十一项技术。记录、确认、核实和批准需求。需求确认与需求核实的区别。启发提问的四种类型问题。高质量需求的九大特征。
阅读更多2024-10-04
干货：京东云GPU服务器性能NVIDIA A30/A10/V100/P40测评
京东云GPU服务器性能如何？京东云GPU云主机提供NVIDIA A30、A10、V100、P40等多款GPU卡，新推出的8卡A30规格，配备24G显存，支持NVLink，更好为深度学习的推理与训练、高
阅读更多2024-10-04
Mysql知识点整理
索引是一种数据结构，合理利用便于提升Mysql性能优点：加快数据的检索速度和IO次数缺点：创建和维护索引需要时间，消耗资源。索引占用物理内存空间。
阅读更多2024-10-04
国庆刷题（day2）
C语言刷题：C++刷题：
阅读更多2024-10-04
AMD 矩阵核心
矩阵乘法是线性代数的一个基本方面，它在高性能计算（HPC）应用中是一个普遍的计算。自从 AMD 推出 CDNA 架构以来，广义矩阵乘法（GEMM）计算现在通过矩阵核心处理单元实现了硬件加速。矩阵核心加
阅读更多2024-10-04