MvMRL：一种用于分子性质预测的多视图分子表示学习方法

🕗 发布于 2024-12-26 14:01 人工智能

有效的分子表示学习对于人工智能驱动的药物设计至关重要，因为它会影响分子性质预测以及其他与分子建模相关任务的准确性和效率。然而，以往的分子表示学习研究往往存在诸多局限，例如过度依赖单一分子表示，无法充分捕获分子结构中的局部和全局信息，以及不能有效地整合来自不同分子表示的多尺度特征。这些局限限制了对分子结构和性质的完整、准确表示，最终影响了分子性质预测的准确性。

Multi-view learning framework：“多视角学习框架”，意味着从多个不同角度（比如这里的分子不同表示形式角度）去对研究对象（分子）进行特征学习和分析的一种整体架构思路，区别于单一视角看问题，能更全面挖掘信息。
Multi-scale CNN-SE：“多尺度卷积神经网络 - 挤压与激励”，是一种结合了多尺度卷积操作以及挤压与激励机制的网络结构，多尺度卷积可以捕捉不同范围的特征，SE 模块能对特征通道进行权重调整，增强重要特征的影响力，在图像处理、自然语言处理等领域应用广泛，这里用于学习分子的 SMILES 特征。
Squeeze-and-excitation (SE) block：“挤压与激励模块”，是一种在神经网络中用于对特征进行重新加权，让网络更关注重要特征的结构模块，它先通过 “挤压” 操作对特征做全局信息统计，再通过 “激励” 操作基于统计信息生成权重去调整原始特征，从而达到自适应关注关键特征的效果。
Local receptive field：“局部感受野”，在卷积神经网络语境下，指卷积核在输入数据（比如图像的像素区域、文本的字符序列等）上每次覆盖的局部范围，卷积操作基于这个局部范围来提取特征，它决定了网络能直接捕捉到的局部特征情况，但也限制了对长距离、全局特征的获取能力。

a部分

Input（输入）
- 输入为 SMILES（Simplified Molecular Input Line Entry System，简化分子线性输入规范）字符串，例如 “O (C (=O) c1ccccc1) c2ccccc2”。
Multi - view Feature Learning（多视角特征学习）
- 分子指纹（Molecular Fingerprint）：
  - 包含多种分子指纹，如 RDKit、MACCS、PubChem、Pharmacophore，分别具有不同的比特长度（如 RDKit 1024 bits，MACCS 167 bits 等）。
- 分子图（Molecular Graph）：
  - 通过 RDKit 构建分子图。
- 多尺度 CNN - SE 块（Multiscale CNN - SE Block）：
  - 具有不同卷积核大小（Kernel = 2, 4, 8）的卷积神经网络 - 挤压与激励（CNN - SE）块，用于处理 SMILES 序列。
Multi - view Feature Fusion（多视角特征融合）
- 多层感知机（MLP）：
  - 用于处理分子指纹特征。
- 双交叉注意力组件（Dual Cross - attention Component）：
  - 用于融合不同视角的特征，包含三个视图（View 1、View 2、View 3）的特征融合。
Prediction（预测）
- 通过前馈神经网络（FFN）预测分子的溶解性（Solubility Lipophilicity）

B部分

嵌入（Embedding）
- 使用卷积神经网络（CNN）层进行嵌入操作，包括 Conv1d（一维卷积）、ReLU（修正线性单元）、Conv1d、Sigmod（Sigmoid 函数）操作。
- 通过图读出（Graph Readout）操作得到最终的嵌入表示。

C 部分

分子图（Molecule Graph）
- 使用多尺度 GNN 编码器（Multiscale GNN Encoder）处理分子图。
- 包含多个多尺度块（Multiscale Block）和过渡层（Transition Layer）。

D 部分

多尺度块（Multiscale Block）
- 详细展示了多尺度块的结构，包括图卷积网络（GCN）操作。

E 部分

双交叉注意力块（Cross - attention Block）
- 详细展示了双交叉注意力块的结构。
- 使用连接（Concatenate）、全局平均池化（Global Average Pooling）和哈达玛积（Hadamard Product）操作来融合特征。

. SMILES 序列的嵌入

字符编码：为了让卷积神经网络（CNNs）能够学习 SMILES 序列的特征，首先构建字典，将 SMILES 序列中的每个字符编码为一个标记（token）。例如，对于丙二醇（Propylene glycol）的 SMILES 序列 “CC (O) CO”，基于字典 {“(’:1, ‘)”: 32, “C”:43, “O”:49}，可以将其编码为向量 Vec = [43, 43, 1, 49, 32, 43, 49]。
生成嵌入向量：序列中的每个标记通过 SMILES 嵌入层进行编码，生成嵌入向量。
生成嵌入矩阵：所有嵌入向量合并成一个嵌入矩阵，作为多尺度 CNN - SE SMILES 学习组件的输入。

为了评估我们的 MvMRL 方法的预测能力，我们在 11 个基准数据集上进行实验，其中包括 8 个分类数据集和 3 个回归数据集。在这些基准数据集中，有 8 个来自 MoleculeNet [32] 的数据集，其中包括用于分类任务的 BBBP、BACE、ClinTox、Tox21 和 Sider 数据集，以及用于回归任务的 FreeSolv、ESOL 和 Lipo 数据集。此外，还有来自 CHEMBL [21] 的三个小规模数据集，包括 DHFR、IGF1R 和 AHR，用于评估模型在小样本数据上的分类性能。表 1 总结了实验中使用的数据集的统计信息。每个数据集的详细信息如下：

BBBP 包含标记为血脑屏障可渗透或不可渗透的化合物。
BACE 包含一组人类 β - 分泌酶 1 抑制剂的定性结合结果，它提供了分子与其相应生物活性信息之间的相关性。
ClinTox 包含美国食品药品监督管理局（FDA）批准的药物以及因毒性原因临床试验失败的药物。
Tox21 包含大量与药物毒性相关的 12 种不同靶点的实验化合物。
Sider 包含标记有副作用的药物，这些药物被分为 27 个系统器官类别。
FreeSolv 包含具有对数溶解度值的化合物。
ESOL 包含具有水溶性值的化合物。
Lipo 包含具有辛醇 / 水分配系数值的化合物。
DHFR、IGF1R 和 AHR 是三个与生物相关的小型数据集，分子数量在 124 到 165 之间，数据均匀分布且数据标签平衡。

原文地址：https://blog.csdn.net/qq_49786473/article/details/144629609

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：2024.12.21 周六
下一篇：DINO: 基于双向知识蒸馏的视觉智能自学习方法

TouchGFX软件介绍基本控件，交互设计与仿真（2）
• 当Tiled Image控件宽度或高度大于图像时，图像就会在水平和垂直方向进行重复填满控件区域。• X Origo 和Y Origo 的坐标与Texture Mapper的宽度和高度相关。• Re
阅读更多2024-12-29
LeetCode31. 下一个排列（2024冬季每日一题 41）
整数数组的一个排列就是将其所有成员以序列或线性顺序排列。 - 例如，`arr = [1,2,3]` ，以下这些都可以视作 arr 的排列：`[1,2,3]、[1,3,2]、[3,1,2]、[2,
阅读更多2024-12-29
Html——10 关键字和描述
【代码】Html——10 关键字和描述。
阅读更多2024-12-29
python下载，安装，环境配置
win+r 打开运行对话框，输入 sysdm.cp1 ，回车后进入系统属性界面。复制该目录和该目录下 scripts 目录的地址。点击高级，点击环境变量。输入pip list。
阅读更多2024-12-29
敏捷测试文化的转变
在传统项目中，测试发生在产品上线前的最后阶段，所以经常看到测试人员在上线前的一段时间非常繁忙，压力很大，甚至经常加班完成测试任务，而组织也默认这种加班文化，认为牺牲项目成员的休息时间来“死守”上线时间
阅读更多2024-12-29
（11）(3.2) ESC信号问题
Ardupilot官网关于《Peripheral Hardware》的翻译 —《(3.2) ESC信号问题》。
阅读更多2024-12-29
电商平台能挡住恶意网络爬虫的攻击吗？
恶意的网络爬虫的目标是在最短时间内抓取最多信息，因此它们会使用同一设备进行大量的访问操作，包括浏览、查询、下载等，这会导致该设备的访问频率、时长、深度等指标异常。这会导致该时间段内的访问量、带宽占用等
阅读更多2024-12-29
kanzi3.6.10 窗口插件-查找绑定信息
背景：在kanzi studio里按Ctrl+F，可以查找，能查找节点/资源等等，但是不能查找绑定信息，十分的不方便。所以做一个窗口插件，能够查询节点的绑定属性和绑定代码逻辑，甚至可以跨工程查询。
阅读更多2024-12-29
爬虫过程中遇到异常怎么办？
在爬虫开发过程中，遇到异常是常有的事。以下是一些常见的异常处理策略和代码示例，帮助你诊断和解决爬虫过程中可能遇到的问题。
阅读更多2024-12-29
【源码导入教程文档讲解】基于springboot校园新闻管理系统源码和论文
基于springboot校园新闻管理系统源码和论文
阅读更多2024-12-29

MvMRL：一种用于分子性质预测的多视图分子表示学习方法

B部分

C 部分

D 部分

E 部分

. SMILES 序列的嵌入

相关文章