Tangram利用深度学习完成空间与单细胞数据的整合

🕗 发布于 2024-11-09 11:00 深度学习 人工智能 生物医药

一、写在前面

单细胞(single-cell)与单细胞核(single-nucleus)测序已经为许多物种、组织、器官提供了全面的细胞图谱，能够帮助我们了解细胞类型、表达特征、发育谱系等内容，遗憾的是它们丢失了空间信息。空间转录组能够为转录组提供"空间尺度"的信息，但现有的空间技术大都有低分辨率(sequencing-base)或低敏感性(image-base)的问题(或者说高分辨率与高的基因捕获通量不能兼得)。例如MERFISH、smFISH、STARmap这类image-base的技术往往只能测定数百个基因，而Visium(100 μm)、Slide-seq(10 μm)等sequencing-base技术虽然能够测定整个基因组表达量，但其分辨率又不完全等于单细胞。此时利用单细胞组学与空间组学技术互相弥补"缺失"就显得非常重要，因此作者于2021年发布了基于深度学习(去卷积容易受空间稀疏性影响)的Tangram，可用于处理MERFISH、STARmap、smFISH、Visium、histological images等各空间组学来源数据(彼时还没有Stereo-seq与SeekSpace™)与sc/snRNA-seq、scATAC-seq等单细胞级别技术的整合。

Tangram的使用代码教程与测试文件可见：

一文搞定空间转录组与单细胞测序的整合分析

二、主要内容

(1)Tangram 为sc与st提供整合方式

Tangram能够将来源于相同组织/区域的sc/snRNA-seq数据作为"拼图碎片"整合到空间数据中(Fig.1a)，这一过程仅需要两组学技术间存在一些共同基因。这个过程中Tangram首先会随机将sc/snRNA-seq数据填充在空间坐标中，紧接着计算单细胞数据与空转数据在空间中的相关性，从而进行优化并达到整个图谱的最大相关性(Kullback-Leibler divergence与cosine similarity)，最终输出包含所有基因的"单细胞空间图谱"(Fig.1b)，即是一个包含每个单细胞数据在空间体素上分布可能性的mapping矩阵，也就是说Tangram的主要功能为：

1 扩充部分基因至基因组水平
2 矫正低质量的空间表达矩阵(Fig.1c)
3 比对不同细胞类型的空间位置(Fig.1d)
4 将低分辨率的空间图谱转变为单细胞水平(Fig.1e)
5 通过空间多组学数据的整合提供单细胞染色质可及性数据的空间模式(Fig.1e)

注：一般情况下，单细胞的细胞量要大于空转的spot量，因此单细胞中只有高质量的部分会被选择参与分析。

Figure 1

(2)Tangram 比对`MERFISH`数据创建基因组规模水平高分辨率表达图谱

作者利用Tangram对基于10X Genomics V3平台的160,000个snRNA-seq数据与包含254个基因(overlap的数量为253)、4234个分割细胞的MERFISH数据做比对测试，预测出空转数据中细胞类型的比例与snRNA-seq相一致(Fig.2)。Tangram还能够预测各细胞类型在空间中分布的可能性(Fig.2a)，并与已注释图谱(Fig.2b)的分布相一致，证明这种概率能够符合真实的生物学意义而并非人为引入。此外，Tangram还能够通过leave-one-out分析来预测空间表达模式，253个基因中存在超过75%的基因相关性大于40%，其与空间表达模式也存在关联(Fig.2c)。此外，对于ISH来源的少量基因(Fig.2e)及低质量基因(Fig.2f)而言，Tangram均能进行预测并矫正。

Figure2

(3)`Tangram`能够精准矫正`STARmap`来源的转录组信息

为了探究Tangram对低质量in situ转录组的矫正能力，作者使用了一个基于STARmap的鼠脑切片数据(1,020个基因，972个细胞)与SMART-Seq2来源的单细胞数据进行mapping，最终使用了995个训练基因，预测的可能性图谱(Fig.3a)与实际鉴定后的确定性图谱(Fig.3b)在细胞分布上具有较高的一致性(值得一提的是在一些比例较小的细胞类型中，mapping还是会出现一定差异的)。此过程中，Tangram不仅预测了STARmap未能测定的基因表达(Fig.3c)，也有效的矫正了STARmap已经测定到的低质量基因表达量(Fig.3d)。这些结果能够与ISH Atlas中实际测到的值具有较高的一致性(Fig.3e)。

Figure3

(4)`Tangram`能够应用`single-cell`数据对空间组学进行去卷积并与组织学数据进行整合

对于分辨率低的空间组学，例如Spot直径为50μm的10X Visium，Tangram结合了染色切片图像中观察到的细胞对160个Spot进行了预测，共获得939个细胞(Fig.4)。去卷积过程中，先利用组织学图片获得对应spot的细胞数(即每个空间体素分布一个离散数)，后进行对应位点的单细胞分辨率解卷积预测。在超过三万个基因中筛选出各细胞类型的Top100个marker gene(共1,237个训练基因)参与计算，预测得到的空转数据与snRNA-seq数据的细胞比例相一致。需要注意的是，Tangram判断的是当前Spot中占据的细胞类型比例，并不能够精准的给出特定细胞类型位于Spot的哪个区域。

Figure4

(5)Tangram利用非稀疏性基因对空转数据进行插补、填充时更准确

分辨率低的空转(例如10X Visium)相比单细胞组学来说要稀疏的多，这意味着空转数据的坐标之间存在大量的"缺失值"，Tangram在mapping多组学数据时可以高分辨率、密集的数据，这样较少的细胞类型，例如Sst+Chodl+ GABAergic neurons也可以被观测到(Fig.4b)。在这个过程中Tangram能够矫正并预测基因在空间中的表达量，对于mapping后的数据，作者利用上面提到的1,237个训练基因和剩余的29,816个测试基因分辨进行空间相关性评估，发现90分位数的训练基因集相关性大于62%，测试数据集中仅有50%大于这一阈值，这可能是由稀疏性导致的(Fig.4d)。作者在非稀疏性基因(sparsity < 50%)中观察到其中的98%被Tangram的模型正确的预测出空间表达模型，这些结果也能够在MERFISH的验证中被观察到(Fig.4h)。(需要注意的是这里作者的测试数据仅是下丘脑的一部分)

(6)利用SHARE-seq数据与scATAC数据mapping获得具有空间坐标的染色质可及性信息

前面作者已经证明了Tangram在单细胞转录组与空转的整合方面有良好的新能，作者的目标不仅限于此，其还希望通过单其它细胞多组学(这里为snATAC-seq)与单细胞转录组(这里为SHARE-seq)进行联合后与空间组学数据进行整合(Fi.5)。作者mapping了这三种来源的数据并观察各细胞类型在不同空间区域的分布情况(Fig.5a-b)，并观察染色质可及性与转录因子活性之间的关联性，这些转录因子motif的活性展现出了特定的空间模式(Fig.5d)。

Figure 5

(7)`Tangram`能够跨物种完成细胞类型的预测¶

作者利用人脑的snRNA-seq数据与小鼠的MERFISH数据进行mapping，结果仅损失了两种细胞类型(Ext.Fig.3a-b)，在肾脏的数据中，除了免疫细胞外的细胞类型能够成功的mapping(Ext.Fig3.d-e)。

Ext.Fig3

(8)组织学、解剖学、分子表达的单细胞图谱

为了更好的整合组织学特征与分子信息进行分析，作者提供了common coordinate framework(CCF)来管理二者的数据。利用Siamese神经网络模型(Ext.Fig.4)和semantic segmentation算法(Ext.Fig.5)可以忽略技术/人为因素引起的误差在解剖学图像上自动生成mask，从而让分子图片与组织影像图片准确的匹配。作者利用包含160,000个细胞的snRNA-seq数据(Fig.6a)在200μm分辨率下预测基因表达与细胞密度(Fig.6c)。这一过程在三个感兴趣的区域(ROIs)上进行了重复，最终将snRNA-seq数据映射到它们各自的ROIs上(Fig.6d)。研究人员还使用相同的流程将snRNA-seq数据映射到空转测量的解剖部分上。研究结果显示，通过这种映射方法可以获得一致的细胞类型分布，尽管在某些情况下准确性较低。作者指出，对于非神经元细胞类型的稀疏、颗粒状的细胞类型模式，需要更先进的空间技术才能实现更高的准确性。CCF显然也更有利于后续空转矩阵与组织学图像的机器学习输入。

Ext.Fig4

Ext.Fig.5

Figure 6

三、总结

利用多组学的数据去理解生物学数据已经称为当下的共识，空间组学为这一共识提供了机会，然而其在分辨率、基因/细胞检测通量上的不足限制了自身发展。作者开发的Tangram能够整合多来源的单细胞、空间组学、甚至组织病理学数据进行分析，进一步完善了空间多组学的生态链。Tangram不仅能够考虑到多平台来源数据的稀疏性、规模，甚至能够跨物种完成数据的整合，为单细胞数据和空间组学数据取长补短提供了机会。外面后面也会为大家带来实操的内容。不过需要注意的是作者的测试数据大都是脑部组织，这种来源的数据往往细胞类型少、组织结构清晰，因而常用于空间组学软件开发的测试数据(作者用了一部分肾脏数据也是这个原因)。Tangram能否应对更复杂、更大、组织结构不清晰的数据，还需要大家的进一步探索。

Tangram的使用代码教程与测试文件可见：

一文搞定空间转录组与单细胞测序的整合分析

参考：Biancalani, T., Scalia, G., Buffoni, L. et al. Deep learning and alignment of spatially resolved single-cell transcriptomes with Tangram. Nat Methods 18, 1352–1362 (2021).

原文地址：https://blog.csdn.net/weixin_47195452/article/details/143612390

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：软考系统架构设计师论文：论边缘计算及其应用
下一篇：linux文本管理！！！

Leetcode 完全二叉树的节点个数
根据完全二叉树和满二叉树的性质做。
阅读更多2024-11-22
Spring Boot核心概念：日志管理
日志记录是软件开发的重要组成部分，它帮助开发人员了解应用程序运行时的状态，以及在故障排查和性能监控时提供关键信息。Spring Boot通过提供默认的日志配置，简化了日志管理。
阅读更多2024-11-22
IDEA：2023版远程服务器debug
很简单，但是很多文档没有写清楚，wocao。六、开放服务器的5005端口，七、启动idea中的调试程序。一、首先新建一个远程jvm。三、把上面的参数复制出来。四、然后把这串代码放到。
阅读更多2024-11-22
【网站推荐】the top trending open-source startups, every quarter
Snapshot of ROSS Index featuring top open-source startups by GitHub stars growth of their repositori
阅读更多2024-11-22
JavaEE 线程安全
什么是线程安全问题？很直观的说，就是一段代码，在单线程的环境下没有问题，但是在多线程的环境下却出现了问题，我们则可称这段代码存在线程安全问题
阅读更多2024-11-22
springboot实战(15)(注解@JsonFormat(pattern=“?“)、@JsonIgnore)
本篇博客是关于springboot实战学习时遇到的一些注解和方法展开简单讨论。其中包括JSON序列化时（Java对象转换成对应JSON格式数据）用到的注解@JsonIgnore（保证重要数据隐私性）、
阅读更多2024-11-22
编程语言的演变与未来趋势：探索技术的无限可能
在21世纪的科技洪流中，编程作为连接数字世界与现实世界的桥梁，正以前所未有的速度推动着社会进步与创新。从最初的机器语言到汇编语言，再到如今的高级编程语言，编程语言的演变不仅见证了计算机科学的飞跃，也深
阅读更多2024-11-22
【Linux】Linux之yum的使用
介绍了yum install/list/remove 知道了yum的整个生态服务器是谁提供的他为什么能提供软件是谁提供的下载的时候yum在哪下载 yum源是什么如何修改yum源的配置文件
阅读更多2024-11-22
常见的端口漏洞及常见网络安全设备默认口令
互联网中的各种服务一般都对应一个默认端口，有的服务可直接匿名访问服务，而有些可通过爆破用户名以及密码来获得管理员权限。4848 GlassFish 弱口令admin/adm
阅读更多2024-11-22
多线程并发造成的数据重复问题解决方案参考(笔记记录)
需要补充的关键点：当NULL值会导致索引失效、查询不命中或者业务规则不一致时，应该补充默认值。无需补充的关键点：如果NULL值在业务中是有效状态，且不会导致功能性问题，可以保留。最佳实践：补充历史数据
阅读更多2024-11-22

Tangram利用深度学习完成空间与单细胞数据的整合

(1)Tangram 为sc与st提供整合方式

(2)Tangram 比对MERFISH数据创建基因组规模水平高分辨率表达图谱

(3)Tangram能够精准矫正STARmap来源的转录组信息

(4)Tangram能够应用single-cell数据对空间组学进行去卷积并与组织学数据进行整合