【基于R语言群体遗传学】-13-群体差异量化-Fst

🕗 发布于 2024-07-10 07:18 r语言 开发语言

在前几篇博客中，我们深度学习讨论了适应性进化的问题，从本篇博客开始，我们关注群体差异的问题，建议大家可以先看之前的博客：群体遗传学_tRNA做科研的博客-CSDN博客

一些新名词

Meta-population:An interconnected group of smaller populations.

亚种群：一个由较小的种群相互连接组成的群体。

Deme:Asingle population within a meta-population.

局域种群：亚种群内的单个种群。

Sub-population:A group of individuals within a population that are more likely to breed with each other than members of other sub-populations.

子种群：种群中的一组个体，它们彼此之间比其他子种群的成员更有可能进行繁殖。

分化的量化（quantifying divergence）-Fst

群体遗传学的一个共同关注点是量化可识别种群之间的差异。衡量种群间差异的一个关键指标是FST，它已经被反复定义和重新定义。FST是由Sewall Wright推导出的F统计量之一（更多信息请参见Weir 2012），广义上是对两个相关种群之间遗传差异的量化，通常在从零（无差异）到一（完全差异）的范围内变化。

从概念上讲，FST可以被理解为一种度量，它告诉我们相对于整个种群的总多样性，不同亚种群之间缺失了多少多样性。换句话说，如果FST的值接近1，这意味着亚种群之间的遗传差异很大，每个亚种群可能具有独特的遗传特征；而如果FST的值接近0，则意味着亚种群之间的遗传差异很小，它们在遗传上是相似的。

FST的计算通常涉及到比较种群内的遗传变异与种群间的遗传变异。一个高的FST值表明种群间的遗传变异占总体遗传变异的比例较高，即种群间的差异较大；而一个低的FST值则表明种群内的遗传变异占主导，种群间的差异较小。

根据哈代-温伯格定律，我们知道当有等位基因频率时，我们可以预期的多样性（即杂合子）的数量是2p(1-p)。如果我们有多个亚种群的等位基因频率测量，我们可以说我们总的预期杂合性（HT）是：

其中p是所有亚种群的平均等位基因频率。我们可以将这个值与我们在每个亚种群内观察到的杂合性水平（HS）的平均值进行对比，如果我们有两个亚种群，那么HS将是：

其中p1是亚种群1中的等位基因频率，p2是亚种群2中的等位基因频率，H1和H2是每个亚种群内杂合性的相应度量。

我们可以可视化Hs与Ht：

# 定义两个群体的等位基因频率
p1 <- 0.15 # 第一个群体的等位基因频率
p2 <- 0.7  # 第二个群体的等位基因频率

# 计算每个群体的杂合子比例（遗传多样性）
h1 <- 2*p1*(1-p1) # 第一个群体的杂合子比例
h2 <- 2*p2*(1-p2) # 第二个群体的杂合子比例

# 计算两个群体等位基因频率的平均值
p_ave <- (p1+p2)/2 # 平均等位基因频率

# 计算在平均等位基因频率下的杂合子比例（总体遗传多样性）
ht <- 2*p_ave*(1-p_ave) # 总体的杂合子比例

# 计算两个群体杂合子比例的平均值（种群的遗传多样性）
hs <- (h1 + h2)/2 # 种群的杂合子比例

# 绘制等位基因频率与杂合子数量的曲线图
curve(2*x*(1-x), from=0, to=1, xlab="Allele frequency", # x轴为等位基因频率，y轴为杂合子数量
      ylab="Heterozygotes", lwd=2) # 线条宽度为2

# 在图中标出两个群体的具体点
points(c(p1,p2), c(h1,h2), cex=2, pch=16) # 使用大小为2的点，形状为16

# 标出平均等位基因频率下的种群和总体杂合子比例
points(c(p_ave,p_ave), c(hs,ht), cex=2) # 使用大小为2的点

# 在图中添加文本标签
text(x=p1, y=h1-0.03, "H1") # 在第一个群体杂合子比例下方添加标签H1
text(x=p2, y=h2-0.03,"H2") # 在第二个群体杂合子比例下方添加标签H2
text(x=p_ave, y=hs-0.03,"Hs") # 在种群杂合子比例下方添加标签Hs
text(x=p_ave+0.03, y=ht-0.03, "Ht") # 在总体杂合子比例下方添加标签Ht

# 添加连接线
lines(c(p1,p2), c(h1,h2), lty=2) # 连接两个群体杂合子比例的虚线
lines(c(p_ave,p_ave), c(hs,ht)) # 连接种群和总体杂合子比例的实线

我们可以观察到预期杂合度（heterozygosity）的2p(1-p)曲线呈向下凹的形状。这种曲线的特性意味着，当两个群体具有不同的等位基因频率，从而有不同的预期杂合度（如图中的H1和H2所示）时，它们之间的组合中点（即图中虚线上的HS）总是低于预期的总杂合度（HT）。这个现象揭示了群体遗传学中的一个重要原理：当考虑多个群体的遗传多样性时，简单地取其等位基因频率的算术平均值并不能准确反映整体的遗传多样性。实际上，由于2p(1-p)曲线的凹性质，两个群体等位基因频率的平均值所对应的杂合度（HS）会低于这两个群体合并后的实际总杂合度（HT）。换句话说，合并群体的总遗传多样性高于基于各自群体等位基因频率平均值预测的遗传多样性。这一发现对于理解不同群体间的遗传交流、保护生物多样性以及制定合理的保护策略具有重要意义。它提示我们在评估和比较不同群体的遗传多样性时，不能仅仅依赖于等位基因频率的简单平均值，而应该综合考虑各群体的实际遗传构成。

Fst是一个衡量群体间遗传分化的指标，它描述的是群体内与群体间遗传变异的比例。具体来说，Fst测量的是在HS（种群内平均杂合度）与HT（总体杂合度）之间“缺失”的杂合度部分，并且这个差值是通过HT来标准化的：

在群体遗传学中，衡量两个群体间等位基因频率差异的最大情况是一个群体为100%，另一个群体为0%。在这种情况下，不存在杂合子，因此我们的H1和H2测量值都将是零。根据FST的计算公式，FST = 1 - (HS/HT)，在这种极端情况下，HS（种群内平均杂合度）为0，HT（总体杂合度）为0.5，所以FST = 1 - (0/0.5) = 1。这表明两个群体间存在完全的遗传分化，没有任何遗传物质的交流。另一方面，如果两个亚群体之间的等位基因频率测量值完全相同，那么H1和H2也将完全相同。无论我们如何计算平均值，H1 = H2 = HS = HT，这意味着(HS/HT)将等于1，从而使得FST = 0。这表示两个群体间没有遗传分化，它们在遗传上是相同的。 FST的这种性质使其成为衡量群体间遗传差异的一个非常有用的工具。FST值为1表明群体间完全隔离，没有任何基因流；而FST值为0则表示群体间完全混合，遗传上没有区别。

实际FST值通常介于0和1之间，反映了不同程度的遗传分化。我们使用之前的例子来说明：

library(popgenr)
data(snp)
h_exp <- 2*snp$p*(1-snp$p)
fst <- (h_exp-snp$het) / h_exp
mean(fst)

FST是一个衡量群体间遗传分化的指标，它量化了不同群体之间的遗传差异，但本身并不提供这些差异产生的原因。群体间的遗传差异可能由多种因素造成，例如迁移率较低并伴有遗传漂变、近期的共同祖先后发生隔离和漂变、或者某些位点上强烈的选择作用导致不同地点的适应性变化等。 FST值的高低可以反映出群体间遗传结构的差异程度，但它并不直接说明这些差异是如何形成的。例如，一个较高的FST值可能指示群体间存在较少的基因流动，但这并不一定意味着迁移率低是唯一的原因。同样，群体间共享的近期祖先历史也可能导致遗传分化，而这种分化并不一定与迁移率直接相关。此外，如果某些基因位点受到强烈的选择压力，而这些位点在不同地理位置的适应性有所不同，那么这也可能导致FST值升高，尽管这种选择作用并不是由迁移率直接引起的。因此，虽然FST是一个有用的工具来量化群体间的遗传差异，但要理解这些差异背后的生物学过程和机制，通常需要结合其他遗传学、生态学和进化生物学的研究方法和数据。这可能包括对迁移模式的直接研究、对群体历史的推断分析，以及对自然选择作用的检测等。通过这些综合的方法，研究者可以更全面地揭示导致群体遗传分化的复杂因素。

下一篇博客将讨论种群回溯祖先相关内容。

原文地址：https://blog.csdn.net/qq_51566832/article/details/140280086

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：凸包——G - Highest Ratio
下一篇：设计模式-中介者模式

算数基本定理@质因数分解原理
把自然数写成素数的乘积，结论就是著名的算术基本定理。此定理建立了自然数与素数之间的一个重要的关系式。算数基本定理是整除理论性质和结论的精华,是整个初等数论的基础证明一些方程是否有整数解能够从公式的角度
阅读更多2024-11-15
用 Python 从零开始创建神经网络（六）：优化（Optimization）介绍
在随机初始化的模型中，或者即使是采用更复杂方法初始化的模型中，我们的目标是随着时间的推移培训或教育一个模型。为了训练一个模型，我们调整权重和偏差以提高模型的准确性和置信度。为此，我们需要计算模型的错误
阅读更多2024-11-15
海思3403对RTSP进行目标检测
用ss928 实现rtsp流的目标检测
阅读更多2024-11-15
亮数据——助力全球数据抓取的高效代理平台
特别是在需要跨境数据采集的场景中，亮数据的全球代理池能够让用户根据目标网站的地域需求，选择不同地区的IP地址，以此提升数据抓取的稳定性和成功率。亮数据不仅提供了丰富的IP资源，还内置了智能管理系统，可
阅读更多2024-11-15
【卡尔曼滤波】递归算法Recursive的应用 C语言、Python实现（Kalman Filter）
【卡尔曼滤波】递归算法Recursive的应用 C语言、Python实现（Kalman Filter）
阅读更多2024-11-15
记一次工作中订单幂等处理方案
当然可以考虑在数据库新增一张表，这张表上有第三方订单号的字段，并为此字段建立唯一索引，每次下单前预先往这张表插入数据，如果此第三方订单号已存在，那么插入数据必然报错。第一次是通过分布式锁检测，这是在
阅读更多2024-11-15
大数据湖项目建设方案（100页WORD）
随着信息技术的飞速发展，数据量呈现出爆炸性增长的趋势。企业、政府机构及科研单位在运营过程中积累了大量的数据资源，这些数据中蕴含着巨大的价值，但如何高效地存储、处理和分析这些数据，成为了一个亟待解决的问
阅读更多2024-11-15
深度学习笔记14-卷积神经网络2
卷积神经网络，是包含卷积运算且具有深度结构的前馈神经网络。在卷积神经网络中，包含卷积层、池化层和全连接层三种重要的结构。相比前馈神经网络，卷积层和池化层是新增的网络结构，在提取特征时，卷积神经网络使用
阅读更多2024-11-15
[Mysql基础] 表的操作
1.1 语法说明：field表示列名datatype表示列的类型字符集，如果没有指定字符集，则以所在数据库的字符集为准collate校验规则，如果没有指定校验规则，则以所在数据库的校验规则为准。
阅读更多2024-11-15
Mysql-DDL语句
Mysql DDL语句的使用方法和配置命令，可以更加快速熟悉的掌握Mysql基本操作命令
阅读更多2024-11-15

【基于R语言群体遗传学】-13-群体差异量化-Fst

一些新名词

分化的量化（quantifying divergence）-Fst

相关文章