组播PIM-原理介绍+报文分析+配置示例
个人认为,理解报文就理解了协议。通过报文中的字段可以理解协议在交互过程中相关传递的信息,更加便于理解协议。
因此本文将在PIMv2协议报文的基础上进行介绍,以详细介绍组播协议PIM。
这里需要说明的是,以下内容都针对的是ASM(Any Source Multicast,任意组播源)模型下的PIM协议。SSM(Source-Specific Multicast,特定组播源)模型下的PIM协议类似于PIM-SM但不做说明。
- 关于PIMv2-DM相关内容,可参考2005年发布的RFC3973等相关内容
- 关于PIMv2-SM相关内容,可参考2006年发布的RFC4601等相关内容。
- 关于主机组播路由协议相关内容,可参考博客组播IGMP-原理介绍+报文分析+配置示例。
- 关于PIM协议报文的相关字段,可参考IANA发布的Protocol Independent Multicast (PIM) Parameters。
组播PIM协议(Protocol Independent Multicast,协议无关组播协议),主要是相比于其他组播路由协议DVMRP(Distance Vector Multicast Routing Protocol,距离矢量组播路由协议)和MOPSF(Multicast OSPF,组播OSPF)协议而言。
协议无关主要体现于:DVMRP依靠于RIP协议实现,MOPSF依靠OSPF协议实现。而PIM协议仅依靠路由转发表即可,而无需关注实现路由的协议。相同的这3种协议都是域内组播路由协议。
域外组播路由协议可学习MSDP协议(Multicast Source Discovery Protocol,组播源发现协议)。
第2章节基本述了PIM概念的相关内容,第3和4章节描述了PIM协议报文的相关内容。可直接阅读相关内容。
目录
1.组播基础内容
1.1.组播IP
传统网络进行地址分配时,将IPv4网络分为5类:
A类:1.0.0.0-126.0.0.0
B类:128.0.0.0-191.254.0.0
C类:192.0.0.0-223.255.255.0
D类:224.0.0.0-239.255.255.255
2进制的前4个bit固定为1110:
Note:224(十进制)=1110 0000(2进制);239(十进制)=1110 1111(2进制)
E类:240.0.0.0-239.255.255.255,保留地址
其中 D 类地址称为组播 IP。虽然目前 CIDR(Classless Inter-Domain Routing,无类域间路由) 和 VLSM(Variable Length Subnet Mask,可变长子网掩码) 的出现淡化了 IP 分类,但组播 IP 范围并未发生变化。
其中组播IP又可进行如下划分:
224.0.0.0-224.0.0.255:预留永久组播地址,通常为协议所使用。
224.0.1.0-231.255.255.255 和 233.0.0.0-238.255.255.255:ASM(Any Source Multicast)模型使用。
232.0.0.0-232.255.255.255:SSM(Source-Specific Multicast)模型使用。
239.0.0.0-239.255.255.255:本地管理组地址,也即私网组播IP。
需要说明的是,上述仅是 IPv4 组播地址的一个大致分类。其中还包含了保留组播地址、网络间控制组播地址等。感兴趣者可查阅相关资料。
常用协议组播地址:
组播地址 使用者 224.0.0.1 所有主机及路由器监听地址 224.0.0.2 所有路由器监听地址 224.0.0.4 DVMRP协议使用 224.0.0.5
224.0.0.6OSPFv2协议使用 224.0.0.9 RIPv2协议使用 224.0.0.12 DHCP协议特定场景使用 224.0.0.13 PIM协议使用 224.0.0.14 RSVP协议特定场景使用 224.0.0.18 VRRPv2协议使用 224.0.0.22 IGMPv3协议使用 224.0.0.251 mDNS协议使用 224.0.0.252 Link-local Multicast Name Resolution协议使用
1.2.组播MAC
MAC地址为48bits,6字节。
1@:第1个字节的最后1个bit=1,表明该MAC为组播MAC。否则表明为单播MAC。
2@:MAC地址的前3个字节 24bits 称为 OUI (Organizationally unique identifier,厂商标识),需要向IEEE购买分配。后 24bits,由厂家自行分配。
3@:组播MAC由于没有明确的目的主机,因此规定 组播MAC由组播IP映射 而来。映射规则如下:
组播MAC的高 24bit = 0x01005e;
组播MAC的第 25位bit 固定为0;
组播MAC的剩余后 23bit 由组播IP的后 23bit 直接对应而来。
组播IP实际上有 32-4=28bits,因此存在 5bits 数据无法进行对应
因此实际上每2^5=32个组播IP对应一个组播MAC。
而且由于错配的bit位是高bit位的IP,所以通常对应同一个组播MAC的32个IP是不连续的。需要进行2进制转换核对。
例如:224.1.0.1、224.129.0.1、225.1.0.1、225.129.0.1、226.1.0.1、226.129.0.1、…、239.1.0.1、239.129.0.1具有相同的组播MAC。
自动换行
对于IPv6的MIP和MMAC,情况稍有变化:
IPv6组播MAC地址的高16位为0x3333,低32位为IPv6组播地址的低32位。
常用的IPv6组播地址为ff00::/8。感兴趣者可查阅相关资料。
此外还有协议规定组播MAC:
01-80-c2 为 IANA 规定的协议组播MAC。
例如 01-80-c2-00-00-00 用于 BPDU 组播MAC,集成 ISIS 使用 01-80-c2-00-00-14 和 01-80-c2-00-00-15 等。
2.PIM基本概念
2.1.RPF检查
RPF(reverse path forwarding,逆向路径转发) 指的是,组播路由器接收到组播流量时进行检查。
这一过程是指:
首先,记录收到组播流量的端口(上游端口)和组播流量的源地址。
随后,检查到达发送该组播流量的组播源的路由表(单播路由表)。如果路由转发表中记录到达该组播源的端口为接收该组播流量的端口时,允许接收该流量。
RPF的目的在于利用单播路由表实现流量无环,并且实现组播最短路径。目前进行RPF检查的原则有两种。
RPF检查原则1:优先级优先(默认)
1@:比较协议优先级。越小越优。
这里的协议不仅指的是单播路由表,还指的是组播路由表。例如上图建立组播静态路由,以及其他组播路由协议都可以生成组播路由表。
2@:组播静态>MBGP>单播。
同样的,组播路由协议也可以指定协议的优先级。(组播静态优先级默认=1)。当以上协议优先级一致时,按本原则进行选择。
单播路由协议优先级点击此处查看。
3@:有多条到组播源S的单播路由,采取掩码最长匹配原则。
4@:否则优选路由下一跳IP地址大的路由。
通过以上原则,可唯一确定组播路由器的上游RPF邻居。
自动换行
Note:Cisco还在第3个原则后额外进行比较到S的Metirc,此时优选开销小的。
RPF检查原则2:最长掩码优先
multicast longest-match用于更改 RPF 检查原则。
此时此时,先比较路由表(包括单播和组播)的掩码。随后比较协议优先级。最后决胜规则为,优选下一跳IP地址大的路由。
2.2.SPT源树和RPT共享树
- 组播中以 (S,G) 描述相关的组播内容。S 指特定组播源,也即组播服务器的地址。G 指组播组,也即组播服务器提供组播服务的组播地址。相应的,(*,G) 表示任意组播源。
- 在组播路由协议中仅允许一个(上游)接口接收来自 S 的 G 地址的组播流量,也即 RPF 检查。而向组播组成员的端口转发则不受影响。但是不可能存在一个端口既为上游端口又为下游接口。
- 源树 SPT(Source-specific Shortest-Path Tree) 的概念是指,组播源 S 会以自己为根计算到达组播组成员的路径树。这一行为类似于 OSPF 的最短路径树计算。
- RPT树(Rendezvous Point Tree,因由该组播组的所有源共享也称为 Shared Tree共享树) 与源树相同都需进行生成树计算,不同点在于。共享树 RPT 以 RP 为根,计算到达组播组成员的路径树。同样的也需要进行 RPF 检查。
RP(Rendezvous Point)是一个静态或动态定义的汇聚点,在 PIM-SM 模式下用于集中处理组播流量。
SPT树用(S,G)表项进行描述,RPT树用(*,G)表项进行描述。
流量行为上,组播源 S 会先将流量发送给 RP。由 RP 将组播流量发送给组播组成员。
PIM的DR角色:Designated Router。局域网上选举出对PIM协议进行相关响应的路由器,类似于OSPF的DR。
1@源端DR:发送 Register注册报文和接收 Register-stop注册停止报文,构建 SPT 树。
由第一跳组播路由器形成。
2@成员端DR:发送 join加组报文构建 RPT 树。
并且在组成员离组(组播组无成员)时,向 DR 发送 Prune剪枝报文。裁剪 RPT 树。
由倒数第一跳组播路由器形成。
DR选举原则:
1@:优先级越大越优。PIM-hello包中携带相应参数,将在后文进行介绍。
2@:比较接口IP地址。越大越优。
2.3.DM工作模式和SM工作模式
PIM 协议定义了两种工作模式 DM(Dense Mode,密集模式) 和 SM(Sparse Mode,稀疏模式)。
PIM-DM 认为网络中所有设备都有加入组播组的需求,因此在建立连接时使用 PUSH 方式发送报文。经 RPF 检查后,将组播流量从所有其他PIM接口(out list)转发出去。
这一行为称为PIM-DM的扩散机制。out list,详细来说指的是非RPF的PIM邻居接口+成员接口。下游设备接收到组播流量后,也进行相应扩散行为。在 PIM-DM 模式先即使某一网络中不存在组播组成员,也会定期询问是否加组。将其纳入需要发送组播源的范围中去。该模式对网络带宽要求较高,适用于小型网络。
自动换行
在该模式下,(S,G)表项的建立由RPF检查通过的组播流量来刷新完成。
PIM-SM 认为网络中所有设备都没有加入组播组的需求,需要组播接收者主动加组并由 RP 来决定如何转发组播流。对接收者来说,在建立组播表项时实际上相当于 RP 成为了组播源。
此时组播源 S和 RP 之间单播建立 (S,G) 表项的 SPT 树,RP 和接收者之间建立(*,G) 表项的 RPT 树。
2.4.PIM协议报文类型
PIM 组播协议,可以同时支持 IPv4 和 IPv6 网络。在此对 PIM 报文格式进行介绍。
PIM的IPv4头部:
数据链路层:SMAC使用自己的接口MAC,DMAC使用组播IP映射而来的组播MAC。
网络层/IP层:SIP使用自己的接口IP,DIP使用 ALL-PIM-ROUTERS = 224.0.0.13/ff02::d。IP TTL = 1。IP protocol = 103。
PIM的头部:
所有 PIM 消息都具有上图所示的头部。
PIM Ver:4-bits,PIM协议版本。固定为 2。
Type:4-bits,PIM协议的类型。目前RFC定义了15种PIM报文。
无 Option 字段的 PIM报文示例。
自动换行
PIM协议常用的10种报文类型:
0: Hello( PIM-DM 与 PIM-SM 都适用)
1: Register(只适用于 PIM-SM)Note:单播发送
2: Register-Stop(只适用于 PIM-SM)Note:单播发送
3: Join/Prune( PIM-DM 与 PIM-SM 都适用)
4: Bootstrap(只适用于 PIM-SM)
5: Assert( PIM-DM 与 PIM-SM 都适用)
6: Graft(只适用于 PIM-DM)Note:单播发送
7: Graft-Ack(只适用于 PIM-DM)Note:单播发送
8: Candidate-RP-Advertisement(只适用于 PIM-SM)
9: State Refresh(只适用于 PIM-DM)
Reserved:1字节,保留字段。固定为 0。
Checksum:2字节,校验码。用于校验。标准 IP 校验和。
2.4.1.PIM-Hello报文
PIM-Hello 报文的主要作用在于协商参数,发现和维护 PIM 邻居。PIM-Hello 包除 PIM Header 字段意外,其他字段主要以TLV格式定义报文。
Type 字段 2 字节,Length 字段 2 字节。
PIM-Hello常用的Option:
Option1-Hold time:维护邻居关系的时间。默认 3.5 * Hello_Period/Hello Timer = 105s。
//pim hello-option holdtion用于定义基于端口维护邻居关系的时间。
自动换行
或//用于定义hello发送间隔,默认30s。报文中不携带,因此是一个本地概念。
自动换行
《RFC3973-PIM-DM:Protocol Specification的4.3.1. Sending Hello Messages》还规定,当首次启动 PIM 时,应将 Hello Timer 设置为 0 到 Triggered_Hello_Delay(5s) 之间的随机值。
Option2-LAN Prune Delay Option:LAN Prune Delay 表示局域网上传递 Prune 消息的延迟时间,默认500ms。
Override Interval 表示局域网上执行剪枝前的否决时间,默认2500ms。
T-bit 置 1 表示支持 join 消息抑制,该 bit 仅在 PIM-SM 模式下使用。
和自动换行
LAN Prune Delay 和 Override Interval 共计3s,实际上描述了剪枝等待时间。仅适用于局域网。详细内容将于 PIM 的剪枝原理中介绍。
Option19-DR Pri:选举DR优先级,默认1。//pim hello-option dr-priority用于在PIM-Hello交互过程中选举DR。
PIM-DR作用:DR选举时优先级越大越优,否则选IP大的。
1@:作为IGMPv1的查询者。
2@:PIM-SM模式下参与RPT树和SPT树的形成。
Option20-Generation ID:随机数,表示当前邻居状态。如果状态发生更新则随机数也会更新。邻居收到改变或丢失随机数的 PIM-Hello 认为邻居状态改变。
Option21-State Refresh Capable:邻居状态刷新时间间隔,默认60s。仅在 PIM-DM 模式下使用。
PIM-Hello 报文示例。
当收到 Hello 消息时,接收路由器应记录邻居的相关信息。 如果从特定邻居 N 收到新的 Hello 消息,则必须将 NLT(N,I) 重置为收到的 Hello 中 Hold time 字段值。
因此 PIM 的邻居状态时间,往往取决于邻居自己的通告而无需协商。此外,对于 Hold time 字段值为 0xffff 时可用于按需链接,以避免与定期 Hello 消息保持链接同步.对于 Hold time 字段值为 0 时则将相应的邻居状态立即过期。
如果从新的邻居收到 Hello 消息,则接收路由器应在 0 到 Triggered_Hello_Delay = 5s 之间的随机延迟后发送自己的 Hello 消息。
3.PIM-DM工作原理-RFC3973
3.1.PIM-DM模型
PIM-DM以Push模式以S为根建立(S,G)表项。
PIM-DM模型简介:
1@:PIM-DM 模型假定,所有下游接口都希望接收组播流,并通过 RPF 检查来防止组播环路。
2@:如果 PIM 域中不存在组播接收者,将启动 prune 剪枝动作将端口过渡到 prune 状态。接口的 prune 状态存在一个有限的 Prune Timer 生命周期,周期截止后将端口过渡到转发状态。
3@:接口在 prune 状态接收到特定 (S,G) 的组播请求时,将启动 graft 嫁接行为将端口过渡到转发状态。
4@:直连组播源的接口只会保持为 Forwarding 转发状态和 Pruned 被剪枝状态,并维护相应的状态机。
PIM-DM路由器维护的状态机:
1@本地接口状态:Hello Timer (HT,用于周期发送 PIM Hello 报文)、State Refresh Capable、LAN Delay Enabled (使能时,局域网中特定的剪枝传输时延和加组覆盖延时)、Propagation Delay (PD) 和 Override Interval (OI)。
2@邻居发送的Hello:Gen ID (用于识别邻居是否改变)、LAN Prune Delay、Override Interval、State Refresh Capability 和 Neighbor Liveness Timer (NLT,邻居 Hello 包中携带的 Holdtime 字段中的值用于表示邻居是否存在)。
3@每个接口本地组播成员状态:NoInfo (NI,无信息) 或 Include 之一。
4@每个接口(S,G) Prune State:NoInfo (NI,无信息。非剪枝状态且无 Prune Pending Timer 定时器或 Prune Timer 定时器)、Pruned (P,被剪枝而 olist(S,G) 出接口为空) 或 PrunePending (PP,接收到剪枝报文但处于剪枝等待) 之一。
与之对应的定时器:
Prune Pending Timer: PPT,剪枝等待定时器。可用于如下场景:局域网中收到剪枝报文时等待是否有其他下游成员请求加组。
Prune Timer:PT,剪枝定时器。可用于如下场景:当 Prune Pending Timer 定时器结束时触发,用于将端口过渡到 Pruned 剪枝状态。Prune Timer 结束时将端口过渡到 Forwarding 状态。
自动换行
olist(S,G):特定 (S,G) 的 outgoing interface list。通常排除被剪枝端口、PIM 边界端口、断言失败者 和 RPF上游接口 的 PIM接口。
iif(S,G):特定 (S,G) 的 incoming interface。也即接收组播流的端口。
5@每个接口(S,G) Assert Winner State:NoInfo (NI,无信息)、lost Assert (L,断言失败者) 或 Won Assert (W,断言优胜者) 之一。
与之对应的定时器:
Assert Timer:AT,断言定时器。断言状态改变的定时器。
Assert winner’s IP Address:断言优胜者的 IP。
Assert winner’s Assert Metric:断言优胜者的断言开销。
6@上游接口的Graft/Prune State:NoInfo (NI,无组播成员)、Pruned(P,被剪枝而 olist(S,G) 出接口为空)、Forwarding (F,olist(S,G) 出接口非空) 或 AckPending (AP,处于剪枝状态但已发送 Graft 嫁接消息而未收到 Graft-Ack 嫁接确认消息) 之一。
与之对应的定时器:
GraftRetry Timer:GT,嫁接重试定时器。可用于如下场景:如果在定时器到期之前未收到相应的 GraftAck,则发送另一个 Graft,并重置 GraftRetry 定时器。
Override Timer:OT,覆盖定时器。可用于如下场景:上游接口 olist(S,G) 出接口非空但收到 Prune(S,G) 消息时设置,触发时发送 Join(S,G) 消息。
Prune Limit Timer:PLT,剪枝限制定时器。可用于如下场景:用于对 LAN 上的 Prunes 进行速率限制。仅当 PIM-DM 自己的上游接口处于 Pruned 状态时使用。如果此定时器正在运行,则无法从该接口发送 Prune 消息。Prune Limit Timer = t_limit = 210s。可以防止自己发送剪枝报文导致局域网的其他路由器无法接收组播流。
7@Originator State:Source Active Timer (SAT,源存活定时器) 和 State Refresh Timer (SRT,状态刷新定时器)。
Originator State 仅在第一跳 PIM 路由器上存储。State Refresh Timer = RefreshInterval,默认为 60s。
3.2.PIM-DM的加组Join/剪枝Prune
当 PIM 路由器 olist(S,G) 下游出接口为空时,触发剪枝并启动 PLT(S,G) = t_limit = 210s 定时器:
1@:向上游接口/RPF接口发送剪枝报文。
2@:上游设备收到剪枝报文后,将该下游接口将其从(S,G)表项下游接口“删除”。
3@:如果上游设备的下游接口为空,则向上游周期发送剪枝报文。
timer join-prune用于设置所有接口发送Join/Prune消息的时间间隔。默认60秒。pim timer join-prune用于设置特定接口发送Join/Prune消息的时间间隔。默认60秒。
自动换行
1@如果自己已剪枝的上游 RPF 接口收到了 Prune(S,G) 消息且 Prune(S,G) 消息的 Holdtime 字段大于本地 PLT(S,G) 定时器的剩余时间,则可以以该值重置 PLT(S,G) 定时器。默认 PLT(S,G) = t_limit = 210s。
这里重点提出的原因是自己上游的PIM网络很有可能有多个邻居!!因此应由RPF选择的邻居进行剪枝操作。
报文格式
Upstream-Neighbor:PIM上游邻居地址。实际应当是RPF上游邻居地址。
Num Groups:组播组/组播IP数目。
Holdtime:路由器保持相应接口加入/剪枝状态的时间。也即 Prune Timer 的时间。
例如PIM-DM模式认为所有PIM路由器都需要加入组播组。此时PIM路由器如果收到剪枝报文而将收到该报文的接口剔除相应(S,G)表项。
在经过Holdtime后,PIM路由器会自动将该端口重新加入到下游接口。或//join-prune报文中holdtime字段的保持时间或本地启动的 Prune Timer 定时器时间。默认 3.5 * join/prune_interval = 210s。
Group Record:加组或剪枝信息。携带了组播组/组播IP,及其与之相关的加组或剪枝的组播源IP信息。
由上游的RPF邻居地址来确定。此时不仅要求接口,如果上游有多个PIM邻居还选择IP大的作为PRF剪枝。
PIM-DM的加组/剪枝:
PIM-DM利用扩散机制实现组播流量的泛洪。通过剪枝完成网络中不存在组播成员网络的流量消除。
加组时:
1@:用户首先发送 IGMP 报文进行加组
2@:PIM 末节路由器发送 PIM-join/prune 报文进行加组。
离组时
3@:用户发送 IGMPv2 离组报文/或者IGMP查询者未在组内收到成员关系报告报文。
4@:PIM末节路由器发送 PIM-join/prune 报文进行剪枝。如果上游在自己的(S,G)表项的出接口没有其他接口。则继续向上游发送剪枝报文。
5@:下游设备发送到 PIM-prune 报文中携带 holdtime 字段用于标识 Prune Timer,默认为 210s。上游设备接收到 prune 剪枝报文后,在该端口启动该 Prune Timer。当该定时器为 0 时,将强制 PUSH 发送组播流。下游设备重新进行判断是否剪枝或向下游发送。
6@:下游设备周期性发送 PIM-prune 报文,从而持续刷新上游设备的 Prune Timer。
从以上处理过程来看,剪枝并不是删除相应的(S,G)表项。实际上PIM路由器只是将(S,G)表项的下游接口由forward状态转变为prune状态。
在holdtime/Prune Timer之后重新进行流量发送。//这里可以看到下游接口为 P(Prune) 状态,Prune Timer的剩余时间为 3:04。
自动换行剪枝报文示例
RFC定义了join/prune的Group Record字段中的Flags位,这里说明下。
Sparse-bit:PIM-SM模式,置位1表示兼容PIMv1;
WildCard-bit:置位1表示建立的是RPT共享树;此时也表示该join报文的join地址是RP而非组播源S的。
Rendezvous Point Tree-bit:RPT-bit置位1表示需要发送给RP。否则是发送给组播源S。
局域网中的剪枝延时:
如果局域网中所有设备都支持 PIM-Hello 包中携带的 LAN Prune Delay option 并启用 LAN 延迟,则上游设备收到某个下游的 Prune 剪枝消息时,为了保证其他下游设备的 join 能够覆盖该 prune 消息将延迟 Prune Pending Timer = LAN Prune Delay + Override Interval 进行剪枝。默认周期为 3s。
如果只有一个下游邻居,则将 Prune Pending Timer 设置为 0。
LAN Prune Delay option 由 2 部分组成:LAN Prune Delay 和 Override Interval。
LAN Prune Delay 表示链路上的预期消息传播延迟,当链路上的所有路由器都使用 LAN Prune Delay option 时,LAN 上的所有路由器都必须将传播延迟设置为 LAN 上的最大 LAN Delay。
Override Interval 字段中表示其所需的随机化量。 当 LAN 上的所有路由器都使用 LAN Prune Delay option 时,LAN 上的所有路由器都必须将其 Override_Interval 设置为 LAN 上的最大 Override 值。
自动换行pim hello-option lan-delay用于配置传递Prune消息的延迟时间。默认500毫秒。
pim hello-option override-interval用于配置join覆盖剪枝的时间间隔。默认2500毫秒。
3.3.PIM-DM的嫁接Graft/Graft-Ack
Graft报文仅适用于PIM-DM模式。
PIM-DM的嫁接基本原理:在已剪枝的网络中,olist(S,G) 出接口非空,也即有设备需要重新加入组播网络时:
- 取消剪枝端口的 PLT(S,G) 定时器,过渡到 AckPending (AP) 状态。
- 从自己的上游接口发送 Graft 消息,快速结束接口的 join(S,G) 的 Holdtime 字段/Prune Timer 定时器 = 3.5 * join/prune_interval = 210s。
- 同时启动 GRT(S,G) 定时器。如果在 Graft Retry Timer = Graft_Retry_Period = 3s 的定时器时间内未收到 Graft-Ack 消息,则重新发送 Graft 消息。
pim timer graft-retry 用来在接口上配置 Graft Retry Timer 的时间间隔。默认3s。
自动换行
Graft的特殊机制:
Q:如果新增的下游PIM-DM设备本身无(S,G)表项也就无法实现嫁接功能。也即嫁接通常要求PIM设备上原本运行过该组播功能。如果下游PIM-DM设备新接入了一个上游PIM-DM Prune状态的PIM组播网络,是否只能在 holdtime/Prune Timer 后重新等待上游接口过渡到forward状态。此时如何处理?
A:因此新增机制,一旦上游PIM-DM Prune接口创建了新的PIM邻居会自动将端口转变为forward状态。
Graft 和 join/prune 报文字段几乎完全相同,那么Graft和join/prune报文的区别:
1@:Graft嫁接报文使用单播发送。SIP=自己的接口IP,DIP=RPF上游邻居IP。
2@:Graft嫁接报文的 Holdtime 置0。
3@:Graft嫁接报文的 join ip address 是填充了组播源的 IP。这也意味着即使网络中无相应组播功能,PIM 路由器实际上也维护相应的 (S,G)。
而Graft嫁接报文和Graft-Ack报文都是单播发送区别在于:Graft报文的upstream-neighbor填充的是自己的上游RPF地址,Graft-Ack报文的upstream-neighbor填充的是Graft报文的源地址。
Graft嫁接报文示例。
3.4.PIM-DM的状态刷新State Refresh
PIM 的 State-refresh 报文仅适用于 PIM-DM 模式,属于 PIM-DM 的增强功能。
状态刷新机制:
1@:PIM的第一跳路由器可以过渡到 Originator 状态,并周期性 (默认 State Refresh Timer = RefreshInterval = 60s) 向邻居发送 PIM State Refresh 状态刷新报文。用于刷新 PIM 邻居的 (S,G) 表项和刷新剪枝接口的超时定时器。
2@:下游 PIM 邻居接收到后,继续向下游发送 State Refresh 状态刷新报文。
3@:组播源不在发送组播流量,PIM的第一跳路由器也不在发送状态刷新报文。组播网络的表项可正常老化删除。
转发 State Refresh 状态刷新消息时,应将
1@:pim.originator 字段设置为自己的接口地址。
2@:pim.metric 字段设置为到达 S 组播源的单播路由开销。
3@:pim.metric_pref 字段设置为到达 S 组播源的单播路由优先级。
4@:pim.mask_len 字段设置为到达 S 组播源的单播路由掩码。
5@:如果该下游接口为 Pruned 剪枝状态,则将 pim.prune_indicator bit 置位。
6@:
7@:如果该下游接口 AssertState 为 NoInfo,则将 pim.assert_override bit 置位。
自动换行
仅有PIM的第一跳路由器可以过渡到 Originator 状态,并维护 State Refresh Timer (SRT(S,G)) 状态刷新定时器 = RefreshInterval = 60s,以及 Source Active Timer (SAT(S,G)) 源存活定时器 = SourceLifetime = 210s。前者用于周期发送 State Refresh 状态刷新报文,后者触发时将端口过渡到 NotOriginator(NO) 状态。
接口收到State Refresh状态刷新的行为:
1@:接口处于 Forwarding 转发状态且 State Refresh 状态刷新消息的 Prune Indicator bit 不置位,则接口状态不变。如果 Prune Indicator bit 置位,则额外设置 OT(S,G) = t_override,OT(S,G) 触发后发送 Join(S,G) 消息。
2@:接口处于 Pruned 剪枝状态且 State Refresh 状态刷新消息的 Prune Indicator bit 置位,则接口状态不变并启动 PLT(S,G) = t_limit = 210s 定时器。如果 Prune Indicator bit 不置位,则额外设置发送 Prune(S,G)。
覆盖上游接口的 Prune state。重置 OT(S,G) = t_override,触发后发送 Join(S,G) 消息。
//pim state-refresh-capable用于开启发送PIM DM的状态刷新报文功能。
//state-refresh-interval用于指定状态刷新报文发送间隔,默认60s。
自动换行 PIM State Refresh 状态刷新报文示例。
3.5.PIM-DM/SM的断言Assert
PIM 的 Assert 报文对 PIM-DM 和 PIM-SM 都适用,主要用于在局域网中竞选向下游发送组播报文。
场景:如果 PIM 路由器从 (S,G) 或 (*,G) 表项的下游接口收到自己发送的 (S,G) 报文,则表示该网段存在其他的转发者。此时路由器从该下游接口发出 Assert 消息,参与竞选。竞选落败者停止向自己的下游接口的转发 (S,G),并且发送剪枝报文用于防止优胜者发送组播流量。用于防止组播流的重复发送。
如果断言优胜者/RPF上游接口在 3s 内没有收到 PIM-DM 的 join 报文,就将该接口从 (S,G) 出接口删除。
这也是PIM-DM唯二发送join报文的场景!
另一个发送join报文的场景:局域网连接了多个末节PIM路由器进行 IGMP 的查询者选举。
断言工作原理:组播流量防环
1@:从自己 (S,G) 表项出接口收到了 (S,G) 组播报文触发断言选举。
2@:选举完成后,非win/断言失败设备启动 Assert Timer/断言定时器。Assert Timer/断言定时器结束后重新进行断言选举。
holdtime assert 用于指定 Assert Timer/断言定时器的间隔。默认为 3 * State Refresh Interval = 180s。
3@:断言优胜者周期60s发送断言报文,刷新断言失败者的 Assert Timer/断言定时器。
这一过程和RPF检查某种程度上有点类似。
但是RPF检查并不能减少组播流量的发送,只能拒绝组播流。
Group Address和Source Address:描述了组播的(S,G)表项。
R:描述了断言表项。置0表示断言为(S,G)表项,反之断言(*,G)表项。
Metric Preference:到S的单播路由表的优先级
Metric:到S的路由Metric。
断言报文示例。
断言的选举:
1@:到组播源的单播路由协议优先级越小者越优。
2@:到组播源的Metric越小越优。
3@:接口地址IP大的优先。
1@在使用默认配置情况下,断言优胜者与DR相同。
2@断言要求RPF选举必须选择断言优胜者作为邻居。
PIM-SM的断言:
PIM-SM 虽然是 PULL 方式,但是在特定场景下也具有断言需求。
AR2作为AR4的RPF邻居,而AR3作为AR5的RPF邻居。
4.PIM-SM
4.1.PIM-SM模型
PIM-SM(Sparse Mode,稀疏) 模式采用Pull拉流模式以RT为根而建立(*,G)表项。
PIM-SM模型简介:
1@:对接收者来说,RP相当组播源的存在。在RP和接收者之间建立最短路径树RPT。
组播流量由RP转发给接收者。
2@:对组播源来说,RP相当于接收者的存在。在RP和组播源之间建立最短路径树SPT。
组播流量为避免泛洪,以单播注册方式建立SPT树。(Register报文通知RP存在组播源S,RP接收到反向向S发送PIM-join报文完成SPT树表项建立)。在该路径树上进行组播流量转发。
也即RP是PIM-SM网络的核心!RP可分为静态RP和动态RP。
静态RP@–在设备上进行指定
这里指的是默认RP为所有组播组G的IP提供RP服务。同时也可以指定静态RP为ACL指定的组播组IP转发该G的报文。此时如果有多个静态RP对应G时,需要根据厂家实际情况选择相应的RP。
动态RP@–由Bootstrap/Candidate-RP-Advertisement报文选举产生
实际上动态RP也可指定ACL,仅为指定的组播组IP转发该G的报文
1@:组播源发送组播流,第一跳PIM路由器为避免泛洪单播封装一个PIM报文发向RP。
2@:RP解封装该组播报文。(有相应表项,)向第一跳组播路由器发送(S,G)PIM-join报文。该报文为224.0.0.13组播报文,但逐跳向上游RPF邻居发送直到到达组播源。
这一过程实际上建立了SPT的(S,G)表项。
其实RP也会回送一个注册停止报文,将在4.2.章节详细。
3@:第一跳PIM组播路由器接收到接收者请求后主动加组,发送(*,G)的join报文。该join报文由其他组播路由器以RP为根进行RPF邻居转发直到RP。这里实际上也就完成了PULL拉流操作。
详细内容将在报文介绍章节4.2和4.3时进行详细介绍。
PIM-SM注意点:
1@:PIM-SM建立的(*,G)通过该join报文生成。同时末端的IGMP成员关系报告也可生成。
2@:PIM-SM同样需要进行RPF检查。但RPF检查的单播地址为RP的地址,因此RP需要全网可达。
3@:PIM-SM按需进行剪枝和加组,并也同样存在剪枝否决。
PIM-SM默认认为网络中组播设备较少,需要下游设备周期60s发送(*,G)join表项进行加组。
或
//仅在SM下生效,设置向上游发送join报文的周期时间。默认60s。该值必须小于join报文中hold字段的周期时间。
值得注意的是,PIM-DM是强推PUSH模式也即上游设备会强推组播流。虽然有剪枝机制,但还是需要下游在接收到组播流进行发送。(不考虑状态刷新机制)。
PIM-SM采用PULL模式,是需要下游主动周期性发送join去维护表项!!!
4.2.PIM-SM的注册register/register-stop
PIM的register/register-stop报文仅适用于PIM-SM模式。
作用:register报文用于第一跳PIM组播路由器向RP通知组播源的存在,并建立(S,G)表项。
第一跳PIM组播路由器以
SIP=组播源侧接口IP,DIP=RP。单播发送。
并携带(S,G)报文表项进行S到RP之间SPT树的建立。
B-bit:边界位。
N-bit:空注册位。
Multicast Data Packet:携带(S,G)组播信息。不定长。
Group Address:组播组地址。
Source Address:组播源地址。
这里携带的是RP所需的(S,G)表项信息。
RP接收Register:
相应(S,G)的RPF检查,并在本地查询组播S路由表是否具有(*,G)。
1@:具有相应表项。向第一跳PIM组播路由器发送(S,G)的join的表项。并同时发送Register-stop报文。
此时其实在RP和组播源之间建立的也是SPT树。
第一跳PIM组播路由器接收到Register-stop报文,在本地启动一个注册停止定时器。该定时器为60s。定时器结束时重新周期发送Register报文。
PIM-SM的Register逻辑:
1@:组播源的第一跳组播路由器发送单播携带组播流量,在组播源和DR建立(S,G)表项。只有S和DR对组播进行封装解封装。
既完成了组播流量的传递,又仅在S和DR之间的单播通道内建立(S,G)防止了组播流的过度泛洪。
当然(S,G)表项的建立要和join报文配合完成
需要说明的是,这里的第一跳组播路由器应该是组播源的DR!
2@:Register报文本质是变组播为单播流量。因此RP要发送Register-stop,防止流量的二次发送并且阻止设备对组播流量的过度封装解封装占用设备资源。
3@:Register报文的一个重要特性是通知RP,S的存在。第一跳PIM路由器收到Register-stop注册停止报文后会停止发送Register报文。但在周期60s后重新发送Register报文进行刷新维护。
当S不存在则不在发送Register注册报文。
其他需要注意的1:
S-DR和RP之间建立的是SPT树,此时仅需要S-DR需要知道RP位置,从而单播发送注册报文。
而C-DR和RP之间是RPT树,此时树上的所有设备都需要知道RP位置。因为要向RP进行加组,发送(*,G)join报文建立表项。
这里在(*,G)join报文的S地址上其实填充的是RP的地址
该(*,G)表项由下游PIM路由器每隔60s进行维护。
Note:RP向组播源发送的是(S,G)join表项。
其他需要注意的2:
register报文是单播发送的,且第一跳PIM路由器发送该单播报文时默认以通向组播源S的本地接口作为SIP。
register-source 用于指定源DR发送register注册报文的源地址。
其他需要注意的3:
在华为设备上,第一跳组播路由器总是发送Register注册报文而RP总是回应Register-stop注册停止报文。
1@无组成员时:RP需要通知组播源S拒绝发送组播流。
2@有组成员时:RP需要通知组播源S拒绝发送单播形式的组播流。此时组播源S沿着(S,G)表项直接发送组播报文。(当然需要RP发送join报文建立相应表项)。
这是由于Register报文不仅承担了组播流量的功能,而且有通知S的效果。
其他需要注意的4:
由于单播路由的特性,去方向的路由和会方向的路由不一定完全一致此时出现一个特别的现象。
S和S-DR之间的SPT树不一定完全沿着S-DR和RP最短路径,但一定是RP到组播源的最短路径
4.3.PIM-SM的Bootstrap/Candidate-RP-Advertisement
PIM-SM使用BSR(Bootstrap Router)机制来完成RP的动态选举。
原理:
1@:每台PIM-SM都可在本地指定一个地址作为C-BSR(候选Candidate-BSR)。每台PIM-SM通过Bootstrap消息获取整个PIM-SM域中的C-BSR,从而唯一选举出BSR并同时向整个PIM-SM域发布BSR信息。
//c-bsr用于指定本地候选BSR。当然这个选举是动态的,一旦失效重新选举并周期维护。
2@:每台PIM-SM都可在本地指定一个地址作为C-RP(Candidate-RP,候选RP)。C-RP接收到BSR发送的Bootstrap消息后将自己所提供服务的组播组在PIM-SM域中Candidate-RP-Advertisement报文单播发送给BSR。从而BSR可以收集全网PIM-SM域的C-RP信息。
//c-rp用于指定本地候选RP。*当然这个选举也是动态的,一旦失效重新选举并周期维护。
3@:BSR 周期性 60s 发送 Bootstrap 报文携带 C-RP 集合和唯一确定的 BSR 地址信息。并其他 C-BSR 在本地维护 BSR 信息,维护定时器默认 130s。
//C-BSR发送Bootstrap的间隔,默认60s。
//C-BSR的维护周期,默认130s。
//C-RP发送Candidate-RP-Advertisement的间隔,默认60s。
//C-RP的维护周期,默认150s。
自动换行
BSR ( Bootstrap Router)则相当于组播网络中的管理中心,对动态选举RP的整个过程进行管理。
Bootstrap报文:使用接口作为SIP,使用224.0.0.13作为DIP,一般发往永久预留组播地址的报文TTL都是1。
Fragment Tag:随机数,用来区分 Bootstrap 消息。
Hash Mask length:C-BSR 的 Hash 掩码长度。
BSR-priority:C-BSR 优先级。
BSR-Address:C-BSR 地址。
Group Address:组播组地址。
默认为所有组播组提供服务因此是224.0.0.0/4的组播组。
RP-Count:希望为该组服务的 C-RP 的总数。
Frag RP-Count:在本段内包含的 C-RP 地址的个数。分片场景下使用。
RP-address:C-RP 的地址。
RP-holdtime: C-RP 的有效时间。
RP-priority:C-RP 的优先级。
示例:
BSR的选举规则:
1@:比较优先级,优先级大者优先。默认为0。2@:比较接口IP地址,IP地址大者优先。
BSR的选举过程:
1@:每台C-BSR初始都认为自己是BSR因此发送Bootstrap报文并在全网的PIM-SM域进行泛洪
2@:竞选失败的C-BSR不在发送Bootstrap报文,而是由优胜者BSR在网络中周期60s泛洪。
同时竞选失败者建立默认C-BSR的holdtime=130s的定时器,在130s内没有收到优胜者的Bootstrap报文认为BSR失效,自己重新泛洪。
3@:为了防止C-BSR环路,根据Bootstrap报文中的BSR地址为根进行RPF检查。
其他还有个命令需要介绍://用于在PIM-SM域的接口上不发送bootstrap报文。可以分离PIM-SM域。
Candidate-RP-Advertisement报文:单播发送SIP=接口IP,DIP=BSR地址。
RP的选举规则:
1@:比较组播组的掩码长度,越大越优。
2@:比较RP优先级,越大越优。默认为0。3@:比较HASH(组地址,RP值,掩码)值,越大越优。掩码默认30。
4@:比较IP地址,越大越优。
RP的选举过程:
1@:每台C-RP向BSR发送竞选报文Candidate-RP-Advertisement报文。携带RP相关信息。
2@:BSR收集全网PIM-SM域的C-RP信息向全网PIM-SM域进行Bootstrap报文泛洪
3@:PIM路由器根据自己实际情况选择相应的C-RP作为自己的RP
也即每个区域的RP实际上都有可能不同。
这里的实际情况指的是根据提供的多个C-RP选择最短路径的RP。当然也要考虑RP所提供的组播组G是否是自己所需要的。
其他注意事项:
1@:当配置静态RP和动态RP时,动态RP优先。
2@:进行选举的C-RP和C-BSR都需要加入PIM进程中才能进行选举
3@:进行选举的C-RP和C-BSR都需要满足RPF检查
4@:这里需要说明的是一般来说C-RP和C-BSR都应全网可达,才能具有选举的资格。
这里的3和4实际上是重复的,但是需要说明下。
5@:报文中没有相应的协商字段,因此BSR和RP的选举实际上是支持抢占的。
4.4.PIM-SM的RPT树向SPT树的切换
PIM-SM模型下,实际上是由RP作为接收者的组播源。接收者和组播源的通信往往是非次优路径。该这种情况下提出了RPT树向STP树切换的优化机制。
首先有一点需要注意的是:这一切换只能在倒数第一跳组播路由器上完成。
这是因为RPT树首先是在RP和倒数第一跳组播路由器之间形成的。其次PIM网络的加组离组表项建立实际上都是RP和倒数第一跳组播路由器来完成的。其他的RPT树的路由器实际上只需泛洪PIM报文,根据接收到的PIM报文和组播报文完成(*,G)和(S,G)表项的建立。并且最重要的一点是,RPT树中间节点的SPT最短路径并不一定代表了接收者到源的最短路径!
场景:倒数第一跳PIM路由器上接收到RPT表项的组播流业务,发现到该组播源S的RPF检查优于RPT树建立的路径。
实现:
此时会有SPT树和RPT树不同上游接口传递的组播流,此时需要
1@:倒数第一跳路由器在RPT树上进行 (S,G)剪枝操作。该剪枝报文的RP-bit会置位以便进行区分。RP上如果没有相应的接收者,则触发PIM-SM的剪枝相关操作。
这里需要注意的是(S,G)表项是RPT流量刷新而来,会被剪掉。但是RPT树的(*,G)还是会保留所以周期加组。
2@:倒数第一跳路由器在SPT树上进行 (S,G)加组操作。
上述过程可参考相关章节。
//在倒数第一跳PIM路由器上设置RPT树向SPT树切换阈值。默认收到组播报文就切换。
5.PIM行为+配置
5.1.PIM-DM组播处理
组播源:
组播源发送组播流量。组播流量由 PIM 第一跳组播路由器接收到。
PIM路由器:
1@:第一跳组播路由器建立组播路由表。
也即此时PIM邻居被自动识别为组播的下游接口。此时为直连,RPF检查必然成功。
2@:第一跳组播路由器建立 PIM 路由表,向 PIM 邻居转发流量。
也即 PUSH方式,无论有没有表项都向 PIM 下游接口推送组播流。而下游接口根据需要建立组播表项或进行 prune 剪枝操作。
3@:其他 PIM 路由器接收到后,进行相似处理。但是此时取决于PIM路由器状态。
- 如果PIM有相应表项则转发流量;
- 如果无表项则每隔60s向上游发送 Prune 报文。上游设备在3s的剪枝等待延时内没有收到 join 报文,则以接收到 Prune 中 Holdtime 字段210s为定时器将下游端口状态由 forwarding 转变为 prune 维持。
这一定时器被下游周期发送的Prune报文刷新。定时器为0时将下游端口转变为forwarding,加入到PIM组播表项的出接口转发组播流量)。
4@:最后一跳 PIM 路由器接收到组播流量,建立 (S,G) 表项。向相应的接收者转发流量。(如果有接收者的话)
5@:对于 prune 状态新加入接收者,向上游发送 Graft 嫁接报文,上游随之删除该 prune 端口的定时器过渡到 forward 状态开始转发流量。
5.2.PIM-SM组播处理
组播源:
组播源发送组播流量。组播流量由 PIM 第一跳组播路由器接收到。
PIM路由器:
第一跳组播路由器被组播流量刷新,因此将组播流 (S,G) 封装入单播 PIM-register 报文中发送给 RP。
RP组播路由器:
1@有相应的(*,G)表项:检查 (S,G) 符合RPF 原则,向组播源/第一跳组播路由器发送 (S,G) join 报文,建立组播表项将组播流量引入 RP。
此时RP上有(S,G)又有(*,G)表项。这里有一个定义是(*,G)表项是对应(S,G)的父项。此时(S,G)会继承(*,G)表项的出接口,从而完成整个PIM域的组播流量的发送。根据该规则不断在全网都形成(S,G)表项。
这里有一个有意思的点是:在RP未向S发送(S,G)join报文时,只有在第一跳PIM路由器和RP路由器上存在一个被组播流传输形成的(S,G)表项。而在RP和S之间的组播路由器是没有表项的。
这里的表项是由于第一跳组播路由器发送的单播Register报文中封装组播流量而形成的。中间设备处理单播报文是不进一步解封装的。
2@没有相应的表项:RP 向第一跳组播路由器发注册停止 Register-stop 报文。第一跳组播路由器在该端口上启动一个注册停止定时器,在定时器结束后重新向 RP 发送单播注册报文。
倒数第一跳组播路由器由接收者触发建立 (*,G) 表项,并逐跳发送 (*,G) join 报文给 RP。
此时在倒数第一跳PIM路由器☞☞☞RP的路径路由器上都建立(*,G)表项。指定组播的上下游接口。
如果RP也是倒数第一跳组播路由器,那么IGMP的成员关系报文当然也可以建立(*,G)表项。
RP收到后,将RP上的表项与该 (*,G) 表项比对。随后将接收该 (*,G) 表项的接口加入组播路由表的出接口中。这样就完成了表项的建立。
1@:在最终传输组播流量时,RP和C-DR之间的组播流量还会导致(S,G)表项的出现。也即PIM-SM的RPT树也是会有(S,G)表项的!
2@:PIM-SM模式下修剪等待机制同样适用。
1-当接收者退出组播组后,剪枝报文首先沿着RPT树到达RP。
2-如果RP针对该 (S,G) 没有相应的出接口,则继续向组播源发送Prune剪枝报文。
需要注意
1@:满足 RPF 检查,PIM-SM 的 RP 也需要满足 RPT检查。
2@:与 PIM-DM 模型相同,PIM-SM 的也具有剪枝操作。当 (*,G) 表项的下游接口全部删除,此时向上游发送 (*,G) 的 prune剪枝报文。
5.3.PIM配置
PIM协议配置比较简单,这里以下图AR4为例进行PIM-SM介绍:
指定 AR4 为静态 RP。
sysname AR4
#
multicast routing-enable
#
interface GigabitEthernet0/0/0
ip address 10.1.234.4 255.255.255.0
pim sm
#
interface GigabitEthernet0/0/1
ip address 10.4.5.4 255.255.255.0
pim sm
#
interface GigabitEthernet0/0/2
ip address 10.4.6.4 255.255.255.0
pim sm
#
interface LoopBack1
ip address 4.4.4.4 255.255.255.255
pim sm
#
pim
c-bsr LoopBack1
c-rp LoopBack1
static-rp 4.4.4.4 preferred
#
PIM的配置比较简单,这里重点说明配置要点:
1@:第一跳路由器的S接口和倒数一条路由器的C接口都需加入PIM进程。
因为要建立组播表项的上下游接口,并且需要进行RPF检查。
PIM-SM模型的C-BSR和C-RP也需要如此。
2@:对于PIM-SM模型,属于SPT树的组播路由器仅有第一跳需要知道RP的地址进行Register注册。而RPT树的路由器都需要知道RP地址。
5.3.1.常用检查命令
1@display multicast rpf-info:用于查看针对 (S,G) 组播流的 RPF 检查情况。
自动换行
自动换行
2@display multicast routing-table:用于查看 (S,G) 组播流的表项。
自动换行
自动换行
3@display pim routing-table:用于查看PIM为 (S,G) 组播流生成的表象。
display pim routing-table fsm可以额外展示接口的状态机。例如,P 表示接口处于剪枝状态,Prune Timer定时器(默认210s,由 join/prune 周期刷新)剩余 2:57。
自动换行
自动换行4@display pim interface {verbose}:用于查看 PIM 接口参数信息。
自动换行
自动换行
5@display pim neighbor {verbose}:用于查看 PIM 邻居参数信息。
自动换行
自动换行
6@display pim control-message counters:用于查看PIM协议包收发统计。
更新
原文地址:https://blog.csdn.net/fengxingzhe008/article/details/128468209
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!