AI计算平台设计方案：901-基于3U VPX的图像数据AI计算平台

🕗 发布于 2024-04-02 15:59 fpga开发 AI计算平台图像数据 3U VPX FPGA信号预处理

一、产品概述

设备基于3U VPX的导冷结构，集成FPGA接口预处理卡，GPU板卡、飞腾ARM处理卡，实现光纤、差分电口或者Camera link的图像接入，FPGA信号预处理，GPU AI计算，飞腾ARM的采集管理存储。

二、系统组成

系统组成包括：3U VPX机箱电源、3U VPX背板、 1块3U VPX V7采集处理板、1块3U VPX AGX orin GPU计算主板、1块3U VPX飞腾处理器计算板。

2.1基于XC7V690T的3U VPX信号处理板（274）

本板卡系我司自主研发的基于3U VPX导冷架构的信号处理板，适用于高速图像处理等。芯片采用工业级设计。该处理板包含1片Xilinx公司的Virtex7系列FPGA-XC7V690T-2FFG1761I。板载两组64位宽DDR3，每组容量4GB，一个HPC FMC接口。VPX接口连接4组x4 GTH，24组LVDS，一路RS422，一路1000Base-T。板卡的电气与机械设计依据VPX标准（VITA 46.0），支持导冷，能够满足用户在特殊环境下的使用需求。

板卡功能	参数内容
主处理器	Xilinx XC7V690T-2FFG1761I
板卡标准	VPX VITA 46.0
电气规范	PCIe 2.0,3.0 X4
FMC接口	FMC ANSI/VITA 57.1 – 2008 ，ASP-134486-01 HPC中LA，HA，HB全部接口和DP0~DP7 8路高速接口
板载缓存	两组DDR3，每组512Mx64bit(4GB), MT41K512M8RH-125-IT
加载Flash	BPI加载模式，BPI Flash 2Gb
VPX接口	P1: GTX x16，支持PCIe、SRIO协议 P2: LVDS x24，一路RS422，一路1000Base-T
仿真器接口	1x 6Pin JTAG接口，间距2.54mm
LED	两个，电源状态指示灯，FPGA状态指示灯（可编程）
复位方式	外复位
板卡尺寸	100mm x 160mm x20mm
板卡重量	（含散热片）
板卡供电	+12V@4A
板卡功耗	48W
工作温度	Industrial -20℃到+70℃

光纤收发子卡、2711子卡、Cameralink子卡

2.2 基于3U VPX的AGX Orin GPU计算主板（735）

Jetson AGX Orin 采用 NVIDIA Ampere 架构 GPU 和 Arm Cortex-A78AE CPU，以及新一代深度学习和视觉加速器。高速 IO、204GB/s 的内存带宽以及 32GB 的 DRAM 能够馈送多个并发 AI 应用程序管道。采用 Jetson AGX Orin，您现在可以部署更大型、更复杂的模型，解决自然语言理解、3D 感知和多传感器融合等问题。Jetson Orin算力高达275 TOPS,是上一代多个并发 AI推理管道性能的8倍,加上支持多个传感器高速接口,可为新时代机器人提供理想的解决方案.

GPU	2048-core NVIDIA Ampere architecture GPU with 64 Tensor Cores
CPU	12-core Arm Cortex-A78AE v8.2 64-bit CPU 3MB L2 + 6MB L3
显存	64GB 256-bit LPDDR5 204.8GB/s
存储	64GB eMMC 5.1
DLA最大频率	1.6 GHz
AI性能	275 TOPS
DL加速器	2x NVDLA v2
视频加速器	1x PVA v2
视频编码	2x 4K60 (H.265), 4x 4K30 (H.265) 8x 1080p60 (H.265), 16x 1080p30 (H.265)
视频解码	1x 8K30 (H.265), 3x 4K60 (H.265), 7x 4K30 (H.265) 11x 1080p60 (H.265),22x 1080p30 (H.265)
PCle	x8 PCle Gen4
显示接口	HDMI
网络	RJ45 接口 (高达1 GbE)

2.3 3U VPX飞腾处理器刀片计算机

2.3.1 产品概述

该产品是一款基于国产飞腾FT2000 4核或腾锐D2000 8核的高性能3U VPX刀片式计算机。产品提供了4个x4 PCIe 3.0总线接口，同时可配置为1个x16或2个x8 PCIe3.0接口，因此具有很强的扩展性，极大地满足多负载多节点的应用需求。产品结构完全符合VITA 46.0规范，有很强的可靠性、可维护性、可管理性，并与军用计算机的抗振动、抗冲击、抗宽温环境急剧变化等恶劣环境特性进行完美融合。

2.3.2 功能指标

● 3U 5HP VPX规格。

● 支持FT-2000/4 四核处理器和腾锐D2000 八核处理器

FT-2000/4标准版,2.6GHz,16W

腾锐D2000/8标准版,2.3GHz,25W

● 板载16GB双通道DDR4内存，频率2400MHz。

● 支持2个VGA接口，最大分辨率1920x1080@60Hz；其中1路VGA为后出接口。

● 支持4个x4 PCIe3.0接口，可配置成1个x16 PCIe 3.0或2个x8 PCIe 3.0。

● 前面板支持1路10/100/1000Mbps网络接口，后出2路10/100/1000Mbps网络信号，其中1路后出网口与前面板网口二选一切换。

● 板载1个mSATA接口，支持SATA3.0；后出2路SATA3.0信号，用于扩展存储。

● 前面板支持2个USB3.0接口；后出2路USB3.0接口信号。

● 提供2路RS232后出串口，其中1路可选RS422/RS485模式。

● 提供1路RS232后出CPU管理串口。

● 前面板带复位按键和LED指示灯。

● 单板管理功能（可选功能）。

● 支持银河麒麟、UOS、Centos、ubuntu、VxWorks系统。

（本项目使用ubuntu操作系统）

三、软件开发内容

3.1光纤收发整体流程设计

2路QSFP+光纤接口，一路作为发送端口，一路作为接收端口，每路接口作为4个X1通道互不影响。

接收端：数据流从光纤接收端进来，存到FPGA的DDR中，然后通过PCIE导入到GPU中。

发送端：数据存在飞腾主板中，飞腾通过PCIE写入FPGA的DDR中，FPGA取走数据，通过光纤发送端口发送出去。

GPU接收的数据通过千兆网发送到飞腾主板中。

3.2 TLK2711收发整体流程设计

4路TLK2711接口，2路作为发送端口，2路作为接收端口，每路接口互不影响。

接收端：数据流从TLK2711接收端进来，存到FPGA的DDR中，然后通过PCIE导入到GPU中。

发送端：数据存在飞腾主板中，飞腾通过PCIE写入FPGA的DDR中，FPGA取走数据，通过TLK2711发送端口发送出去。

GPU接收的数据通过千兆网发送到飞腾主板中。

3.3 FPGA流程框架

如图所示，FPGA程序可以大体划分为PCIe端点控制器XDMA、DDR3读写控制以及TLK2711收发控制三部分。FPGA与PC的PCIe通信采用Xilinx的XDMA IP，逻辑模块间采用AXI总线互联方式。XDMA0数据链路为飞腾主板主控数据链路，XDMA1数据链路为Orin_GPU卡主控数据链路。

Orin_GPU卡主控数据链路：tlk2711子卡的接收端口接收到图像数据缓存到第一组ddr3中，大小为4GB，对0-4GB的ddr3空间读写,gpu把图像数据读出并作处理。链路数据流向分为数据发送（FPGA-PC）（这里飞腾主板和Orin_GPU卡都称为PC）：

数据接收过程描述（FPGA-PC）：图像数据以1.6Gbps线速率通过rxp接口，wr_fifo把16bit数据位宽转化为128bit数据位宽，fdma_ctrl的写ddr3模块把数据写入到0-4GB的地址空间，通过定义的寄存器信号告诉主机软件取出对应地址空间的数据，通过dma的C2H通道直接写入主机内存。

飞腾主板主控数据链路：飞腾主板把图像处理结果写入板卡第二组ddr3中,fpga逻辑读出ddr3中的数据通过tlk2711子卡的发送端口发送出去。（这里飞腾主板和Orin_GPU卡都称为PC）。

数据发送过程描述（PC-FPGA）:为了实现数据发送，主机软件从主机内存固定位置读出图像处理数据发送到DMA的H2C通道，写入到板载第二组DDR3的0-4GB的空间,主机软件通过寄存器通知fdma_ctrl的读ddr3模块取出对应地址ddr3的数据，通过rd_fifo把数据128bit位宽变化到16bit后，给到tlk2711子卡的发送模块，最后数据以1.6Gbps的线速率通过txp口发送出去。

3.4 软件PCIE读流程

软件启动开始接收，软件通过寄存器使能FPGA开始接收数据（光纤或者TLK2711数据），软件开始轮询FPGA写入完成寄存器，当读到FPGA完成标志，说明FPGA已经写入数据，软件读取DDR中数据，完成一次读取数据交互流程。

之后重复单次流程，直到数据接收完整。

3.5 软件PCIE写流程

软件启动开始发送数据（光纤或者TLK2711数据），软件把数据写入DDR中，通过寄存器使能FPGA开始发送，软件开始轮询FPGA读取完成寄存器，当读到FPGA完成标志，说明FPGA已经把DDR的数据取走，这样就完成一次写入数据交互流程。之后重复单次流程，直到数据发送完整。

3.6飞腾GPU数据交互

在背板设计中，飞腾主板和GPU千兆网互联和RS232互联。考虑传输速度，使用千兆网进行传输。使用TCP/IP协议，飞腾处理器为TCP服务端，GPU为TCP客户端主动进行链接请求。

3.7 客户端界面

客户端具有状态信息显示，控制四通道光纤数据发送或者双通道TLK2711接口数据发生功能。上位机自动识别FPGA子卡类型，切换操作界面。

四通道光纤子卡界面

双通道TLK2711子卡界面

原文地址：https://blog.csdn.net/hexiaoyan827/article/details/137144530

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：route和router有什么区别？
下一篇：121.联合体学习

【C++】构造与析构函数
⽆参构造函数、全缺省构造函数、我们不写构造时编译器默认⽣成的构造函数，都叫做默认构造函数。
阅读更多2024-11-18
#渗透测试#SRC漏洞挖掘#蓝队基础之网络七层杀伤链02
识别Windows典型应用是指通过一定的技术和方法，自动识别和分类Windows操作系统中的各种应用程序。这对于自动化测试、应用管理、性能监控等领域具有重要意义。识别Linux典型应用是指通过一定的技
阅读更多2024-11-18
【网络】什么是交换机？switch
综上所述，交换机是一种重要的网络设备，它通过为网络节点提供独享通路和高效的数据转发机制，提高了网络传输效率和管理便利性。它通过对MAC地址的识别，实现数据帧的转发。功能：交换机能为接入交换机的任意两个
阅读更多2024-11-18
Go开发指南- Goroutine
在java中我们要实现并发编程的时候，通常要自己维护一个线程池，并且需要去包装任务、调度任务和维护上下文切换。这个过程需要消耗大量的精力。Go语言中有一种机制，可以让系统自动把任务分配到CPU上实现并
阅读更多2024-11-18
NX二次开发将刀轨转曲线
获取选择的程序导轨和当前加工坐标系，获取导轨数据点转换到加工坐标系，然后创建样条，创建样条是用UG录制的代码，有更好的方法欢迎交流学习一下。
阅读更多2024-11-18
STM32寄存器结构体详解
2.#define IOMUXC_GPIO1_IO03_GPIO1_IO03 0x020E0068U, 0x5U, 0x00000000U, 0x0U, 0x020E02F4U 的解释。通过宏定义，使
阅读更多2024-11-18
Android 12.0 第三方app授予DeviceOwner权限调用系统reboot,显示隐藏app,锁屏,禁用app等功能系统层部分实现
在12.0的系统rom定制化开发中，在有些客户开发app的功能中，需要系统授予app的DeviceOwner权限，然后app就可以实现重启关机禁用下拉通知栏，显示隐藏app，等功能，首选需要在app和
阅读更多2024-11-18
同构字符串
每个出现的字符都应当映射到另一个字符，同时不改变字符的顺序。不同字符不能映射到同一个字符上，相同字符只能映射到同一个字符上，字符可以映射到自己本身。中的字符可以按某种映射关系替换得到。，那么这两个字符
阅读更多2024-11-18
unity 下拉列表根据内容长度进行下拉列表长度的自适应
unity 下拉列表根据内容长度进行下拉列表长度的自适应
阅读更多2024-11-18
MATLAB实现狼群算法优化柔性车间调度(GWO-fjsp)
MATLAB实现狼群算法优化柔性车间调度(GWO-fjsp)
阅读更多2024-11-18

AI计算平台设计方案：901-基于3U VPX的图像数据AI计算平台

相关文章