通信链路

分布式 AI 系统的通信链路分为三类：机内通信（CPU 与 GPU 之间）、卡间通信（GPU 与 GPU 之间）和机间通信（服务器与服务器之间）。机内通信是数据进入计算单元的通道，卡间通信支撑单机内的并行计算，机间通信实现跨节点的分布式训练。三种通信的带宽依次递减、延迟依次递增，合理规划通信拓扑是分布式系统设计的基础。