Appearance
分布式 AI 系统的通信链路分为三类:机内通信(CPU 与 GPU 之间)、卡间通信(GPU 与 GPU 之间)和机间通信(服务器与服务器之间)。机内通信是数据进入计算单元的通道,卡间通信支撑单机内的并行计算,机间通信实现跨节点的分布式训练。三种通信的带宽依次递减、延迟依次递增,合理规划通信拓扑是分布式系统设计的基础。