版本:v2.7.0
昆仑芯拓扑感知调度
背景
当单个 P800 服务器配置多块 XPU 时,若 GPU 连接或位于同一 NUMA 节点内(如下图所示),可获得最优性能表现。这种配置会在服务器内所有 GPU 之间形成特定拓扑关系。

当用户作业申请特定数量的kunlunxin.com/xpu资源时,Kubernetes 会将 pod 调度到合适节点以最小化资源碎片并保持高性能。选定节点后,XPU 设备会根据以下规则进行细粒度资源分配:
- 仅允许 1、2、4 或 8 卡分配方案
- 1/2/4 卡分配不得跨 NUMA 节点
- 分配后应最小化资源碎片