版本:v2.8.0
启用昆仑芯 GPU 拓扑感知调度
昆仑芯 GPU 拓扑感知调度现在通过 kunlunxin.com/xpu 资源得到支持。
当在单个 P800 服务器上配置多个 XPU 时,当 XPU 卡连接到同一 NUMA 节点或互相之间可以直接连接时,性能会显著提升。从而在服务器上的所有 XPU 之间形成拓扑,如下所示:

当用户作业请求一定数量的 kunlunxin.com/xpu 资源时,
Kubernetes 将 Pod 调度到适当的节点上,目标是减少碎片化
并最大化性能。然后 xpu-device 在选定的节点上执行细粒度分配
请求的资源,遵循以下规则:
- 只允许 1、2、4 或 8 卡分配。
- 1、2 或 4 个 XPU 的分配不能跨越 NUMA 节点。
- 分配后应最小化碎片化。
重要说明
- 这种模式不支持设备共享。
- 这些功能已在昆仑芯 P800 硬件上进行了测试。
前置条件
- Kunlunxin driver >= v5.0.21
- Kubernetes >= v1.23
- kunlunxin k8s-device-plugin