整体架构
基础设施层
公有云或边缘节点
GPU驱动 | nvidia-docker2
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html
node-exporter | dcgm-exporter
暴露metric
juicefs
一个专为云环境设计的存储系统,以海量低价的对象存储(Minio)以及元数据存储(Redis)为backend,向上提供CSI插件。
参考https://juicefs.com/docs/zh/csi/introduction
调度层
Kubernetes | Rancher
容器调度和集群管理
Istio
服务网格
Volcano
适用于深度学习负载的批处理调度系统,通过扩展Kubernetes的调度器提供了如gang-scheduling等调度策略。
平台层
KubeFlow
提供training operator创建深度学习负载
Argo Workflow
云原生流水线编排
Prometheus | Grafana
可观测性
cube-studio
一站式云原生机器学习平台