Skip to main content

整体架构

架构图

基础设施层

公有云或边缘节点

GPU驱动 | nvidia-docker2

https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html

node-exporter | dcgm-exporter

暴露metric

juicefs

一个专为云环境设计的存储系统,以海量低价的对象存储(Minio)以及元数据存储(Redis)为backend,向上提供CSI插件。

参考https://juicefs.com/docs/zh/csi/introduction

调度层

Kubernetes | Rancher

容器调度和集群管理

Istio

服务网格

Volcano

适用于深度学习负载的批处理调度系统,通过扩展Kubernetes的调度器提供了如gang-scheduling等调度策略。

平台层

KubeFlow

提供training operator创建深度学习负载

Argo Workflow

云原生流水线编排

Prometheus | Grafana

可观测性

cube-studio

一站式云原生机器学习平台