AI算力平台基础设施架构设计

2024-09-27  本文已影响0人  sknfie

概述

AI算力平台基础设施采用k8s及OAP相关技术,实现云原生的AI最佳实践。

背景

AI训练使用过程中需要面临的问题:

因此,需要提供如下解决方案:

AI算力平台的优势

k8s

crd

使用crd来管理Kubeflow、p8s、Argo、istio、volcano等资源。

scheduler

k8s的调度包含很多方面:节点选择,亲密度,污点,还有其他过滤打分的优选和预选机制。
主要使用场景是在不同pipeline的任务同时发起时,希望每台机器都能被均匀的使用,而不是过度集中在其中数台服务器上。

coredns

CoreDNS是Kubernetes集群中负责DNS解析的组件,能够支持解析集群内部自定义服务域名和集群外部域名。CoreDNS具备丰富的插件集,在集群层面支持自建DNS、自定义hosts、CNAME、rewrite等需求。
因此在内网部署,需要在pod中会有内网域名的使用,往往需要在pod配置内网的dns解析服务器。

分布式存储

为了减少不必要的数据传输,避免用户在AI训练时,数据文件在不同系统中间传输。因此,提供如下解决方案:

pvc挂载:会自动将pvc下的$username子目录,挂载到容器目录的$username子目录下面
hostpath挂载: 会将主机目录挂载到容器目录,一般用于多人共享编辑同一个目录使用
configmap挂载:会将configmap挂载到容器目录,一般用于将特殊配置文件挂载到容器
内存挂载: 会将内存挂载到容器,一般用于处理k8s 共享内存的问题
上一篇 下一篇

猜你喜欢

热点阅读