基于k8s云原生的模型推理架构

2024-09-04  本文已影响0人  杰森斯坦sen

Kubeflow是运行在K8S之上的一套技术栈,通过各种组件实现机器学习模型的训练和推理部署到云原生的模型平台。

Kubeflow组件

Kubeflow提供了一大堆组件,涵盖了机器学习的方方面面,为了对Kubeflow有个更直观深入的了解,先整体看一下Kubeflow都有哪些组件,并对Kubeflow的主要组件进行简单的介绍:

TensorRT-LLM

TensorRT-LLM支持模型架构定义、预训练权重编译、推理加速,GPU 上的高效推理,做了 SOTA 级别的优化,包含了一个可与 Triton Inference Server 集成的 backend,自带主流的预定义热门大语言模型,包括 baichuan、LlaMA、ChatGLM、BLOOM、GPT等。

LightLLM

LightLLM是商汤发布的推理服务框架,简单高效,易于二次开发和其他框架的集成。

Knative

Knative 是谷歌发起的基于kubernetes平台的Serverless 开源项目,致力将Serverless标准化。Kubernetes作为基础设施,解决应用编排和运行环境。Knative 将kubernetes和istio的复杂度进行抽象和隔离,解决了繁琐的构建,部署,服务治理步骤,并且基于开放标准使得服务变得可移植。

Knative的三个组件(Serving、Build、Eventing)遵循了三个云原生最佳实践的设计实现。

上一篇 下一篇

猜你喜欢

热点阅读