查看原文
其他

K8s和大模型真的搭吗?

51CTO技术栈
2024-09-06
编译|言征

K8s和大模型真的搭吗? 本文抛出了一个问题,但答案仍有待验证。
 
K8s迎来了新的受众群体

假设一位机器学习研究人员阅读了一篇研究论文,并想在PyTorch环境中使用基于Python的GPU进行测试。她要求她的工程团队访问一个带有两个GPU的Jupyter笔记本和她的所有库。
 
工程团队告诉她:这需要三天时间。他们必须获取GPU的来源,创建一个堆栈,然后授予对JupyterHub的访问权限。
 
“这正是DevOps 10年前所经历的,”独立分析师Janakiram 3月在KubeCon+CloudNativeCon Europe的一次对话中表示。
 
“因此,现在的整个想法是,我们如何加快这一进程,并使企业IT能够将基础施带到ML研究人员、工程师和开发人员可以随时使用的程度,以便他们能够快速将自己的想法转化为代码?”
 
新的人物角色反映了大型语言模型(LLM)对云原生社区的影响,并提出了关于身份和Kubernetes角色的问题。数据科学家甚至需要Kubernetes来将他们的模型投入生产吗
 
独立分析师Sanjeev Mohan认为NVIDIA推出的推理微服务Nim就是为Kubernetes精心策划的Docker容器。
 
挑战性就在于:Kubernetes将转变为深度以数据为中心,这是数据的状态性及频繁变化的特点所造成的。数据在Kubernetes社区中从未发挥过如此重要的作用。Kubernetes社区从未需要以这样的方式适应生成人工智能、模型开发、集成、部署和管理带来的新需求。
 
如果没有在Kubernetes上部署数据模型的标准方法,未来的工作将需要社区通过新的硬件集成和项目来适应新的“数据角色”。

AI如何让K8s变得更强大?
 

Kubernetes服务LLMs,那LLM能为K8s做哪些?

 
但实际上,Kubernetes在人工智能中的作用是什么?数据角色问题把这件事带到了最前沿。Kubernetes是一个控制平面——是的,这是有道理的。自2014年以来,它一直是DevOps的应用程序架构。
 
因此,Mohan提出的一个问题变得更加相关:究竟K8s是服务AI,还是AI服务于K8s?
 
在KubeCon,我们看到了很多Kubernetes如何作为人工智能的控制平面。NVIDIA在主题演讲中,他们讨论了分配部分GPU的动态资源分配。这样可以节省成本。这就是人工智能的Kubernetes。所有这些发展都进行得很顺利,Mohan说,我们将看到越来越多的Kubernet成为通用人工智能的控制平面。
 
但令一方面,LLM怎样才能让K8s更加强大呢?Mohan提出了一个非常有想象力的问题。
 
他说:“我还没有看到太多这方面的情况,也许到之后的某一届KubeCon上,我们将开始看到更高的集成度。”
 
OpenAI无疑是Kubernetes的盟友,该公司正在使用Kubernete来启动和扩大实验规模。
 
作为当红的人工智能研究实验室,OpenAI需要深度学习的基础设施,使实验能够在云中或自己的数据中心中运行,并易于扩展。便携性、速度和成本是主要驱动因素。
 
Oracle在KubeCon的高级副总裁Sudha Raghavan问道,如果没有数据科学家和数据工程师思考如何配置它,以最有效地使用任何硬件GPU,Kubernetes将如何成为所有人工智能工作负载的默认选项?
 
Raghavan也在KubeCon的一个小组讨论会上谈到了这样一种设想,设想中,人们基于每个工作负载的工作变得更容易了,工程师可以配置开箱即用的模板,并理解这些是尚未出现的人工智能工作负载模式,并且有预定义的模板。
 
因此,任何想做实验的数据科学家都不必自己学习,而是可以了解云原生计算基金会在其生态系统中为人工智能和ML社区提供的内容。 
 
英特尔开放生态系统副总裁兼总经理Arun Gupta在一个小组讨论会上表示,云原生社区的责任是弥合这一差距。“必须跟客户共情,客户就是数据科学家。他说,一篇新的云原生人工智能论文解决了这些挑战。
 
云原生AI
 
微软首席产品经理拉克伦•埃文森(Lachlan Evenson)与古普塔(Gupta)在同一小组中表示,Kubernetes社区中的一个新角色还包括人工智能工程师,他们位于数据科学家和基础设施工程师或平台工程师之间。
 
Evenson在小组讨论中指出,人工智能工程师不仅需要了解人工智能世界的所有术语,还需要了解如何大规模使用这些分布式系统并构建这些新平台。
 


K8s承诺:可扩展、安全
 
Kubernetes的创始人将Kubernete设计成了无状态的,后来又构建了有状态的技术来与其分布式平台集成。

Evenson说:“这不仅限于这个社区,也直接造就了我们通过K8s社区在该平台上构建的可扩展性。”
 
“我们需要提供开源替代品和开源平台,这样那些希望开始投资并了解人工智能如何影响其业务的公司,就可以采用模型,而不必担心数据治理或安全问题,并开始在本地环境中对其进行修改和熟悉。”
 
参考链接:
https://thenewstack.io/kubernetes-and-ai-are-they-a-fit/

——好文推荐——

谷歌出手整顿大模型“健忘症”!反馈注意力机制帮你“更新”上下文,大模型无限记忆力时代将至
这款Linux发版发起AI禁令!生成代码质量堪忧!阿里也被大模型幻觉愚弄了!网友:人比生产力更重要!



继续滑动看下一个
51CTO技术栈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存