當前位置:首頁 >  科技 >  IT業(yè)界 >  正文

GPUStack正式發(fā)布: 為大模型而生的開源GPU集群管理器

 2024-07-29 09:10  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

7月26日,數(shù)澈軟件Seal(以下簡稱“Seal”)宣布正式發(fā)布并開源最新產(chǎn)品 GPUStack,GPUStack 是一個用于運行 LLM(大型語言模型)的開源 GPU 集群管理器。

盡管如今大語言模型作為公共的云上服務(wù)已經(jīng)被廣泛推廣并在公有云上變得更加易于使用,但對企業(yè)來說,部署托管自己私有的 LLM 供企業(yè)和組織在私有環(huán)境使用仍然非常復(fù)雜。

首先,企業(yè)需要安裝和管理復(fù)雜的集群軟件,如 Kubernetes,然后還需要研究清楚如何在上層安裝和管理 AI 相關(guān)的工具棧。而目前流行的能在本地環(huán)境運行 LLM 的方法,如 LMStudio 和 LocalAI,卻大都只支持在單臺機器上運行,而沒有提供多節(jié)點復(fù)雜集群環(huán)境的支持能力。

Seal 聯(lián)合創(chuàng)始人及 CTO 梁勝博士介紹道,“GPUStack 支持基于任何品牌的異構(gòu) GPU 構(gòu)建統(tǒng)一管理的算力集群,無論目標 GPU 運行在 Apple Mac、Windows PC 還是 Linux 服務(wù)器上, GPUStack 都能統(tǒng)一納管并形成統(tǒng)一算力集群。GPUStack 管理員可以從諸如 Hugging Face 等流行的大語言模型倉庫中輕松部署任意 LLM。進而,開發(fā)人員則可以像訪問 OpenAI 或 Microsoft Azure 等供應(yīng)商提供的公有 LLM 服務(wù)的 API 一樣,非常簡便地調(diào)用 OpenAI 兼容的 API 訪問部署就緒的私有 LLM。”

幫助企業(yè)簡單快速地開啟 LLM 創(chuàng)新

當前,企業(yè)如果想要在 GPU 集群上托管大模型,必須要做大量的工作來集成復(fù)雜的技術(shù)棧。通過使用 GPUStack,企業(yè)不再需要擔心如何管理 GPU 集群、推理引擎和推理加速、租戶和配額管理、使用和計量、性能度量、統(tǒng)一認證授權(quán)和訪問控制,以及儀表板。

如下圖所示,GPUStack 是一個構(gòu)建企業(yè)私有的大模型即服務(wù)(LLMaaS)的完整平臺,擁有構(gòu)建大模型即服務(wù)所需的各項功能。管理員可以將模型從 Hugging Face 等模型倉庫部署到 GPUStack 中,然后開發(fā)人員可以連接到 GPUStack 提供的私有大模型 API,在他們的應(yīng)用中集成和使用私有大模型服務(wù)。

“隨著大語言模型能力的逐漸提高,企業(yè)和組織一方面對快速進入 AI 時代充滿了信心并滿懷期待,希望大語言模型能盡快為自己的企業(yè)和組織帶來生產(chǎn)效能的提高,而另一方面,對于能否有效地把如火如荼的大語言模型技術(shù)進一步與實際業(yè)務(wù)進行有機結(jié)合,是否能因此產(chǎn)生相應(yīng)的效益,企業(yè)及團隊又同時充滿了疑問。我們希望通過簡單易用的 GPUStack 平臺,部署和運行各種開源大語言模型,提供 OpenAI 兼容的 API 接口,使得開發(fā)人員簡單方便地訪問任何的 LLM。” Seal 聯(lián)合創(chuàng)始人及 CEO 秦小康介紹道,“最重要的是,我們支持 Nvidia,Intel,AMD 及眾多品牌的 GPU,在支持異構(gòu) GPU 集群的同時能為企業(yè)節(jié)省更多成本。幫助企業(yè)簡單快速地開啟 LLM 創(chuàng)新是 GPUStack 團隊的初心和使命。”

整合GPU資源運行大模型 組建GPU集群整合資源

GPUStack 可以聚合集群內(nèi)的所有 GPU 資源。它旨在支持所有的 GPU 廠商,包括英偉達,蘋果,AMD,英特爾,高通,華為等。GPUStack 兼容運行 MacOS、Windows 和 Linux 操作系統(tǒng)的筆記本電腦、臺式機、工作站和服務(wù)器。

模型部署和推理

GPUStack 為在不同 GPU 上部署不同大模型選擇最佳的推理引擎,支持的首個推理引擎是 LLaMA.cpp,其他推理引擎(如vLLM)的支持也在路線圖中。

在資源充足的情況下,GPUStack 默認將模型全部卸載到 GPU,以實現(xiàn)最佳性能的推理加速。如果 GPU 資源相對不足,GPUStack 會同時使用 GPU 和 CPU 進行混合推理,以最大限度地利用資源。而在沒有 GPU 資源的場景下,GPUStack 也支持純 CPU 推理。這樣的設(shè)計使 GPUStack 能夠更廣泛地適配各種邊緣或資源有限的環(huán)境。

快速與現(xiàn)有應(yīng)用集成

GPUStack 提供了與 OpenAI 兼容的 API,并提供了大模型試驗場。開發(fā)人員可以調(diào)試大模型并將其快速集成到自己的應(yīng)用中。此外,開發(fā)人員還可以通過觀測指標來了解應(yīng)用對各種大模型的使用情況。這也有助于管理員有效地管理 GPU 資源利用。

GPU 和 LLM 的觀測指標

GPUStack 提供全面的性能、利用率和狀態(tài)監(jiān)控指標。對于 GPU,管理員可以使用 GPUStack 實時監(jiān)控資源利用率和系統(tǒng)狀態(tài)。對于 LLM,相關(guān)指標則可以幫助開發(fā)人員評估模型的性能并優(yōu)化應(yīng)用。

認證和訪問控制

GPUStack 為企業(yè)提供身份驗證和RBAC(Role-based Access Control)功能。這保證了只有授權(quán)的管理員可以部署和管理大模型,只有授權(quán)的開發(fā)人員可以使用大模型,應(yīng)用也可以通過統(tǒng)一的 API 認證授權(quán)訪問各種大模型。

加入社區(qū),參與開源共創(chuàng)

GPUStack 項目正在快速迭代,計劃引入對多模態(tài)模型的支持,更多的 GPU 廠商支持,以及更多的推理引擎支持。我們十分歡迎您一起參與開源項目的貢獻,也歡迎在我們的 GitHub 倉庫上點亮 Star 關(guān)注我們的最新動態(tài)。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)文章

熱門排行

信息推薦