站長之家(ChinaZ.com) 9月19日消息:用于生成式 AI 工具的大型語言模型通常會(huì)極大地增加對(duì)更多處理器的需求,這些處理器通常價(jià)格昂貴且供應(yīng)受限。即使是云資源也不能總是解決企業(yè)試圖擴(kuò)展規(guī)模并利用最新的生成式 AI 技術(shù)所面臨的問題。
圖片來自NVIDIA
「GPU 芯片的擴(kuò)展遲早將無法跟上模型大小的增長?!笹artner Research 副總裁兼杰出分析師 Avivah Litan 在接受 Computerworld 采訪時(shí)表示。因此,「繼續(xù)制造越來越大的模型不是可行選項(xiàng)。」
市場上最大的 GPU 制造商英偉達(dá)顯然看到了開源軟件提高 AI 開發(fā)和效率方面價(jià)值。周一,Anyscale 宣布將英偉達(dá) AI 引入 Ray 開源和 Anyscale 平臺(tái)中。英偉達(dá) AI 還將在 Anyscale Endpoints 中運(yùn)行,該服務(wù)可幫助應(yīng)用程序開發(fā)人員使用流行的開源模型(如 Code Llama、Falcon、Llama 2、SDXL 等)嵌入 LLMs 到其應(yīng)用程序中。
最近宣布的 Nvidia TensorRT-LLM 將支持 Anyscale 以及 Nvidia AI Enterprise 軟件平臺(tái)。它可用于自動(dòng)擴(kuò)展推理以在多個(gè) GPU 上并行運(yùn)行模型,從而在運(yùn)行 Nvidia H100 Tensore Core GPU 時(shí)提供 8 倍的性能提升,英偉達(dá)在博客中表示。
此外,英偉達(dá) Triton Interence Server 軟件支持在 GPU、CPU 和其他處理器上跨云、數(shù)據(jù)中心、邊緣和嵌入式設(shè)備進(jìn)行推理。當(dāng)與 Ray 集成時(shí),開發(fā)人員可以提高來自各種框架的 AI 模型(包括 TensorRT、TensorFlow、PyTorch、ONNX、OpenVINO 等)的效率。
Anyscale 聲稱其 Ray 是全球增長最快的可擴(kuò)展計(jì)算統(tǒng)一框架。英偉達(dá) NeMo 是一個(gè)面向云原生的框架,可以被 Ray 開發(fā)人員用于為客戶提供 LLMs。
「我們與英偉達(dá)的合作將為 Anyscale 的產(chǎn)品組合帶來更多性能和效率,以便開發(fā)人員隨處創(chuàng)建具有前所未有速度和效率的 LLMs 和生成 AI 應(yīng)用程序?!笰nyscale 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Robert Nishihara 在一份聲明中表示。
(舉報(bào))