要點:
1、PagedAttention 注意力算法通過采用類似虛擬內(nèi)存和分頁技術(shù),可有效管理LLM推理中的關(guān)鍵值緩存內(nèi)存。
2、vLLM服務系統(tǒng)幾乎零浪費關(guān)鍵值緩存內(nèi)存,內(nèi)部和請求之間靈活共享緩存,大大提升吞吐量。
3、配備PagedAttention的vLLM相比HuggingFace Transformers提升了24倍吞吐量,無需改變模型架構(gòu),重新定義了LLM服務的最佳水準。
站長之家(ChinaZ.com)9月18日 消息:近年來,大語言模型在改變?nèi)藗兊纳詈吐殬I(yè)方面影響越來越大,因為它們實現(xiàn)了編程助手和通用聊天機器人等新應用。但是,這些應用的運行需要大量硬件加速器如GPU,操作成本非常高。針對此,研究人員提出了PagedAttention注意力算法和vLLM服務系統(tǒng),大大提升了LLM的推理吞吐量,降低了每次請求的成本。
PagedAttention將序列的關(guān)鍵值緩存分塊,彈性管理不連續(xù)的內(nèi)存空間,充分利用內(nèi)存,實現(xiàn)內(nèi)部和請求之間的緩存共享。配備PagedAttention的vLLM相比主流系統(tǒng),在不改模型架構(gòu)的前提下,提升了24倍吞吐量,達到了LLM服務的最佳水準。本研究為降低LLM在實際應用中的部署成本提供了重要途徑。
項目地址:https://github.com/vllm-project/vllm
論文地址:https://arxiv.org/abs/2309.06180
vLLM利用PagedAttention來管理注意力鍵和值。配備PagedAttention的vLLM比HuggingFace Transformers提供的吞吐量高出多達24倍,而無需對模型架構(gòu)進行任何更改,這重新定義了LLM服務的當前最先進技術(shù)水平。
與傳統(tǒng)的注意力算法不同,它允許在非連續(xù)內(nèi)存空間中持續(xù)存儲鍵和值。PagedAttention將每個序列的KV緩存分為塊,每個塊都包含了一定數(shù)量的令牌的鍵和值。這些塊在注意力計算期間由PagedAttention內(nèi)核高效識別。由于這些塊不一定需要是連續(xù)的,因此可以靈活管理鍵和值。
內(nèi)存泄漏只會發(fā)生在PagedAttention中序列的最后一個塊中。在實際使用中,這導致了有效的內(nèi)存利用率,僅有4%的微小浪費。這種內(nèi)存效率的提高使GPU的利用率更高。
此外,PagedAttention還具有有效的內(nèi)存共享的另一個關(guān)鍵優(yōu)勢。PagedAttention的內(nèi)存共享功能大大減少了用于并行采樣和波束搜索等采樣技術(shù)所需的額外內(nèi)存。這可以使采樣技術(shù)的速度提高多達2.2倍,同時將內(nèi)存利用率降低多達55%。這種改進使得這些采樣技術(shù)對大型語言模型(LLM)服務變得更加有用和有效。
研究人員還研究了該系統(tǒng)的準確性。他們發(fā)現(xiàn),與FasterTransformer和Orca等尖端系統(tǒng)相比,vLLM以與之相同的延遲增加了2-4倍的知名LLM的吞吐量。更大的模型、更復雜的解碼算法和更長的序列會導致更明顯的改進。
(舉報)