无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > vLLM最新資訊  > 正文

    開源機器學習庫vLLM 提升大語言模型推理速度

    2023-09-18 11:25 · 稿源:站長之家

    要點:

    1、PagedAttention 注意力算法通過采用類似虛擬內(nèi)存和分頁技術(shù),可有效管理LLM推理中的關(guān)鍵值緩存內(nèi)存。

    2、vLLM服務系統(tǒng)幾乎零浪費關(guān)鍵值緩存內(nèi)存,內(nèi)部和請求之間靈活共享緩存,大大提升吞吐量。

    3、配備PagedAttention的vLLM相比HuggingFace Transformers提升了24倍吞吐量,無需改變模型架構(gòu),重新定義了LLM服務的最佳水準。

    站長之家(ChinaZ.com)9月18日 消息:近年來,大語言模型在改變?nèi)藗兊纳詈吐殬I(yè)方面影響越來越大,因為它們實現(xiàn)了編程助手和通用聊天機器人等新應用。但是,這些應用的運行需要大量硬件加速器如GPU,操作成本非常高。針對此,研究人員提出了PagedAttention注意力算法和vLLM服務系統(tǒng),大大提升了LLM的推理吞吐量,降低了每次請求的成本。

    PagedAttention將序列的關(guān)鍵值緩存分塊,彈性管理不連續(xù)的內(nèi)存空間,充分利用內(nèi)存,實現(xiàn)內(nèi)部和請求之間的緩存共享。配備PagedAttention的vLLM相比主流系統(tǒng),在不改模型架構(gòu)的前提下,提升了24倍吞吐量,達到了LLM服務的最佳水準。本研究為降低LLM在實際應用中的部署成本提供了重要途徑。

    image.png

    項目地址:https://github.com/vllm-project/vllm

    論文地址:https://arxiv.org/abs/2309.06180

    vLLM利用PagedAttention來管理注意力鍵和值。配備PagedAttention的vLLM比HuggingFace Transformers提供的吞吐量高出多達24倍,而無需對模型架構(gòu)進行任何更改,這重新定義了LLM服務的當前最先進技術(shù)水平。

    與傳統(tǒng)的注意力算法不同,它允許在非連續(xù)內(nèi)存空間中持續(xù)存儲鍵和值。PagedAttention將每個序列的KV緩存分為塊,每個塊都包含了一定數(shù)量的令牌的鍵和值。這些塊在注意力計算期間由PagedAttention內(nèi)核高效識別。由于這些塊不一定需要是連續(xù)的,因此可以靈活管理鍵和值。

    內(nèi)存泄漏只會發(fā)生在PagedAttention中序列的最后一個塊中。在實際使用中,這導致了有效的內(nèi)存利用率,僅有4%的微小浪費。這種內(nèi)存效率的提高使GPU的利用率更高。

    此外,PagedAttention還具有有效的內(nèi)存共享的另一個關(guān)鍵優(yōu)勢。PagedAttention的內(nèi)存共享功能大大減少了用于并行采樣和波束搜索等采樣技術(shù)所需的額外內(nèi)存。這可以使采樣技術(shù)的速度提高多達2.2倍,同時將內(nèi)存利用率降低多達55%。這種改進使得這些采樣技術(shù)對大型語言模型(LLM)服務變得更加有用和有效。

    研究人員還研究了該系統(tǒng)的準確性。他們發(fā)現(xiàn),與FasterTransformer和Orca等尖端系統(tǒng)相比,vLLM以與之相同的延遲增加了2-4倍的知名LLM的吞吐量。更大的模型、更復雜的解碼算法和更長的序列會導致更明顯的改進。

    舉報

    • 相關(guān)推薦
    • 時空壺接入大語言模型,跨語言溝通已成翻譯的藝術(shù)

      在當今全球化浪潮中,跨語言溝通的需求如潮水般洶涌。從商務領(lǐng)域的跨國談判,到文化交流中的思想碰撞,高效、精準的語言翻譯成為關(guān)鍵橋梁。隨著技術(shù)的不斷發(fā)展與迭代,時空壺有望持續(xù)引領(lǐng)行業(yè)變革,推動全球交流合作邁向新的高度,真正實現(xiàn)跨越語言障礙,讓世界溝通無阻。

    • 提升模型自動修Bug能力 豆包正式開源首個多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動豆包大模型團隊宣布,正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評測基準。相比于以往聚焦Python的單語言任務,Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景,也更能反映當前模型在自動化軟件工程”方向上的實際能力邊界。

    • 不要思考過程,推理模型能力能夠更強

      UC伯克利和艾倫實驗室的最新研究表明,推理模型無需依賴冗長的思考過程也能有效工作。研究人員提出的"無思考(NoThinking)"方法通過簡單提示直接生成解決方案,跳過了傳統(tǒng)推理模型中的顯性思考步驟。實驗證明,在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下,NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式,能減少token使用量并提高推理速度。該方法在數(shù)學問題解決、編程和形式定理證明等任務中表現(xiàn)優(yōu)異,尤其在資源受限時優(yōu)勢更明顯。研究還發(fā)現(xiàn),結(jié)合并行計算擴展后,NoThinking能進一步提升性能,在保持準確性的同時顯著降低延遲和計算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細思考過程"的傳統(tǒng)認知。

    • 國產(chǎn)六大推理模型激戰(zhàn)OpenAI?

      2025年春節(jié)前夕,DeepSeek-R1模型發(fā)布,標志著中國AI進入推理模型新時代。文章梳理了國產(chǎn)大模型發(fā)展歷程:從2022年ChatGPT引發(fā)國內(nèi)追趕OpenAI熱潮,到2023年"百模大戰(zhàn)",再到2024年"AI六小虎"格局形成。重點分析了六大國產(chǎn)推理模型(DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊)的技術(shù)特點與市場表現(xiàn),指出國產(chǎn)模型在性能上已接近GPT-4水平。特別強調(diào)科大訊飛星火X1憑借全國產(chǎn)化技術(shù)路線獲得政企青睞,以及DeepSeek-R1以560萬美元超低成本實現(xiàn)高性能的突破。文章還探討了英偉達芯片斷供危機下,國產(chǎn)全棧技術(shù)路徑的重要性,認為自主可控將成為對抗國際不確定性的關(guān)鍵。最后指出,隨著推理模型成為競爭焦點,國產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

    • 苦等一年 Meta終于放大招 正式發(fā)布開源大模型Llama 4

      美國科技巨擘Meta重磅推出其迄今最為強大的開源AI模型Llama4,恰逢Llama3上市一周年之際。Llama4系列采用了先進的混合專家架構(gòu),這一架構(gòu)在模型訓練及用戶查詢回答過程中展現(xiàn)出更高效率,通過將模型劃分為多個專注于特定任務的專家”子模型,實現(xiàn)精準高效的處理。Meta首席執(zhí)行官扎克伯格表示:他們的目標是建立世界領(lǐng)先的人工智能,將其開源,并使其普遍可用,以便世界上每個人都能受益。

    • Llama 4大模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

      被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時間,口碑急轉(zhuǎn)直下,被質(zhì)疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。大模型評測平臺LMArena親自下場發(fā)文,打臉Meta提供給平臺的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺,恐將在AI競賽中進一步失去開發(fā)者支持。

    • AI日報:小米首個推理大模型開源Xiaomi MiMo;快手上線AI筆記工具“喵記多”;騰訊拆分AI團隊

      本文匯總了AI領(lǐng)域最新動態(tài):1)小米開源70億參數(shù)大模型Xiaomi MiMo,在數(shù)學推理和代碼競賽中超越OpenAI和阿里模型;2)快手推出AI筆記工具"喵記多",簡化筆記管理;3)Luma AI發(fā)布電影級鏡頭控制API,降低視頻生成門檻;4)騰訊重組AI團隊,加大語言模型研發(fā)投入;5)Anthropic為Claude引入新語音"Glassy";6)谷歌NotebookLM新增50+語言音頻概述功能;7)xAI將發(fā)布Grok3.5模型;8)Meta推出獨立AI助手應用挑戰(zhàn)ChatGPT;9)OpenAI緊急修復GPT-4o"諂媚"問題;10)Mac本地AI助手Simular升級隱私保護;11)CameraBench項目幫助AI理解鏡頭運動;12)谷歌推出個性化語言學習AI工具。

    • 中國智力持續(xù)發(fā)力,智象未來開源模型再獲國際認可

      國內(nèi)AI企業(yè)智象未來研發(fā)的開源圖像生成模型HiDream-I1近日取得重要突破:該模型憑借17B參數(shù)規(guī)模,在圖像真實感、細節(jié)處理及指令響應能力上超越行業(yè)標桿,多項評測指標超過GPT-4o與Flux1.1。繼登頂AI基準測試平臺Artificial Analysis、獲Hugging Face收錄后,該模型正式被谷歌技術(shù)生態(tài)體系收錄,成為首個登頂該平臺榜首的中國自研開源模型。其24小時內(nèi)登頂?shù)募o錄,被視為中國AI技術(shù)全球競爭力的重要里程碑。谷歌的收錄將推動HiDream-I1觸達全球開發(fā)者,助力開源生態(tài)共建進入新發(fā)展階段。

    • 阿里開源通義新模型:指定首尾圖片生成視頻

      快科技4月18日消息,據(jù)報道,阿里巴巴旗下通義萬相宣布開源其創(chuàng)新視頻生成技術(shù)首尾幀生視頻14B模型。這項突破性AI技術(shù)能夠根據(jù)用戶提供的起始和結(jié)束畫面,智能生成720p高清過渡視頻,為視頻創(chuàng)作帶來全新可能。該模型通過先進的深度學習算法,能夠精準理解輸入畫面的內(nèi)容、風格及主題特征。當用戶提供首尾兩幀圖像后,模型會智能分析畫面中的視覺元素,包括物體形?

    • 剛剛,商湯發(fā)布第六代大模型:6000億參數(shù)多模態(tài)MoE,中長視頻直接可推理

      現(xiàn)在的國產(chǎn)AI應用,一口氣看好幾分鐘的視頻,都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段,AI就搖身一變成“名偵探”做剖析:它會對整個視頻的內(nèi)容先做一個總結(jié),再按照秒級,對視頻片段做內(nèi)容上的推演。商湯科技聯(lián)合創(chuàng)始人楊帆認為:銀河通用合伙人、大模型負責人張直政表示:除此之外,上海交通大學副教授閆維新對這個問題的看法是:總言之,商湯作為國?