无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > SwiftInfer最新資訊  > 正文

    Colossal-AI團(tuán)隊開源了SwiftInfer 大模型無限流式輸入推理飆升46%

    2024-01-08 14:04 · 稿源:站長之家

    要點:

    1. 國產(chǎn)開源項目SwiftInfer實現(xiàn)了無限流式輸入推理,提升46%推理性能;

    2. 圍繞流式超多輪對話,文章詳細(xì)解釋了StreamingLLM的attention sink注意力機制,窗口注意力優(yōu)化、KV Cache機制優(yōu)化等方法的原理和優(yōu)勢;

    3. 團(tuán)隊成功將StreamingLLM方法與TensorRT推理優(yōu)化結(jié)合,帶來46%的推理吞吐速度提升。

    站長之家(ChinaZ.com)1月8日 消息:近日,國產(chǎn)開源項目SwiftInfer實現(xiàn)了無限流式輸入推理,成功提升了大模型推理性能46%。這是一個重大突破,可以為多輪對話場景提供高效可靠的落地方案。

    它采用了attention sink注意力機制、窗口注意力優(yōu)化、KV Cache機制優(yōu)化等方法,SwiftInfer的推理性能得到了極大提升,為大模型多輪對話推理提供低成本、低延遲、高吞吐的最佳實踐。

    image.png

    項目地址:https://top.aibase.com/tool/swiftinfer

    在這一方法中,使用了TensorRT的API,獲得了接近于PyTorch API的模型編寫體驗。這對于進(jìn)一步提升推理性能起到了重要作用。

    SwiftInfer通過了解了注意力模塊中Softmax的輸出,發(fā)現(xiàn)了attention sink的現(xiàn)象,使得在多輪對話的情景下,生成效果更加穩(wěn)定。

    它使用了基于attention sink的注意力機制,無論是在計算復(fù)雜度還是生成效果上都表現(xiàn)優(yōu)異。經(jīng)過SwiftInfer的優(yōu)化,推理性能提升非常明顯。

    Colossal-AI團(tuán)隊發(fā)布的SwiftInfer在推理性能上的提升很明顯,為大模型多輪對話推理提供了高效可靠的落地方案。

    Colossal-AI目前已獲得GitHub星數(shù)三萬五千多顆,位列全球TOP400,細(xì)分賽道排名世界第一,可通過高效多維并行、異構(gòu)內(nèi)存等,降低AI大模型訓(xùn)練/微調(diào)/推理的開發(fā)與應(yīng)用成本,提升模型任務(wù)表現(xiàn),降低GPU需求。

    舉報

    • 相關(guān)推薦
    • AI日報:小米首個推理大模型開源Xiaomi MiMo;快手上線AI筆記工具“喵記多”;騰訊拆分AI團(tuán)隊

      本文匯總了AI領(lǐng)域最新動態(tài):1)小米開源70億參數(shù)大模型Xiaomi MiMo,在數(shù)學(xué)推理和代碼競賽中超越OpenAI和阿里模型;2)快手推出AI筆記工具"喵記多",簡化筆記管理;3)Luma AI發(fā)布電影級鏡頭控制API,降低視頻生成門檻;4)騰訊重組AI團(tuán)隊,加大語言模型研發(fā)投入;5)Anthropic為Claude引入新語音"Glassy";6)谷歌NotebookLM新增50+語言音頻概述功能;7)xAI將發(fā)布Grok3.5模型;8)Meta推出獨立AI助手應(yīng)用挑戰(zhàn)ChatGPT;9)OpenAI緊急修復(fù)GPT-4o"諂媚"問題;10)Mac本地AI助手Simular升級隱私保護(hù);11)CameraBench項目幫助AI理解鏡頭運動;12)谷歌推出個性化語言學(xué)習(xí)AI工具。

    • 歷史重演:任天堂無限期推遲Switch2在中國發(fā)售

      任天堂NintendoSwitch2將于6月5日全球發(fā)售,然據(jù)Nikkei報道,任天堂決定推遲Switch2在中國的發(fā)售計劃。這與初代Switch此前在中國的情況相似,任天堂Switch于2019年才進(jìn)入中國,比全球上市晚了兩年。騰訊在去年11月宣布,將于2026年3月31日逐步停止國行NintendoSwitch的e商店及其他網(wǎng)絡(luò)相關(guān)服務(wù),這進(jìn)一步增加了任天堂在中國市場的不確定性。

    • ?海信重磅發(fā)布“云信·通途交通大模型”: 以AI之力,解鎖智能交通無限可能

      4 月 23 日, 第十五屆中國國際道路交通安全產(chǎn)品博覽會在武漢國際博覽中心盛大啟幕。海信網(wǎng)絡(luò)科技公司重磅發(fā)布“海信云信·通途交通大模型”, 標(biāo)志著其在智慧交通領(lǐng)域的AI技術(shù)創(chuàng)新應(yīng)用邁入了全新階段。 該交通大模型是海信深度融合二十余年交通行業(yè)經(jīng)驗與前沿AI技術(shù)的產(chǎn)物?;诤A拷煌▽I(yè)數(shù)據(jù)與多模態(tài)感知能力,構(gòu)建“問答-分析-決策”一體化系統(tǒng),通過AI指揮官

    • Swisse抗糖丸從內(nèi)而外煥活肌膚 解鎖健康控糖新方式

      隨著健康意識提升,Swisse推出抗糖丸產(chǎn)品,采用科學(xué)配方幫助控糖。核心成分α-硫辛酸能抑制糖化反應(yīng),減少AGEs生成,從源頭保護(hù)肌膚彈性。產(chǎn)品還添加肉桂枝提取物和鉻元素,協(xié)同調(diào)節(jié)血糖平衡。創(chuàng)新性融入銅與維C組合,促進(jìn)膠原蛋白生成,修復(fù)受損肌膚結(jié)構(gòu)。長期使用可改善膚色不均、減少細(xì)紋,提升肌膚彈性。該產(chǎn)品上市后廣受好評,引領(lǐng)健康美麗新風(fēng)尚。作為健康生活方式輔助選擇,Swisse將持續(xù)研發(fā)優(yōu)質(zhì)產(chǎn)品滿足多元健康需求。

    • 提升大模型自動修Bug能力 豆包正式開源首個多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動豆包大模型團(tuán)隊宣布,正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評測基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù),Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景,也更能反映當(dāng)前模型在自動化軟件工程”方向上的實際能力邊界。

    • AI日報:Vidu Q1正式上線;MCP SDK 正式支持流式 HTTP;抖音一季度封禁AI黑產(chǎn)賬號260萬個

      本文介紹了AI領(lǐng)域多項重要進(jìn)展:1)MCP SDK支持流式HTTP協(xié)議,提升開發(fā)效率;2)Vidu Q1視頻生成模型上線,提供專業(yè)級視覺體驗;3)馬斯克計劃籌資250億美元開發(fā)Colossus 2超級計算機;4)Sand AI開源MAGI-1視頻生成模型;5)電商AI助手Add To Cart AI優(yōu)化購物體驗;6)Anthropic發(fā)布Claude Code編程指南;7)真我推出支持32種語言的AI翻譯耳機;8)2025年AI視頻企業(yè)TOP20榜單發(fā)布;9)清華GLM大模型免費開放;10)AI面試作弊工具引爭議;11)抖音AI治理封禁260萬違規(guī)賬號;12)全球首款具備嗅覺的機器人問世。這些創(chuàng)新展示了AI技術(shù)在視頻生成、編程輔助、電商、翻譯等領(lǐng)域的快速發(fā)展與應(yīng)用潛力。

    • 任天堂Switch 2發(fā)布:幾乎沒人要的microSD Express卡在日本銷售一空

      任天堂Switch2支持存儲容量擴展,但僅支持microSDExpress規(guī)格的存儲卡,這使得microSDExpress卡在日本市場迅速售罄。SDExpress存儲卡標(biāo)準(zhǔn)于2018年首次亮相,但由于大多數(shù)設(shè)備不符合其帶寬規(guī)格,這種存儲卡幾乎無人問津。三星和西部數(shù)據(jù)去年確認(rèn)計劃推出microSDExpress卡,但尚未大規(guī)模上市,有消息稱,任天堂可能是三星的定制”設(shè)備合作伙伴。

    • 日本首例!男子改裝并銷售Switch被判刑:主板焊改裝芯片

      快科技4月15日消息,據(jù)報道,日本高知地方法院對一起改裝并銷售任天堂Switch游戲機的案件作出判決。58歲的運輸業(yè)商人Fumihiro Otobe被認(rèn)定有罪,被判處兩年有期徒刑,緩刑三年,并處罰金50萬日元(約合人民幣25532元)。法院查明,被告通過焊接改裝芯片至二手Switch主板,捆綁27款盜版游戲后以每臺約195美元(人民幣1426元)的價格在線銷售,但具體銷量未公開。本案的特殊性在

    • 受關(guān)稅影響 任天堂推遲Switch 2美國預(yù)購日期

      任天堂日前推遲Switch2在美國的預(yù)購日期,將責(zé)任歸咎于特朗普關(guān)稅的影響和市場變化的影響。任天堂向IGN發(fā)布聲明,稱Switch22025年6月5日的發(fā)售日期不變,預(yù)購日期將在晚些時候更新。除了主機價格外,售價80美元的全新《馬里奧賽車:世界》游戲,也表明關(guān)稅影響已經(jīng)擴散到整個生態(tài)系統(tǒng),不僅影響硬件成本,也推高了軟件定價。

    • 聯(lián)發(fā)科天璣9400+拿下最強AI手機芯片:端側(cè)推理準(zhǔn)確率反超云端大模型

      今日,聯(lián)發(fā)科舉辦天璣開發(fā)者大會2025,正式發(fā)布新一代旗艦芯片天璣9400。天璣9400定位旗艦5G智能體AI芯片,綜合AI跑分是天璣9400的1.25倍,支持最高8B規(guī)模的DeepSeek-R1端測部署,推理準(zhǔn)確率反超云端大模型。天璣9400采用臺積電第二代3nm工藝,CPU架構(gòu)延續(xù)創(chuàng)新全大核設(shè)計,包含1顆主頻3.7GHz的Cortex-X925超大核、3顆3.3GHz的Cortex-X4大核與4顆2.4GHz的Cortex-A720大核。