无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 傳媒 > 關(guān)鍵詞  > 人工智能最新資訊  > 正文

    曠視科技天元 MegEngine 開源 CUDA INT4 量化源碼實現(xiàn)

    2024-02-29 11:41 · 稿源: 站長之家用戶

    當下人工智能技術(shù)正加速發(fā)展,滲透到云、邊、端和應用的各個層面,與海量IoT設(shè)備進行深度融合,不斷拓展應用場景。然而在AIoT場景中,嵌入式設(shè)備往往算力有限,難以承載龐大的AI模型。如何在資源有限的終端場景實現(xiàn) AI 模型的有效部署,是加速AI落地的重要問題。AI 工程師們研發(fā)了各種試圖縮小模型大小并保持性能的辦法,例如量化和蒸餾。其中,模型量化是將浮點計算轉(zhuǎn)成低比特定點計算的一種模型壓縮技術(shù),可以有效減少模型算力消耗并提升計算速度,當前已經(jīng)在工業(yè)界發(fā)展比較成熟。

    目前相對成熟的模型量化方案是 INT8量化。以ResNet-50模型為例,原本需要用 float32表示的權(quán)重,量化后只需要使用 INT8表示,通過這樣的處理,模型體積可以減少到原來的1/2,再加上 TensorCore 的加持,還會有近8倍的網(wǎng)絡(luò)加速。而如果更進一步,將模型用INT4表示,可以帶來更多的速度提升。

    為了推動低比特量化技術(shù)的發(fā)展,曠視天元MegEngine 團隊開源了 INT4的源碼實現(xiàn),這也讓MegEngine成為頭個開源 CUDA INT4源碼實現(xiàn)的深度學習框架。MegEngine采用均勻線性量化方案,實現(xiàn)了非對稱量化和對稱量化兩種INT4的數(shù)據(jù)類型,同時通過算子融合優(yōu)化、kernel優(yōu)化等方法,使得量化后的模型可以依然保持較高的精度以及良好的運行速度。同樣以ResNet-50為例,INT4相比 INT8有1.3倍的加速。

    具體代碼實現(xiàn)可以查看文末“閱讀原文”

    隨著 CUDA INT4的開源,目前MegEngine 框架不僅支持浮點數(shù) FP32和 FP16,而且支持 INT8和 INT4的對稱和非對稱量化推理。此外,MegEngine框架開發(fā)了諸多工具,幫助用戶提升模型推理性能、簡化部署流程,包括自動代碼裁剪功能,支持用戶全自動的針對算子進行代碼裁剪;TracedModule 方案以及 MegEngine Lite,基于曠視海量業(yè)務(wù)打磨出的模型推理理想實踐,化解模型轉(zhuǎn)換部署難題;流程管理工具FastRun, 可以為每個計算自動選擇最快的算法,從而保證整個網(wǎng)絡(luò)的運行時間最短,讓 MegEngine 用戶運行不同的網(wǎng)絡(luò)時都能收獲較好性能。

    自開源以來,MegEngine不斷優(yōu)化,已先后發(fā)布29個版本,推出一系列實用功能,降低AI算法生產(chǎn)門檻,助力AI應用快速落地。未來,曠視將繼續(xù)支持和擁抱開源,并將自身在開源領(lǐng)域積累的技術(shù)和經(jīng)驗與業(yè)界共享,推動人工智能技術(shù)創(chuàng)新和行業(yè)發(fā)展。

    推廣

    特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長傳媒平臺用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù),對本頁面內(nèi)容所引致的錯誤、不確或遺漏,概不負任何法律責任,相關(guān)信息僅供參考。站長之家將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。任何單位或個人認為本頁面內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,可及時向站長之家提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明(點擊查看反饋聯(lián)系地址)。本網(wǎng)站在收到上述法律文件后,將會依法依規(guī)核實信息,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    • 相關(guān)推薦
    • “谷歌版MCP”來了,開源A2A,不同廠商Agent也能協(xié)作

      “谷歌版MCP”來了!谷歌推出A2A協(xié)議,即Agent2Agent,能讓AIAgent在不同生態(tài)系統(tǒng)間安全協(xié)作無需考慮框架或供應商。不同平臺構(gòu)建的AIAgent之間可以進行通信、發(fā)現(xiàn)彼此的能力、協(xié)商任務(wù)并開展協(xié)作,企業(yè)可通過專業(yè)Agent團隊處理復雜工作流。從各大廠最近動作來看,蕪湖,不愧是Agent元年。

    • Aloudata Agent公測開啟:NoETL+大模型=好數(shù)據(jù)驅(qū)動真智能,讓“萬數(shù)皆可問”

      4月22日,Aloudata大應科技推出自研的Aloudata Agent,這是一款基于NoETL明細語義層的分析決策智能體,旨在通過自然語言實現(xiàn)數(shù)據(jù)查詢、歸因診斷、報告生成等功能。該產(chǎn)品解決了企業(yè)數(shù)據(jù)分析面臨的五大挑戰(zhàn):語義鴻溝、口徑一致性、場景覆蓋度、性能優(yōu)化和數(shù)據(jù)權(quán)限管控。Aloudata Agent采用NL2MQL2SQL技術(shù)路徑,通過指標語義層實現(xiàn)業(yè)務(wù)語言與數(shù)據(jù)語言的精準對齊,顯著提升查詢準?

    • 谷歌開源發(fā)布A2A協(xié)議 Agent2Agent智能體交互協(xié)議詳細介紹

      在GoogleCloudNext25大會上,谷歌宣布開源了首個標準智能體交互協(xié)議——Agent2AgentProtocol,這一舉措有望徹底改變智能體之間的交互方式,打破系統(tǒng)孤島,對智能體的能力、跨平臺協(xié)作以及執(zhí)行效率產(chǎn)生質(zhì)的飛躍。A2A協(xié)議是一種開放標準,旨在為智能體提供一種通用的交互方式,使它們能夠在不同的底層框架和供應商之間無縫協(xié)作。每個部分都有指定的內(nèi)容類型,這使得客戶端和遠程智能體能夠協(xié)商所需的正確格式,并且明確包括用戶界面能力的協(xié)商,比如iframe、視頻、網(wǎng)絡(luò)表單等,從根據(jù)用戶的需求和設(shè)備的能力,提供最佳的用戶體驗。

    • 谷歌A2A協(xié)議是什么? MCP 和 Agent2Agent 有什么區(qū)別?

      4月10日,在GoogleCloudNext大會上,谷歌宣布開源Agent2Agent協(xié)議,這一協(xié)議被業(yè)界視為智能體交互領(lǐng)域的“通用語言”,旨在突破跨平臺、多模態(tài)協(xié)作及安全保障等核心技術(shù)瓶頸,并聯(lián)合全球50余家科技企業(yè)共同構(gòu)建新一代智能生態(tài)。本文從技術(shù)實現(xiàn)與行業(yè)變革兩個維度,深度解析A2A協(xié)議的核心價值。這一協(xié)議的推出,標志著智能體協(xié)作模式從封閉系統(tǒng)向開放生態(tài)的范式轉(zhuǎn)變,為產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型注入新動能。

    • 剛剛,OpenAI開源PaperBench,重塑頂級AI Agent評測

      今天凌晨1點,OpenAI開源了一個全新的AIAgent評測基準——PaperBench。這個基準主要考核智能體的搜索、整合、執(zhí)行等能力,需要對2024年國際機器學習大會上頂尖論文的復現(xiàn),包括對論文內(nèi)容的理解、代碼編寫以及實驗執(zhí)行等方面的能力。目前智能體的能力還無法超越人類。

    • AI Agent大變天!谷歌開源A2A,一夜改變智能體交互

      谷歌在GoogleCloudNext25大會上,開源了首個標準智能體交互協(xié)議——Agent2AgentProtocol。A2A將徹底打破系統(tǒng)孤島,對智能體的能力、跨平臺、執(zhí)行效率產(chǎn)生質(zhì)的改變,支持Atlassian、Box、Cohere、Intuit、Langchain、MongoDB、PayPal、Salesforce、SAP、ServiceNow、UKG和Workday等主流企業(yè)應用平臺。通過A2A協(xié)議,MongoDB可以使其數(shù)據(jù)庫服務(wù)與智能Agent相結(jié)合,實現(xiàn)更高效的數(shù)據(jù)管理和自動化數(shù)據(jù)處理。

    • 剛剛,OpenAI開源BrowseComp,重塑Agent瀏覽器評測

      今天凌晨2點,OpenAI開源了專門用于智能體瀏覽器功能的測試基準——BrowseComp。這個測試基準非常有難度,連OpenAI自己的GPT-4o、GPT-4.5準確率只有0.6%和0.9%幾乎為0,即便使用帶瀏覽器功能的GPT-4o也只有1.9%。通過使用更多的計算資源,模型可以嘗試更多的搜索路徑,從提高找到正確答案的概率。

    • 自獵智聘招聘求職Agent發(fā)布,全新的智能化、自主化、輕量化交互體驗

      4月28日,自獵科技發(fā)布"自獵智聘"AI招聘求職應用。該平臺基于大模型和深度學習算法,打造L4級全流程自動化智能招聘系統(tǒng),覆蓋企業(yè)和求職者兩端。企業(yè)端可智能執(zhí)行全流程招聘,降本增效;求職端提供公平客觀的求職體驗。系統(tǒng)具備高精度人崗匹配、AI數(shù)字人智能面試、一鍵背景調(diào)查等功能,實現(xiàn)從篩選到入職的全流程自動化。自獵智聘突破傳統(tǒng)招聘工具局限,通過多模態(tài)認知架構(gòu)構(gòu)建動態(tài)企業(yè)畫像,實現(xiàn)從"功能模塊化堆砌"到"目標牽引式自主決策"的范式躍遷。該產(chǎn)品標志著招聘領(lǐng)域正式進入"自主決策"的智能體時代。

    • 對標OpenAI,谷歌開源Agent SDK,支持MCP、A2A、5000星

      谷歌在GoogleCloudNext25大會上,開源了首個Agent開發(fā)套件—ADK。這也是OpenAI之后第二家大廠發(fā)布的標準化智能體SDK。谷歌剛開源ADK幾天在Github已經(jīng)超過5000顆星,非常受開發(fā)者的歡迎。

    • AI日報:阿里新模型Qwen3即將來襲;GitHub開源MCP服務(wù)器;Runway發(fā)布Gen-4 Turbo

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、Qwen3即將來襲:阿里云新模型相關(guān)支持已正式合并至vLLM代碼庫阿里云的Qwen3模型即將發(fā)布,標志著其在AI領(lǐng)域的又一重要進展。新推出的AI聽歌報告能夠精準識別用戶音樂偏好,場景