无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > AIM最新資訊  > 正文

    蘋果AIM自回歸視覺模型驗證性能與模型規(guī)模有關(guān)

    2024-01-18 17:01 · 稿源:站長之家

    要點:

    1. 隨著容量或預(yù)訓(xùn)練數(shù)據(jù)量的增加,模型性能不斷提升。

    2. 論文證實自回歸訓(xùn)練對于圖像模型學(xué)習(xí)表征能力具有擴展性。

    3. 自回歸目標(biāo)足以滿足視覺特征的訓(xùn)練要求,且沒有飽和的跡象。

    站長之家(ChinaZ.com)1月18日 消息:蘋果公司的研究者通過自回歸圖像模型(AIM)驗證了視覺模型“參數(shù)越多性能越強”的規(guī)律,進一步證明隨著容量或預(yù)訓(xùn)練數(shù)據(jù)量的增加,模型能不斷提升性能。AIM能有效利用大量未經(jīng)整理的圖像數(shù)據(jù),訓(xùn)練方法和穩(wěn)定性與最近的大型語言模型(LLM)類似。這一觀察結(jié)果與之前關(guān)于擴展大型語言模型的研究結(jié)果是一致的。

    雖然本文實驗所使用的模型規(guī)模有限,還需進一步探索是否能在更大參數(shù)量級的模型上驗證此規(guī)律。研究者使用的預(yù)訓(xùn)練目標(biāo)遵循應(yīng)用于圖像 patch 序列的標(biāo)準(zhǔn)自回歸模型,通過一系列實驗和研究,驗證了模型容量可以輕松擴展到數(shù)十億個參數(shù),同時對下游任務(wù)有很好的性能。

    image.png

    項目地址:https://top.aibase.com/tool/aim

    此外,研究者對自回歸目標(biāo)訓(xùn)練 ViT 模型的多方面進行了探討,并且重新審視了之前的工作。研究者的實驗報告顯示,在整個訓(xùn)練過程中,優(yōu)化目標(biāo)直接帶來更好的下游性能,而隨著模型容量的增加,損失值和下游任務(wù)的準(zhǔn)確性都有所提高。這一觀察結(jié)果與在 LLMs 中觀察到的趨勢一致,反映了優(yōu)化目標(biāo)會直接帶來更好的下游性能。

    image.png

    在 AIM 的設(shè)計參數(shù)中,除了擴展寬度,研究者還特別采用了一種簡單設(shè)計,使用多層感知機塊,獨立地對每個 patch 進行處理。研究者同時強調(diào),研究的模型規(guī)模有限,對更大參數(shù)量級的模型上驗證此規(guī)律還有待進一步探索。

    論文的實驗結(jié)果證明了視覺模型同樣遵循「參數(shù)越多性能越強」的規(guī)律,自回歸訓(xùn)練對圖像模型具有很好的擴展性,并能夠滿足視覺特征的訓(xùn)練要求。對未來圖像模型性能提升和優(yōu)化提供了新的研究方向和思路。

    舉報

    • 相關(guān)推薦
    • 阿丘科技李嘉悅:大模型驅(qū)動的AI檢測范式變革——大模型、小模型、智能體的協(xié)同進化

      3月28日,由機器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機器視覺及工業(yè)應(yīng)用研討會現(xiàn)場,圍繞“大模型驅(qū)動的AI檢測范式變革:大模型、小模型與智能體的協(xié)同進化”的主題,發(fā)表了精彩演講?!苯衲?,在這個快速變化的時代,我要補充一句:“AI工業(yè)視覺的格局正在加速變革,不會用大模型的將會被善用大模型的人淘汰。

    • 模型時代的新燃料|標(biāo)貝科技推出大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集

      本文探討了人工智能語音交互領(lǐng)域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出,大模型技術(shù)驅(qū)動下語音交互應(yīng)用場景持續(xù)拓展,但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當(dāng)前語音大模型訓(xùn)練需要TB至PB級數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實數(shù)據(jù)的重要補充,能通過參數(shù)化生成機制規(guī)避隱私風(fēng)險,突破傳統(tǒng)數(shù)據(jù)在多樣性和場景覆蓋上的局限性。國內(nèi)外科技企業(yè)已開始廣泛應(yīng)用合成數(shù)據(jù)訓(xùn)練AI模型,如Meta的LLaMA3和微軟的Phi-4模型。標(biāo)貝科技推出超大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集,包含上萬小時數(shù)據(jù),覆蓋中英混合場景,支持情感合成、風(fēng)格遷移等前沿任務(wù),為虛擬偶像、數(shù)字人等元宇宙場景提供實時語音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術(shù),在自然度、流暢度等方面達到行業(yè)領(lǐng)先水平。

    • 合合信息發(fā)布“大模型加速器 2.0”,助力大模型跨越“幻覺”障礙

      近日,上海合合信息科技股份有限公司(簡稱“合合信息”)TextIn“大模型加速器 2.0”版本正式上線,憑借其多維度升級,為降低大模型“幻覺”風(fēng)險、推動大模型精準(zhǔn)應(yīng)用提供了強大助力。訓(xùn)練數(shù)據(jù)是影響大模型“認知能力”的關(guān)鍵,合合信息“大模型加速器 2.0”基于領(lǐng)先的智能文檔處理技術(shù),從數(shù)據(jù)源頭入手,對復(fù)雜文檔的版式、布局和元素進行精準(zhǔn)解析及結(jié)構(gòu)化處理,

    • 秒殺同行!Kimi開源全新音頻基礎(chǔ)模型,橫掃十多項基準(zhǔn)測試,總體性能第一

      Kimi-Audio是一款開源的通用音頻基礎(chǔ)模型,在語音識別、音頻理解、音頻轉(zhuǎn)文本、語音對話等任務(wù)中表現(xiàn)優(yōu)異。該模型采用集成式架構(gòu)設(shè)計,包含音頻分詞器、音頻大模型和音頻去分詞器三大核心組件,支持多模態(tài)輸入處理。在十余項音頻基準(zhǔn)測試中,Kimi-Audio均取得領(lǐng)先性能,如LibriSpeech ASR測試WER僅1.28%,VocalSound測試達94.85%。模型使用1300萬小時多語言音頻數(shù)據(jù)進行預(yù)訓(xùn)練,并構(gòu)建了自動處理流水線生成高質(zhì)量訓(xùn)練數(shù)據(jù)。評估結(jié)果顯示,Kimi-Audio在語音識別、音樂理解、語音情感分析等任務(wù)上全面超越同類模型,在OpenAudioBench和VoiceBench對話測試中也表現(xiàn)最佳。目前模型代碼、檢查點和評估工具包已在GitHub開源。

    • 不要思考過程,推理模型能力能夠更強

      UC伯克利和艾倫實驗室的最新研究表明,推理模型無需依賴冗長的思考過程也能有效工作。研究人員提出的"無思考(NoThinking)"方法通過簡單提示直接生成解決方案,跳過了傳統(tǒng)推理模型中的顯性思考步驟。實驗證明,在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下,NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式,能減少token使用量并提高推理速度。該方法在數(shù)學(xué)問題解決、編程和形式定理證明等任務(wù)中表現(xiàn)優(yōu)異,尤其在資源受限時優(yōu)勢更明顯。研究還發(fā)現(xiàn),結(jié)合并行計算擴展后,NoThinking能進一步提升性能,在保持準(zhǔn)確性的同時顯著降低延遲和計算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細思考過程"的傳統(tǒng)認知。

    • 國產(chǎn)六大推理模型激戰(zhàn)OpenAI?

      2025年春節(jié)前夕,DeepSeek-R1模型發(fā)布,標(biāo)志著中國AI進入推理模型新時代。文章梳理了國產(chǎn)大模型發(fā)展歷程:從2022年ChatGPT引發(fā)國內(nèi)追趕OpenAI熱潮,到2023年"百模大戰(zhàn)",再到2024年"AI六小虎"格局形成。重點分析了六大國產(chǎn)推理模型(DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊)的技術(shù)特點與市場表現(xiàn),指出國產(chǎn)模型在性能上已接近GPT-4水平。特別強調(diào)科大訊飛星火X1憑借全國產(chǎn)化技術(shù)路線獲得政企青睞,以及DeepSeek-R1以560萬美元超低成本實現(xiàn)高性能的突破。文章還探討了英偉達芯片斷供危機下,國產(chǎn)全棧技術(shù)路徑的重要性,認為自主可控將成為對抗國際不確定性的關(guān)鍵。最后指出,隨著推理模型成為競爭焦點,國產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

    • 奔馳新款CLA接入豆包大模型

      4月22日,奔馳與火山引擎合作的首款國產(chǎn)純電車型CLA全球首發(fā)亮相。該車搭載奔馳自研MB.OS架構(gòu),接入火山引擎大模型,支持個性化智能交互體驗。智能系統(tǒng)可識別4種情緒并給予反饋,交互效率提升50%,喚醒僅需0.2秒。虛擬助手能解答百科問題并協(xié)助車輛功能設(shè)置。這是雙方繼2024年8月達成AI戰(zhàn)略合作后落地的首款量產(chǎn)車型,結(jié)合生成式AI和大數(shù)據(jù)技術(shù),為中國用戶打造更智能的用車體驗。

    • 火山引擎即將發(fā)布深度思考模型

      據(jù)悉,字節(jié)跳動旗下云服務(wù)平臺火山引擎即將發(fā)布豆包深度思考模型。有消息稱,豆包APP和桌面端的“深度思考模式”已進行了多個實驗版本的測試,而此次發(fā)布后,該模型將正式面向企業(yè)提供服務(wù)。目前,豆包大模型家族已覆蓋全模態(tài)、全場景,包括大語言模型、語音大模型,以及圖像、視頻等視覺大模型,企業(yè)可以通過火山引擎使用豆包大模型API服務(wù)。IDC最新發(fā)布的《中?

    • 迅雷一鍵即可完成大模型下載

      近日,迅雷為提升用戶使用體驗,讓用戶能夠更快更好地批量下載大模型所有文件,已針對大模型下載場景進行了優(yōu)化,并上線了新版本插件,下載迅雷客戶端且在瀏覽器安裝迅雷插件即可使用。值得一提的是,在使用迅雷該插件功能創(chuàng)建任務(wù)時,將同時創(chuàng)建相對應(yīng)的文件夾,下載完成后,所有文件都將在一個文件夾中,相比傳統(tǒng)瀏覽器——需要用戶逐個手動點擊下載圖標(biāo)并?

    • 九為健康聯(lián)合華為云發(fā)布神農(nóng)中醫(yī)大模型智能體,解碼如何用大模型重構(gòu)“望聞問切”

      2025 年 4 月 11 日,在華為云生態(tài)大會上,浙江九為健康科技股份有限公司(以下簡稱"九為健康")正式發(fā)布基于華為云盤古大模型的"九為神農(nóng)中醫(yī)大模型智能體"。該解決方案依托AI技術(shù),系統(tǒng)性攻克中醫(yī)藥研發(fā)周期長、作用機制解析困難、個性化方案制定復(fù)雜等產(chǎn)業(yè)難題,通過智能化手段推動中醫(yī)藥現(xiàn)代化進程,為醫(yī)藥全產(chǎn)業(yè)鏈提供覆蓋研發(fā)、診療及健康管理的全流程智能服?