无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

<option id="ykiqm"><tbody id="ykiqm"></tbody></option>

<menu id="ykiqm"></menu><tbody id="ykiqm"></tbody><menu id="ykiqm"><em id="ykiqm"></em></menu>

<dd id="ykiqm"><s id="ykiqm"></s></dd><strike id="ykiqm"></strike>

<menu id="ykiqm"><acronym id="ykiqm"></acronym></menu>

<tbody id="ykiqm"></tbody>

<ul id="ykiqm"><source id="ykiqm"></source></ul><abbr id="ykiqm"><acronym id="ykiqm"></acronym></abbr>

<tbody id="ykiqm"><small id="ykiqm"></small></tbody><center id="ykiqm"></center>

<abbr id="ykiqm"><kbd id="ykiqm"></kbd></abbr>

蘋果AIM自回歸視覺模型驗證性能與模型規(guī)模有關(guān)

2024-01-18 17:01 · 稿源：站長之家

要點:
1. 隨著容量或預(yù)訓(xùn)練數(shù)據(jù)量的增加，模型性能不斷提升。
2. 論文證實自回歸訓(xùn)練對于圖像模型學(xué)習(xí)表征能力具有擴展性。
3. 自回歸目標(biāo)足以滿足視覺特征的訓(xùn)練要求，且沒有飽和的跡象。

站長之家（ChinaZ.com）1月18日消息:蘋果公司的研究者通過自回歸圖像模型（AIM）驗證了視覺模型“參數(shù)越多性能越強”的規(guī)律，進一步證明隨著容量或預(yù)訓(xùn)練數(shù)據(jù)量的增加，模型能不斷提升性能。AIM能有效利用大量未經(jīng)整理的圖像數(shù)據(jù)，訓(xùn)練方法和穩(wěn)定性與最近的大型語言模型(LLM)類似。這一觀察結(jié)果與之前關(guān)于擴展大型語言模型的研究結(jié)果是一致的。

雖然本文實驗所使用的模型規(guī)模有限，還需進一步探索是否能在更大參數(shù)量級的模型上驗證此規(guī)律。研究者使用的預(yù)訓(xùn)練目標(biāo)遵循應(yīng)用于圖像 patch 序列的標(biāo)準(zhǔn)自回歸模型，通過一系列實驗和研究，驗證了模型容量可以輕松擴展到數(shù)十億個參數(shù)，同時對下游任務(wù)有很好的性能。

項目地址：https://top.aibase.com/tool/aim

此外，研究者對自回歸目標(biāo)訓(xùn)練 ViT 模型的多方面進行了探討，并且重新審視了之前的工作。研究者的實驗報告顯示，在整個訓(xùn)練過程中，優(yōu)化目標(biāo)直接帶來更好的下游性能，而隨著模型容量的增加，損失值和下游任務(wù)的準(zhǔn)確性都有所提高。這一觀察結(jié)果與在 LLMs 中觀察到的趨勢一致，反映了優(yōu)化目標(biāo)會直接帶來更好的下游性能。

在 AIM 的設(shè)計參數(shù)中，除了擴展寬度，研究者還特別采用了一種簡單設(shè)計，使用多層感知機塊，獨立地對每個 patch 進行處理。研究者同時強調(diào)，研究的模型規(guī)模有限，對更大參數(shù)量級的模型上驗證此規(guī)律還有待進一步探索。

論文的實驗結(jié)果證明了視覺模型同樣遵循「參數(shù)越多性能越強」的規(guī)律，自回歸訓(xùn)練對圖像模型具有很好的擴展性，并能夠滿足視覺特征的訓(xùn)練要求。對未來圖像模型性能提升和優(yōu)化提供了新的研究方向和思路。

（舉報）

相關(guān)推薦

關(guān)鍵詞：

阿丘科技李嘉悅：大模型驅(qū)動的AI檢測范式變革——大模型、小模型、智能體的協(xié)同進化

3月28日，由機器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機器視覺及工業(yè)應(yīng)用研討會現(xiàn)場，圍繞“大模型驅(qū)動的AI檢測范式變革:大模型、小模型與智能體的協(xié)同進化”的主題，發(fā)表了精彩演講?！苯衲?，在這個快速變化的時代，我要補充一句:“AI工業(yè)視覺的格局正在加速變革，不會用大模型的將會被善用大模型的人淘汰。

?機器視覺 ?AI檢測 ?工業(yè)應(yīng)用
大模型時代的新燃料|標(biāo)貝科技推出大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集

本文探討了人工智能語音交互領(lǐng)域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出，大模型技術(shù)驅(qū)動下語音交互應(yīng)用場景持續(xù)拓展，但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當(dāng)前語音大模型訓(xùn)練需要TB至PB級數(shù)據(jù)，而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實數(shù)據(jù)的重要補充，能通過參數(shù)化生成機制規(guī)避隱私風(fēng)險，突破傳統(tǒng)數(shù)據(jù)在多樣性和場景覆蓋上的局限性。國內(nèi)外科技企業(yè)已開始廣泛應(yīng)用合成數(shù)據(jù)訓(xùn)練AI模型，如Meta的LLaMA3和微軟的Phi-4模型。標(biāo)貝科技推出超大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集，包含上萬小時數(shù)據(jù)，覆蓋中英混合場景，支持情感合成、風(fēng)格遷移等前沿任務(wù)，為虛擬偶像、數(shù)字人等元宇宙場景提供實時語音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術(shù)，在自然度、流暢度等方面達到行業(yè)領(lǐng)先水平。

?大模型技術(shù) ?人工智能變革 ?語音交互
合合信息發(fā)布“大模型加速器 2.0”，助力大模型跨越“幻覺”障礙

近日，上海合合信息科技股份有限公司（簡稱“合合信息”）TextIn“大模型加速器 2.0”版本正式上線，憑借其多維度升級，為降低大模型“幻覺”風(fēng)險、推動大模型精準(zhǔn)應(yīng)用提供了強大助力。訓(xùn)練數(shù)據(jù)是影響大模型“認知能力”的關(guān)鍵，合合信息“大模型加速器 2.0”基于領(lǐng)先的智能文檔處理技術(shù)，從數(shù)據(jù)源頭入手，對復(fù)雜文檔的版式、布局和元素進行精準(zhǔn)解析及結(jié)構(gòu)化處理，

?大模型加速器 ?合合信息 ?智能文檔處理
薦秒殺同行！Kimi開源全新音頻基礎(chǔ)模型，橫掃十多項基準(zhǔn)測試，總體性能第一

Kimi-Audio是一款開源的通用音頻基礎(chǔ)模型，在語音識別、音頻理解、音頻轉(zhuǎn)文本、語音對話等任務(wù)中表現(xiàn)優(yōu)異。該模型采用集成式架構(gòu)設(shè)計，包含音頻分詞器、音頻大模型和音頻去分詞器三大核心組件，支持多模態(tài)輸入處理。在十余項音頻基準(zhǔn)測試中，Kimi-Audio均取得領(lǐng)先性能，如LibriSpeech ASR測試WER僅1.28%，VocalSound測試達94.85%。模型使用1300萬小時多語言音頻數(shù)據(jù)進行預(yù)訓(xùn)練，并構(gòu)建了自動處理流水線生成高質(zhì)量訓(xùn)練數(shù)據(jù)。評估結(jié)果顯示，Kimi-Audio在語音識別、音樂理解、語音情感分析等任務(wù)上全面超越同類模型，在OpenAudioBench和VoiceBench對話測試中也表現(xiàn)最佳。目前模型代碼、檢查點和評估工具包已在GitHub開源。

?音頻模型 ?語音識別 ?開源項目
薦不要思考過程，推理模型能力能夠更強

UC伯克利和艾倫實驗室的最新研究表明，推理模型無需依賴冗長的思考過程也能有效工作。研究人員提出的"無思考(NoThinking)"方法通過簡單提示直接生成解決方案，跳過了傳統(tǒng)推理模型中的顯性思考步驟。實驗證明，在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下，NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式，能減少token使用量并提高推理速度。該方法在數(shù)學(xué)問題解決、編程和形式定理證明等任務(wù)中表現(xiàn)優(yōu)異，尤其在資源受限時優(yōu)勢更明顯。研究還發(fā)現(xiàn)，結(jié)合并行計算擴展后，NoThinking能進一步提升性能，在保持準(zhǔn)確性的同時顯著降低延遲和計算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細思考過程"的傳統(tǒng)認知。

?推理模型 ?無思考方法 ?解決方案
薦國產(chǎn)六大推理模型激戰(zhàn)OpenAI？

2025年春節(jié)前夕，DeepSeek-R1模型發(fā)布，標(biāo)志著中國AI進入推理模型新時代。文章梳理了國產(chǎn)大模型發(fā)展歷程：從2022年ChatGPT引發(fā)國內(nèi)追趕OpenAI熱潮，到2023年"百模大戰(zhàn)"，再到2024年"AI六小虎"格局形成。重點分析了六大國產(chǎn)推理模型（DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊）的技術(shù)特點與市場表現(xiàn)，指出國產(chǎn)模型在性能上已接近GPT-4水平。特別強調(diào)科大訊飛星火X1憑借全國產(chǎn)化技術(shù)路線獲得政企青睞，以及DeepSeek-R1以560萬美元超低成本實現(xiàn)高性能的突破。文章還探討了英偉達芯片斷供危機下，國產(chǎn)全棧技術(shù)路徑的重要性，認為自主可控將成為對抗國際不確定性的關(guān)鍵。最后指出，隨著推理模型成為競爭焦點，國產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

?AI技術(shù) ?DeepSeek-R1 ?云服務(wù)器
奔馳新款CLA接入豆包大模型

4月22日，奔馳與火山引擎合作的首款國產(chǎn)純電車型CLA全球首發(fā)亮相。該車搭載奔馳自研MB.OS架構(gòu)，接入火山引擎大模型，支持個性化智能交互體驗。智能系統(tǒng)可識別4種情緒并給予反饋，交互效率提升50%，喚醒僅需0.2秒。虛擬助手能解答百科問題并協(xié)助車輛功能設(shè)置。這是雙方繼2024年8月達成AI戰(zhàn)略合作后落地的首款量產(chǎn)車型，結(jié)合生成式AI和大數(shù)據(jù)技術(shù)，為中國用戶打造更智能的用車體驗。

?梅賽德斯-奔馳 ?全新純電長軸距 ?CLA
火山引擎即將發(fā)布深度思考模型

據(jù)悉，字節(jié)跳動旗下云服務(wù)平臺火山引擎即將發(fā)布豆包深度思考模型。有消息稱，豆包APP和桌面端的“深度思考模式”已進行了多個實驗版本的測試，而此次發(fā)布后，該模型將正式面向企業(yè)提供服務(wù)。目前，豆包大模型家族已覆蓋全模態(tài)、全場景，包括大語言模型、語音大模型，以及圖像、視頻等視覺大模型，企業(yè)可以通過火山引擎使用豆包大模型API服務(wù)。IDC最新發(fā)布的《中?

?字節(jié)跳動 ?火山引擎 ?豆包深度思考模型
迅雷一鍵即可完成大模型下載

近日，迅雷為提升用戶使用體驗，讓用戶能夠更快更好地批量下載大模型所有文件，已針對大模型下載場景進行了優(yōu)化，并上線了新版本插件，下載迅雷客戶端且在瀏覽器安裝迅雷插件即可使用。值得一提的是，在使用迅雷該插件功能創(chuàng)建任務(wù)時，將同時創(chuàng)建相對應(yīng)的文件夾，下載完成后，所有文件都將在一個文件夾中，相比傳統(tǒng)瀏覽器——需要用戶逐個手動點擊下載圖標(biāo)并?

?迅雷 ?大模型下載 ?下載優(yōu)化
九為健康聯(lián)合華為云發(fā)布神農(nóng)中醫(yī)大模型智能體，解碼如何用大模型重構(gòu)“望聞問切”

2025 年 4 月 11 日，在華為云生態(tài)大會上，浙江九為健康科技股份有限公司（以下簡稱"九為健康"）正式發(fā)布基于華為云盤古大模型的"九為神農(nóng)中醫(yī)大模型智能體"。該解決方案依托AI技術(shù)，系統(tǒng)性攻克中醫(yī)藥研發(fā)周期長、作用機制解析困難、個性化方案制定復(fù)雜等產(chǎn)業(yè)難題，通過智能化手段推動中醫(yī)藥現(xiàn)代化進程，為醫(yī)藥全產(chǎn)業(yè)鏈提供覆蓋研發(fā)、診療及健康管理的全流程智能服?

熱文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

站長商機

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<dfn id="iooww"></dfn><dfn id="iooww"></dfn>

<abbr id="iooww"><abbr id="iooww"></abbr></abbr>

<menu id="iooww"><abbr id="iooww"></abbr></menu>