无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

鴨嘴獸-70B登頂HuggingFace開源大模型排行榜

2023-08-24 09:52 · 稿源：站長之家

要點:
鴨嘴獸-70B使用優(yōu)化過的數(shù)據(jù)集Open-Platypus訓(xùn)練，刪除相似和重復(fù)問題。
應(yīng)用LoRA和PEFT對模型進(jìn)行微調(diào)，重點優(yōu)化非注意力模塊。
檢查并解決測試數(shù)據(jù)泄漏和訓(xùn)練數(shù)據(jù)污染問題。

站長之家（ChinaZ.com）8月24日消息:最近，來自波士頓大學(xué)的鴨嘴獸-70B模型登頂了HuggingFace的開源大模型排行榜，成為目前全球開源領(lǐng)域中表現(xiàn)最強(qiáng)的語言模型。鴨嘴獸的變強(qiáng)有以下三個關(guān)鍵原因:

首先，鴨嘴獸使用了一個經(jīng)過優(yōu)化的開源數(shù)據(jù)集Open-Platypus進(jìn)行訓(xùn)練。該數(shù)據(jù)集由11個開源數(shù)據(jù)集組合而成，主要包含人工設(shè)計的問題，只有約10%的問題是由語言模型生成。同時，研究人員對數(shù)據(jù)集進(jìn)行了處理，刪除了相似和重復(fù)的問題，最大限度地減少了數(shù)據(jù)冗余。這有助于模型在更小的數(shù)據(jù)集上獲取更強(qiáng)大的能力。

其次，研究人員使用了低秩逼近（LoRA）和參數(shù)高效微調(diào)(PEFT)對鴨嘴獸模型進(jìn)行了微調(diào)。與完全微調(diào)不同，LoRA只訓(xùn)練轉(zhuǎn)換層中的可訓(xùn)練參數(shù)，從而大大降低了計算訓(xùn)練成本。PEFT則主要微調(diào)了非注意力模塊，如門控單元和上下采樣模塊，這進(jìn)一步提升了模型性能。相比僅優(yōu)化注意力模塊，這種方法取得了更好的效果。

論文地址:https://arxiv.org/pdf/2308.07317.pdf

最后，研究人員深入探索了開放式語言模型訓(xùn)練中存在的數(shù)據(jù)污染問題，并針對鴨嘴獸的數(shù)據(jù)集進(jìn)行了嚴(yán)格過濾。他們開發(fā)了一套啟發(fā)式方法，仔細(xì)檢查訓(xùn)練集中與測試集相似的問題，刪除或以任何方式將其標(biāo)記為潛在的測試數(shù)據(jù)泄露，避免了測試數(shù)據(jù)非故意地進(jìn)入訓(xùn)練集，保證了模型評估的公平性。

通過數(shù)據(jù)集優(yōu)化、模型微調(diào)技巧以及數(shù)據(jù)質(zhì)量控制，鴨嘴獸-70B得以在眾多開源大模型中脫穎而出，登上榜首。這為語言模型的訓(xùn)練提供了寶貴經(jīng)驗，也使開源社區(qū)對自主研發(fā)強(qiáng)大AI模型更具信心。如果社會各界能堅持開放創(chuàng)新、合作共贏的理念，我們離強(qiáng)人工智能的到來就不會太遠(yuǎn)了。

（舉報）

相關(guān)推薦

關(guān)鍵詞：

開源大模型

字節(jié)AI加速文生圖技術(shù)新突破，GOOG/微美全息引領(lǐng)開源大模型釋放科技勢能

字節(jié)跳動發(fā)布豆包1.5深度思考模型，升級文生圖能力。該模型在專業(yè)領(lǐng)域和通用任務(wù)中表現(xiàn)突出，采用MoE架構(gòu)，總參數(shù)量200B，激活參數(shù)20B，推理成本優(yōu)勢顯著。同時，其圖像生成模型Seedream 3.0性能追平GPT-4o等頂尖模型。全球AI產(chǎn)業(yè)加速發(fā)展，開源模型降低技術(shù)門檻，推動商業(yè)化落地。微美全息等企業(yè)構(gòu)建開放AI生態(tài)，DeepSeek等公司通過開源策略促進(jìn)技術(shù)普惠。行業(yè)迎來"開源AI+"新階段，企業(yè)需把握機(jī)遇應(yīng)對挑戰(zhàn)。

?字節(jié)跳動 ?豆包1.5 ?文生圖模型
苦等一年 Meta終于放大招正式發(fā)布開源大模型Llama 4

美國科技巨擘Meta重磅推出其迄今最為強(qiáng)大的開源AI模型Llama4，恰逢Llama3上市一周年之際。Llama4系列采用了先進(jìn)的混合專家架構(gòu)，這一架構(gòu)在模型訓(xùn)練及用戶查詢回答過程中展現(xiàn)出更高效率，通過將模型劃分為多個專注于特定任務(wù)的專家”子模型，實現(xiàn)精準(zhǔn)高效的處理。Meta首席執(zhí)行官扎克伯格表示：他們的目標(biāo)是建立世界領(lǐng)先的人工智能，將其開源，并使其普遍可用，以便世界上每個人都能受益。

?Meta ?Llama ?4
提升大模型自動修Bug能力豆包正式開源首個多語言類SWE數(shù)據(jù)集

今日，字節(jié)跳動豆包大模型團(tuán)隊宣布，正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench，可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上，Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言，是真正面向全棧工程”的評測基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù)，Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景，也更能反映當(dāng)前模型在自動化軟件工程”方向上的實際能力邊界。

?字節(jié)跳動 ?多語言數(shù)據(jù)集 ?大模型自動修復(fù)
奔馳新款CLA接入豆包大模型

4月22日，奔馳與火山引擎合作的首款國產(chǎn)純電車型CLA全球首發(fā)亮相。該車搭載奔馳自研MB.OS架構(gòu)，接入火山引擎大模型，支持個性化智能交互體驗。智能系統(tǒng)可識別4種情緒并給予反饋，交互效率提升50%，喚醒僅需0.2秒。虛擬助手能解答百科問題并協(xié)助車輛功能設(shè)置。這是雙方繼2024年8月達(dá)成AI戰(zhàn)略合作后落地的首款量產(chǎn)車型，結(jié)合生成式AI和大數(shù)據(jù)技術(shù)，為中國用戶打造更智能的用車體驗。

?梅賽德斯-奔馳 ?全新純電長軸距 ?CLA
阿里千問3登頂全球最強(qiáng)開源模型已在通義App上線

阿里集團(tuán)推出新一代開源AI模型"通義千問3"(Qwen3)，包含8款不同規(guī)格的混合推理模型。旗艦型號Qwen3-235B采用混合專家架構(gòu)，創(chuàng)下國產(chǎn)模型性能新紀(jì)錄；Qwen3-32B則以部署成本低、運(yùn)行穩(wěn)定見長。該系列在邏輯推理、編程、翻譯等專業(yè)領(lǐng)域表現(xiàn)卓越，用戶可通過通義App和網(wǎng)頁版體驗。升級后的通義App整合問答對話、圖像理解與生成等多項功能，持續(xù)強(qiáng)化代碼生成、數(shù)學(xué)解題等專業(yè)場景應(yīng)用能力，致力于打造實用性強(qiáng)的個人AI助手。
阿丘科技李嘉悅：大模型驅(qū)動的AI檢測范式變革——大模型、小模型、智能體的協(xié)同進(jìn)化

3月28日，由機(jī)器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機(jī)器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺及工業(yè)應(yīng)用研討會現(xiàn)場，圍繞“大模型驅(qū)動的AI檢測范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題，發(fā)表了精彩演講?！苯衲?，在這個快速變化的時代，我要補(bǔ)充一句:“AI工業(yè)視覺的格局正在加速變革，不會用大模型的將會被善用大模型的人淘汰。

?機(jī)器視覺 ?AI檢測 ?工業(yè)應(yīng)用
薦1000萬上下文！新開源多模態(tài)大模型，單個GPU就能運(yùn)行

今年2月初，谷歌發(fā)布的Gemini2.0Pro支持200萬上下文，震驚了整個大模型領(lǐng)域。僅過了2個月，Meta最新開源的Llama4Scout就將上下文擴(kuò)展至1000萬，整整提升了5倍開啟千萬級時代。根據(jù)實驗數(shù)據(jù)顯示，Llama4Behemoth在MMLUPro、GPQA、MATH-500等測試的數(shù)據(jù)比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

?Gemini2.0Pro ?Llama4Scout ?上下文擴(kuò)展
最新AI產(chǎn)品從哪獲取？海外、國內(nèi)AI產(chǎn)品排行榜去哪看？

AIbase基地是一個專注于人工智能領(lǐng)域的綜合平臺，提供全球AI行業(yè)最新動態(tài)、工具、產(chǎn)品和變現(xiàn)指南。核心功能包括：1）實時AI新聞資訊和行業(yè)趨勢；2）AI變現(xiàn)成功案例分享；3）免費AI教程資源；4）AI產(chǎn)品流量排行榜；5）熱門開源項目追蹤。該平臺旨在幫助用戶掌握前沿AI信息，發(fā)現(xiàn)商業(yè)機(jī)會，是AI愛好者和從業(yè)者的實用資源庫。

?人工智能 ?AI行業(yè)資訊 ?AI工具
DeepSeek領(lǐng)航大模型普惠化浪潮，xAI/微美全息加速開源AI布局打造新格局

DeepSeek 作為當(dāng)前最受關(guān)注的大模型之一，憑借其技術(shù)創(chuàng)新正在加速 AI 普惠化進(jìn)程。根據(jù)機(jī)構(gòu)新報告顯示，DeepSeek已經(jīng)成為全球增長最快的AI工具，其每月新增網(wǎng)站訪問量已經(jīng)超過OpenAI的ChatGPT。DeepSeek市場份額全球第三目前，DeepSeek市場份額6.58%，僅次于ChatGPT和Canva。DeepSeek是繼ChatGPT之后的又一現(xiàn)象級AI產(chǎn)品，它的市場份額從2.34%快速增長至6.58%，展現(xiàn)出強(qiáng)勁的增長態(tài)勢。全球著名?

?DeepSeek ?AI工具 ?技術(shù)創(chuàng)新
Llama 4大模型跌落神壇：作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時間，口碑急轉(zhuǎn)直下，被質(zhì)疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。大模型評測平臺LMArena親自下場發(fā)文，打臉Meta提供給平臺的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺，恐將在AI競賽中進(jìn)一步失去開發(fā)者支持。

?Meta ?Llama ?4

熱文

3 天
7天

站長商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM