无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > 開源大模型最新資訊  > 正文

    鴨嘴獸-70B登頂HuggingFace開源大模型排行榜

    2023-08-24 09:52 · 稿源:站長之家

    要點:

    • 鴨嘴獸-70B使用優(yōu)化過的數(shù)據(jù)集Open-Platypus訓(xùn)練,刪除相似和重復(fù)問題。

    • 應(yīng)用LoRA和PEFT對模型進(jìn)行微調(diào),重點優(yōu)化非注意力模塊。

    • 檢查并解決測試數(shù)據(jù)泄漏和訓(xùn)練數(shù)據(jù)污染問題。

    站長之家(ChinaZ.com)8月24日 消息:最近,來自波士頓大學(xué)的鴨嘴獸-70B模型登頂了HuggingFace的開源大模型排行榜,成為目前全球開源領(lǐng)域中表現(xiàn)最強(qiáng)的語言模型。鴨嘴獸的變強(qiáng)有以下三個關(guān)鍵原因:

    首先,鴨嘴獸使用了一個經(jīng)過優(yōu)化的開源數(shù)據(jù)集Open-Platypus進(jìn)行訓(xùn)練。該數(shù)據(jù)集由11個開源數(shù)據(jù)集組合而成,主要包含人工設(shè)計的問題,只有約10%的問題是由語言模型生成。同時,研究人員對數(shù)據(jù)集進(jìn)行了處理,刪除了相似和重復(fù)的問題,最大限度地減少了數(shù)據(jù)冗余。這有助于模型在更小的數(shù)據(jù)集上獲取更強(qiáng)大的能力。

    image.png

    其次,研究人員使用了低秩逼近(LoRA)和參數(shù)高效微調(diào)(PEFT)對鴨嘴獸模型進(jìn)行了微調(diào)。與完全微調(diào)不同,LoRA只訓(xùn)練轉(zhuǎn)換層中的可訓(xùn)練參數(shù),從而大大降低了計算訓(xùn)練成本。PEFT則主要微調(diào)了非注意力模塊,如門控單元和上下采樣模塊,這進(jìn)一步提升了模型性能。相比僅優(yōu)化注意力模塊,這種方法取得了更好的效果。

    image.png

    論文地址:https://arxiv.org/pdf/2308.07317.pdf

    最后,研究人員深入探索了開放式語言模型訓(xùn)練中存在的數(shù)據(jù)污染問題,并針對鴨嘴獸的數(shù)據(jù)集進(jìn)行了嚴(yán)格過濾。他們開發(fā)了一套啟發(fā)式方法,仔細(xì)檢查訓(xùn)練集中與測試集相似的問題,刪除或以任何方式將其標(biāo)記為潛在的測試數(shù)據(jù)泄露,避免了測試數(shù)據(jù)非故意地進(jìn)入訓(xùn)練集,保證了模型評估的公平性。

    通過數(shù)據(jù)集優(yōu)化、模型微調(diào)技巧以及數(shù)據(jù)質(zhì)量控制,鴨嘴獸-70B得以在眾多開源大模型中脫穎而出,登上榜首。這為語言模型的訓(xùn)練提供了寶貴經(jīng)驗,也使開源社區(qū)對自主研發(fā)強(qiáng)大AI模型更具信心。如果社會各界能堅持開放創(chuàng)新、合作共贏的理念,我們離強(qiáng)人工智能的到來就不會太遠(yuǎn)了。

    舉報

    • 相關(guān)推薦
    • 字節(jié)AI加速文生圖技術(shù)新突破,GOOG/微美全息引領(lǐng)開源大模型釋放科技勢能

      字節(jié)跳動發(fā)布豆包1.5深度思考模型,升級文生圖能力。該模型在專業(yè)領(lǐng)域和通用任務(wù)中表現(xiàn)突出,采用MoE架構(gòu),總參數(shù)量200B,激活參數(shù)20B,推理成本優(yōu)勢顯著。同時,其圖像生成模型Seedream 3.0性能追平GPT-4o等頂尖模型。全球AI產(chǎn)業(yè)加速發(fā)展,開源模型降低技術(shù)門檻,推動商業(yè)化落地。微美全息等企業(yè)構(gòu)建開放AI生態(tài),DeepSeek等公司通過開源策略促進(jìn)技術(shù)普惠。行業(yè)迎來"開源AI+"新階段,企業(yè)需把握機(jī)遇應(yīng)對挑戰(zhàn)。

    • 苦等一年 Meta終于放大招 正式發(fā)布開源大模型Llama 4

      美國科技巨擘Meta重磅推出其迄今最為強(qiáng)大的開源AI模型Llama4,恰逢Llama3上市一周年之際。Llama4系列采用了先進(jìn)的混合專家架構(gòu),這一架構(gòu)在模型訓(xùn)練及用戶查詢回答過程中展現(xiàn)出更高效率,通過將模型劃分為多個專注于特定任務(wù)的專家”子模型,實現(xiàn)精準(zhǔn)高效的處理。Meta首席執(zhí)行官扎克伯格表示:他們的目標(biāo)是建立世界領(lǐng)先的人工智能,將其開源,并使其普遍可用,以便世界上每個人都能受益。

    • 提升大模型自動修Bug能力 豆包正式開源首個多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動豆包大模型團(tuán)隊宣布,正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評測基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù),Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景,也更能反映當(dāng)前模型在自動化軟件工程”方向上的實際能力邊界。

    • 奔馳新款CLA接入豆包大模型

      4月22日,奔馳與火山引擎合作的首款國產(chǎn)純電車型CLA全球首發(fā)亮相。該車搭載奔馳自研MB.OS架構(gòu),接入火山引擎大模型,支持個性化智能交互體驗。智能系統(tǒng)可識別4種情緒并給予反饋,交互效率提升50%,喚醒僅需0.2秒。虛擬助手能解答百科問題并協(xié)助車輛功能設(shè)置。這是雙方繼2024年8月達(dá)成AI戰(zhàn)略合作后落地的首款量產(chǎn)車型,結(jié)合生成式AI和大數(shù)據(jù)技術(shù),為中國用戶打造更智能的用車體驗。

    • 阿里千問3登頂全球最強(qiáng)開源模型 已在通義App上線

      阿里集團(tuán)推出新一代開源AI模型"通義千問3"(Qwen3),包含8款不同規(guī)格的混合推理模型。旗艦型號Qwen3-235B采用混合專家架構(gòu),創(chuàng)下國產(chǎn)模型性能新紀(jì)錄;Qwen3-32B則以部署成本低、運(yùn)行穩(wěn)定見長。該系列在邏輯推理、編程、翻譯等專業(yè)領(lǐng)域表現(xiàn)卓越,用戶可通過通義App和網(wǎng)頁版體驗。升級后的通義App整合問答對話、圖像理解與生成等多項功能,持續(xù)強(qiáng)化代碼生成、數(shù)學(xué)解題等專業(yè)場景應(yīng)用能力,致力于打造實用性強(qiáng)的個人AI助手。

    • 阿丘科技李嘉悅:大模型驅(qū)動的AI檢測范式變革——大模型、小模型、智能體的協(xié)同進(jìn)化

      3月28日,由機(jī)器視覺產(chǎn)業(yè)聯(lián)盟主辦、慕尼黑展覽有限公司承辦的VisionChina2025機(jī)器視覺展在上海新國際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺及工業(yè)應(yīng)用研討會現(xiàn)場,圍繞“大模型驅(qū)動的AI檢測范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題,發(fā)表了精彩演講?!苯衲?,在這個快速變化的時代,我要補(bǔ)充一句:“AI工業(yè)視覺的格局正在加速變革,不會用大模型的將會被善用大模型的人淘汰。

    • 1000萬上下文!新開源多模態(tài)大模型,單個GPU就能運(yùn)行

      今年2月初,谷歌發(fā)布的Gemini2.0Pro支持200萬上下文,震驚了整個大模型領(lǐng)域。僅過了2個月,Meta最新開源的Llama4Scout就將上下文擴(kuò)展至1000萬,整整提升了5倍開啟千萬級時代。根據(jù)實驗數(shù)據(jù)顯示,Llama4Behemoth在MMLUPro、GPQA、MATH-500等測試的數(shù)據(jù)比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

    • 最新AI產(chǎn)品從哪獲取?海外、國內(nèi)AI產(chǎn)品排行榜去哪看?

      AIbase基地是一個專注于人工智能領(lǐng)域的綜合平臺,提供全球AI行業(yè)最新動態(tài)、工具、產(chǎn)品和變現(xiàn)指南。核心功能包括:1)實時AI新聞資訊和行業(yè)趨勢;2)AI變現(xiàn)成功案例分享;3)免費AI教程資源;4)AI產(chǎn)品流量排行榜;5)熱門開源項目追蹤。該平臺旨在幫助用戶掌握前沿AI信息,發(fā)現(xiàn)商業(yè)機(jī)會,是AI愛好者和從業(yè)者的實用資源庫。

    • DeepSeek領(lǐng)航大模型普惠化浪潮,xAI/微美全息加速開源AI布局打造新格局

      DeepSeek 作為當(dāng)前最受關(guān)注的大模型之一,憑借其技術(shù)創(chuàng)新正在加速 AI 普惠化進(jìn)程。根據(jù)機(jī)構(gòu)新報告顯示,DeepSeek已經(jīng)成為全球增長最快的AI工具,其每月新增網(wǎng)站訪問量已經(jīng)超過OpenAI的ChatGPT。DeepSeek市場份額全球第三目前,DeepSeek市場份額6.58%,僅次于ChatGPT和Canva。DeepSeek是繼ChatGPT之后的又一現(xiàn)象級AI產(chǎn)品,它的市場份額從2.34%快速增長至6.58%,展現(xiàn)出強(qiáng)勁的增長態(tài)勢。全球著名?

    • Llama 4大模型跌落神壇:作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

      被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時間,口碑急轉(zhuǎn)直下,被質(zhì)疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。大模型評測平臺LMArena親自下場發(fā)文,打臉Meta提供給平臺的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術(shù)開放之間搖擺,恐將在AI競賽中進(jìn)一步失去開發(fā)者支持。

    熱文

    • 3 天
    • 7天