11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
10月25日,汽車行業(yè)AI產(chǎn)品和業(yè)務(wù)解決方案提供商易慧智能發(fā)布了汽車行業(yè)首個大模型評測集。此次評測旨在全面評估市面上主流大模型在汽車行業(yè)中的實際應(yīng)用效果,特別關(guān)注于汽車營銷場景的應(yīng)用評估。此舉不僅強化了易慧智能在汽車AI產(chǎn)品與服務(wù)解決方案領(lǐng)域的優(yōu)勢地位,更將實質(zhì)性地推動AI技術(shù)在汽車行業(yè)內(nèi)的創(chuàng)新步伐,實現(xiàn)行業(yè)整體效率與客戶競爭力的顯著提升。
國內(nèi)首個官方大模型標(biāo)準(zhǔn)符合性評測”結(jié)果公布。阿里云通義千問成為首批通過評測的四款國產(chǎn)大模型之一,在通用性、智能性等維度均達到國家相關(guān)標(biāo)準(zhǔn)要求。該評測對外征集了學(xué)術(shù)界、產(chǎn)業(yè)界幾十家頭部單位意見,覆蓋評估語言大模型通用性、智能性的38項具體評測維度,是基于官方大模型測試基準(zhǔn)的權(quán)威評測。
中國權(quán)威的大型模型評估平臺OpenCompass最近更新其排名,通義千問72B模型以67.1的高分榮登榜首。OpenCompass是由上海人工智能實驗室推出的開源大型模型評估平臺,其評估范圍涵蓋學(xué)科、語言、知識、理解和推理五個維度,能夠全面評估大型模型的能力。通義千問-72B可以處理最長為32k的文本輸入,并且在長文本理解測試集LEval上的表現(xiàn)超過了ChatGPT-3.5-16k。
螞蟻集團聯(lián)合北京大學(xué)發(fā)布了面向DevOps領(lǐng)域的大語言模型評測基準(zhǔn)——DevOps-Eval。該評測基準(zhǔn)包含了計劃、編碼、構(gòu)建、測試、發(fā)布、部署、運維和監(jiān)控等8個類別的選擇題,共計4850道題目。DevOps-Eval將持續(xù)優(yōu)化,豐富評測數(shù)據(jù)集,重點關(guān)注AIOps領(lǐng)域,并增加更多的評測模型。
容聯(lián)云赤兔大模型在大模型評測榜單C-Eval剛剛更新的大模型評測中,成績突出,位居前六,與清華&智譜Al、OpenAl、商湯科技等位居前列。其中70億參數(shù)的容聯(lián)云赤兔大模型成績表現(xiàn)超過了幾乎所有同等規(guī)模的模型,以輕量級模型躋身GPT4等千億模型為主的top梯隊。在赤兔大模型加持下,溝通智能2.0將在AI基礎(chǔ)能力、會話分析洞察、對話能力、人機協(xié)同四個方面有大幅提升,重構(gòu)智
8月12日,天津大學(xué)和信創(chuàng)海河實驗室舉辦了一次大模型技術(shù)與評測研討會,會上發(fā)布了首份大模型評測報告。該報告對國內(nèi)外14個大語言模型進行了中文綜合能力評測,結(jié)果顯示,GPT-4和百度文心一言相對于其他模型綜合性能領(lǐng)先。百度在大模型生態(tài)的構(gòu)建上具備先發(fā)優(yōu)勢,目前已經(jīng)有15萬家企業(yè)申請接入文心一言測試。
一、前言:面向用戶使用場景打造高效的生產(chǎn)力工具6月9日,訊飛星火大模型V1.5正式亮相,時隔一個月后,星火大模型的各項能力獲得了持續(xù)的提升,此次更新的重點正是突破開放式問答、多輪對話能力和數(shù)學(xué)能力。在開放式問答能力上,V1.5主要對多輪對話進行了升級,可以完成特定復(fù)雜的任務(wù)能力,人機共創(chuàng)帶來全新機會。今天我們就對訊飛星火認知大模型V1.5版本進行了一番全面的測試,看看它的理解能力與邏輯處理能力上究竟有著怎樣的表現(xiàn)。
在今日的2023北京智源大會上,智源研究院宣布推出FlagEval大語言模型評測體系。該體系從“能力、任務(wù)、指標(biāo)”三維評測角度出發(fā),結(jié)合超過600個維度對大模型進行全面測評。需要達到百億參數(shù)級別;第二,涌現(xiàn)性,能夠產(chǎn)生預(yù)料之外的新能力;第三,通用性,不限于專門問題或者領(lǐng)域。
鳳凰網(wǎng)科技訊 日前,中國信通院宣布,“可信 AI”大模型評測工作完成,近期將啟動編制工作。中國科學(xué)院自動化研究所、武漢人工智能研究院研發(fā)的“紫東太初”大模型參與了中國信通院組織的可信AI評測工作,順利完成模型開發(fā)和模型能力兩部分評測并最終獲得4 級評分,成為國內(nèi)首家通過該項評測的學(xué)術(shù)機構(gòu)。參與本次評測的“紫東太初”大模型在模型開發(fā)和模型能力兩個方面均表現(xiàn)優(yōu)異。在模型開發(fā)方面,模型開發(fā)流程及工具鏈較為完備,從數(shù)據(jù)管理、模型訓(xùn)練、模型管理到模型部署,全方位支撐大模型開發(fā)工作,助力實現(xiàn)研發(fā)運營一體化。在模型能