站長(zhǎng)之家(ChinaZ.com) 11月2日 消息:螞蟻集團(tuán)聯(lián)合北京大學(xué)發(fā)布了面向 DevOps 領(lǐng)域的大語言模型評(píng)測(cè)基準(zhǔn) ——DevOps-Eval。
該評(píng)測(cè)基準(zhǔn)包含了計(jì)劃、編碼、構(gòu)建、測(cè)試、發(fā)布、部署、運(yùn)維和監(jiān)控等8個(gè)類別的選擇題,共計(jì)4850道題目。
此外,還針對(duì) AIOps 任務(wù)做了細(xì)分,并添加了日志解析、時(shí)序異常檢測(cè)、時(shí)序分類和根因分析等任務(wù)。
目前,DevOps-Eval已發(fā)布了第一期的評(píng)測(cè)榜單,評(píng)測(cè)了 OpsGpt、Qwen、Baichuan 和 Internlm 等開源大語言模型。DevOps-Eval 的評(píng)測(cè)方式包括 Zero-shot 和 Few-shot,評(píng)測(cè)結(jié)果顯示各模型得分相差不大。
未來,DevOps-Eval 將持續(xù)優(yōu)化,豐富評(píng)測(cè)數(shù)據(jù)集,重點(diǎn)關(guān)注 AIOps 領(lǐng)域,并增加更多的評(píng)測(cè)模型。
GitHub 地址:
https://github.com/codefuse-ai/codefuse-devops-eval
HuggingFace 地址:
https://huggingface.co/datasets/codefuse-admin/devopseval-exam
(舉報(bào))