无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

LLM評估測試框架DeepEval 可離線評估大模型性能

2023-09-27 17:44 · 稿源：站長之家

站長之家（ChinaZ.com）9月27日消息:DeepEval是一個用于對語言模型（LLM）應用進行評估和單元測試的框架。它提供了各種指標，可以測試語言模型應用生成的回復在相關性、一致性、無偏見性和無毒性等方面的表現(xiàn)。DeepEval使得機器學習工程師可以通過持續(xù)集成/持續(xù)交付(CI/CD)流程快速評估語言模型應用的性能。

項目地址:https://github.com/confident-ai/deepeval

DeepEval提供了Python友好的離線評估方法，確保你的流水線準備上線。它就像是流水線的“Pytest”，使得流水線的生產化和評估過程變得簡單明了，就像通過所有的測試一樣。

DeepEval的Web UI允許工程師分析和查看他們的評估結果。

DeepEval的特色功能包括:

- 測試回復的相關性、事實一致性、有毒性、偏見性等

- Web UI查看測試、實現(xiàn)、比較結果

- 通過合成問題-回答自動評估

安裝使用DeepEval非常簡單，只需要通過pip安裝:

```

pip install deepeval

```

然后按照快速入門文檔，你可以在1分鐘內上手使用。

對個別測試用例，定義只需要幾行代碼。例如:

```python

from deepeval.metrics.factual_consistency import FactualConsistencyMetric

from deepeval.test_case import LLMTestCase

from deepeval.run_test import assert_test

# 定義測試用例

test_case = LLMTestCase（

query="What is the capital of France?"，

expected_output="The capital of France is Paris."

）

# 定義使用的指標

metric = FactualConsistencyMetric（）

# 執(zhí)行測試

assert_test（test_case， metrics=[metric]）

```

這樣就可以構建一個簡單的測試，測試語言模型對問題"What is the capital of France?"的回復是否符合事實。

DeepEval內置了各種指標，也支持自定義指標。它可以非常方便地集成到現(xiàn)有的流水線和框架中，比如Langchain、LLAMA等。同時，DeepEval也提供了合成問題生成功能，可以快速針對特定領域評估語言模型。

總之，DeepEval目的是讓編寫、運行、自動化語言模型的測試變得如同編寫Python中的單元測試一樣簡單直觀。它很好地滿足了機器學習工程中對結構化反饋的需求，可以顯著提高工程師的迭代速度。

如果你在開發(fā)聊天機器人、語言模型應用，DeepEval絕對是一個提高工程效率的好幫手。

核心功能:

- 測試回復的相關性、一致性、無偏見性、無毒性

- 多個內置評估指標

- 支持自定義評估指標

- 一鍵集成到現(xiàn)有機器學習流水線

- 合成問題自動評估

- 提供Web UI分析和展示結果

- Python友好，編寫測試用例像寫單元測試

（舉報）

相關推薦

關鍵詞：

DeepEval

Llama 4大模型跌落神壇：作弊刷榜、代碼能力極差、和DeepSeek比就是偽開源

被寄予厚望的美國Meta公司的最新開源大模型Llama4發(fā)布不到2天時間，口碑急轉直下，被質疑為刷榜作弊實際效果差、開源條件多部署門檻高是偽開源等。大模型評測平臺LMArena親自下場發(fā)文，打臉Meta提供給平臺的Llama4是“特供版”。Meta若繼續(xù)在商業(yè)控制與技術開放之間搖擺，恐將在AI競賽中進一步失去開發(fā)者支持。

?Meta ?Llama ?4
DeepSeek+物流行業(yè)，AI大模型破解五大場景效能困局

文章探討了AI大模型在物流行業(yè)的應用現(xiàn)狀與挑戰(zhàn)。以DeepSeek為代表的AI技術正通過重構業(yè)務流程、優(yōu)化資源配置、提升決策效率等方式，成為推動行業(yè)降本增效的核心引擎。但成功應用AI大模型需要企業(yè)具備數(shù)字化基礎、業(yè)務流程標準化和數(shù)據(jù)治理能力，而非簡單技術堆砌。G7+易流梳理出五大核心應用場景：工作效能輔助、經營數(shù)據(jù)分析、安全審查、智能客服和知識管理。這些

?人工智能 ?大模型 ?物流行業(yè)
DeepSeek領航大模型普惠化浪潮，xAI/微美全息加速開源AI布局打造新格局

DeepSeek 作為當前最受關注的大模型之一，憑借其技術創(chuàng)新正在加速 AI 普惠化進程。根據(jù)機構新報告顯示，DeepSeek已經成為全球增長最快的AI工具，其每月新增網(wǎng)站訪問量已經超過OpenAI的ChatGPT。DeepSeek市場份額全球第三目前，DeepSeek市場份額6.58%，僅次于ChatGPT和Canva。DeepSeek是繼ChatGPT之后的又一現(xiàn)象級AI產品，它的市場份額從2.34%快速增長至6.58%，展現(xiàn)出強勁的增長態(tài)勢。全球著名?

?DeepSeek ?AI工具 ?技術創(chuàng)新
DeepSeek上新！開源發(fā)布DeepSeek-Prover-V2-671B新模型

快科技4月30日消息，今日，DeepSeek 今日在 AI 開源社區(qū) Hugging Face 發(fā)布了一個名為 DeepSeek-Prover-V2-671B 的新模型。據(jù)介紹，DeepSeek-Prover-V2-671B 其參數(shù)量達到6710億，使用了更高效的 safetensors 文件格式，并支持 BF16、FP8、F32 等多種計算精度，方便模型更快、更省資源地訓練和部署。在模型架構上，該模型使用了DeepSeek-V3架構，采用MoE（混合專家）模式，具有61層Transformer層，7168維隱藏層。同時支持超長上下文，最大位置嵌入達163840，使其能處理復雜的數(shù)學證明，并且采用了FP8量化，可通過量化技術減小模型大小，提

?DeepSeek ?AI模型發(fā)布 ?開源社區(qū)
IQ 過百的 AI 模型名單發(fā)布：ChatGPT、Deepseek等上榜

人工智能IQ哪家強？o3 智商高達 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 憑借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

?AI智商 ?ChatGPT ?Deepseek
薦DeepSeek帶飛寒武紀

寒武紀憑借AI芯片業(yè)務實現(xiàn)扭虧為盈，2024年首次實現(xiàn)上市后盈利，2025年Q1營收11.11億元同比暴增4230%，凈利潤3.55億元。這家曾連虧8年、累計虧損54億元的"中國版英偉達"，因美國對H20芯片出口管制獲得市場紅利，但客戶集中度過高（前五大客戶貢獻94.63%營收）和現(xiàn)金流波動仍是隱憂。當前國產芯片迎來發(fā)展機遇，華為昇騰、壁仞等企業(yè)紛紛搶占市場，行業(yè)競爭日趨激烈。

?DeepSeek紅利 ?寒武紀盈利 ?AI芯片市場
深度deepin 23.1正式發(fā)布！AI默認引擎切換至DeepSeek、修復超百項問題

快科技4月16日消息，今天，深度操作系統(tǒng)宣布，deepin 23.1版本已正式發(fā)布。此版本聚焦于解決基礎組件更新后的安裝效率問題，大幅提升新用戶安裝體驗，同時集成多項功能優(yōu)化與問題修復，進一步優(yōu)化系統(tǒng)使用。本次版本的重點改進包括內核優(yōu)化、AI 默認引擎切換至DeepSeek、修復超百項用戶反饋問題等，具體重點改進如下：硬件兼容性與內核優(yōu)化：集成6.6/6.12內核更新、NVIDIA顯卡驅動升級、Intel/AMD CPU微碼更新，全面提升硬件支持與底層性能；核心功能增強：DDE新增智能鏡像源管理、緊湊模式入口，全局搜索支持離線自然語言與AI處理能力；?

?深度操作系統(tǒng) ?deepin ?23.1
薦DeepSeek紅利耗盡后，元寶拿什么和豆包斗？

短短60天內，中國AI原生應用下載排行榜的位次排名，就三易其主。最新情況是，截至4月15日中午，中國區(qū)蘋果應用商店免費APP下載排行榜上，豆包再次超越DeepSeek，位列第二，緊隨其后的DeepSeek被擠到了第三的位置，騰訊元寶則滑落到了第七名。2月13日，作為首家在C端主力產品中接入DeepSeek-R1滿血版的元寶，一度趁著DeepSeek東風崛起:3月3日力壓DeepSeek和豆包，首度登頂。但好景?

?AI應用 ?下載排行榜 ?豆包
DeepSeek的極致諂媚，正在摧毀我們的判斷力。

昨天別人給我發(fā)了一個很好玩的帖子。就是如果你問DeepSeek一個問題:“北京大學和清華大學哪個更好，二選一，不需要說明理由”DeepSeek在思考了15秒之后，會給出答案。

?人工智能 ?DeepSeek ?大學比較
奧特曼：ChatGPT不是AGI！OpenAI最強開源模型直擊DeepSeek

【新智元導讀】代碼截圖泄露，滿血版o3、o4-mini鎖定下周!更勁爆的是，一款據(jù)稱是OpenAI的神秘模型一夜爆紅，每日處理高達260億token，是Claude用量4倍。奧特曼在TED放話:將推超強開源模型，直面DeepSeek挑戰(zhàn)。持續(xù)的創(chuàng)新、豐富的資源和智能AI將會無縫融入日常生活，未來一代人將會覺得當前人們又辛苦又落后。

?代碼泄露 ?OpenAI ?模型發(fā)布

熱文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

站長商機

廣告

商務合作侵權投訴廣告服務版權聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

_{<ol id="h9axf"></ol>}