擠爆字節(jié)服務(wù)器的Agent到底啥水平？一手實測來了

2025-04-23 14:14 · 稿源：量子位公眾號

聲明:本文來自于微信公眾號量子位，授權(quán)站長之家轉(zhuǎn)載發(fā)布。

“字節(jié)版Manus”有多能打?量子位實測在此。

△扣子智能體生成的活動介紹網(wǎng)頁

我們用光了一天的對話額度，考驗了扣子空間（Coze Space）的信息整理、任務(wù)執(zhí)行、工具調(diào)用等多項技能。

結(jié)果，仍處在早期測試中的扣子空間整體表現(xiàn)已經(jīng)相當(dāng)驚艷，在自主任務(wù)規(guī)劃和資料搜集方面表現(xiàn)不錯，已經(jīng)具備解決很多真實任務(wù)的潛力。

不過在指令遵循方面，還是比較“有自己的想法”。

簡單介紹一下，扣子空間是字節(jié)在剛剛過去的周末推出的智能體協(xié)作系統(tǒng)，官方主打“你和AI Agent協(xié)同辦公的最佳場所”。

由于放出來的demo效果驚艷，過去幾天里還出現(xiàn)了擠爆服務(wù)器的場面。

而第一波拿到邀請碼的幸運兒，在體驗后也第一時間分享了使用感受:

對比智能體確實是一個大飛躍。

更適合用來分析報告，主要作用是幫助用戶搭起整體框架。

當(dāng)然，作為幸運兒之一，我們也趕緊進(jìn)行了一波實測。

有腦有手的通用智能體

扣子平臺的通用智能體，分成了探索和規(guī)劃兩種模式，官方的介紹是這樣的:

實際用下來的話，探索模式更注重效率，而規(guī)劃模式則會對任務(wù)進(jìn)行詳細(xì)拆分，條理更加清晰。

自動整理搜集信息，一句話制作網(wǎng)頁/PPT

先來看探索模式，我們讓它整理了一下波音747系列飛機的發(fā)展歷程。

可以看到，智能體根據(jù)給出的話題自行擴展延伸了許多搜索詞并執(zhí)行了檢索，最后形成了一份文字報告。

利用整理好的資料，可以直接制作出一個網(wǎng)頁（或者PPT也可以），頁面包含了比較豐富的內(nèi)容，排布簡潔，美觀性也說得過去。

并且除了文字內(nèi)容，生成網(wǎng)頁時智能體還補充了產(chǎn)量統(tǒng)計圖和關(guān)鍵時間線。

有腦還有手，自主規(guī)劃執(zhí)行任務(wù)

在規(guī)劃模式下，扣子智能體不僅會整理資料，還支持在虛擬沙盒環(huán)境中操縱電腦、瀏覽網(wǎng)頁，執(zhí)行訂票等操作。

比如我們讓它幫忙訂一張明天（23日）下午從北京到上海的高鐵票。

比較有意思的是，智能體一開始的動作是搜索高鐵票該怎么訂，不清楚是模型自己真的不知道，還是這里強制設(shè)定了檢索過程，但總之，如果真遇到不會的技能，通過檢索來彌補也不失為一種策略。

12306平臺需要登錄才能進(jìn)行訂票，智能體能夠準(zhǔn)確識別到這種狀況，并提示我們手動接管。

不過，可能是沙盒環(huán)境受到了限制，在執(zhí)行檢索之后頁面并未顯示結(jié)果，因此整個流程未能順利完成。

但從智能體的操作過程來看，網(wǎng)頁信息識別和規(guī)劃執(zhí)行能力已經(jīng)很不錯了。

接入MCP，智能體不再“孤軍奮戰(zhàn)”

除此之外，扣子也支持MCP協(xié)議，并接入了飛書文檔、GitHub、MySQL數(shù)據(jù)庫、天氣、地圖等一系列MCP應(yīng)用。

于是結(jié)合MCP，我們來整個大活。

上周，量子位中國AIGC產(chǎn)業(yè)峰會2025成功舉行，我們將其會議流程和嘉賓信息整理到了一份文檔當(dāng)中，要求智能體將這些材料整理出一份網(wǎng)頁版會議指南。

并且還調(diào)用了地圖、天氣和語音合成三個MCP插件，在網(wǎng)頁中加入天氣預(yù)報、交通指南和嘉賓介紹語音播報。

可以看到，智能體首先利用工具從文檔中提取出文本，然后通過MCP協(xié)議調(diào)取了天氣、地圖等信息。

由于任務(wù)比較復(fù)雜，制作耗時也比較長，第一版成品長這樣:

這個版本，要求的內(nèi)容都有呈現(xiàn)，但是活動流程沒有遵循要求的格式，天氣預(yù)報的日期也不對。

所以我們針對這兩點要求智能體進(jìn)行修改，修改的過程沒有一步到位，而是經(jīng)過了多輪調(diào)整。

以及到后面修改的過程才發(fā)現(xiàn)，扣子智能體一開始偷懶并沒有合成嘉賓介紹的語音，只是在網(wǎng)頁里放了按鈕，單獨指出之后才開始合成。

不過最終還是得到了符合期待的頁面，該有的內(nèi)容都正常展現(xiàn)，滑動和點擊查看詳情的功能都成功實現(xiàn)，合成的音頻也能正常播放。

雖然整體經(jīng)歷了不短的時間，但對于一個完全不懂網(wǎng)頁制作的用戶而言，扣子智能體已經(jīng)很好地解決了工具有無的問題。

在時間上，一個可以改進(jìn)的方向是讓可以并行進(jìn)行的任務(wù)同時進(jìn)行，比如這個任務(wù)當(dāng)中的語音合成實際上是獨立于網(wǎng)頁設(shè)計的，而智能體目前采用的是串行方式，帶來了不少的額外耗時。

總結(jié)一下，作為一個通用智能體，扣子智能體的任務(wù)規(guī)劃比較合理，資料搜集能力也表現(xiàn)不錯，不過在指令遵循方面，還是比較“有自己的想法”。

當(dāng)然作為通用智能體，優(yōu)先考量是提升技能的豐富度，盡可能覆蓋更多的任務(wù)，所以在具體任務(wù)細(xì)節(jié)上，也還有不少提升空間。

更懂行的專家智能體

所以，在通用Agent之外，扣子空間還提供了「專家模式」。

Beta測試版首頁，目前有兩個專家Agent:

用戶研究專家:模型學(xué)習(xí)了字節(jié)資深用研專家、產(chǎn)品經(jīng)理等分享的用研工作技巧;
華泰A股觀察助手:扣子團(tuán)隊與華泰證券聯(lián)合孵化的Agent，讓模型學(xué)習(xí)了如何分析上市公司和發(fā)展?jié)摿Φ葘I(yè)知識。

我們實測下來發(fā)現(xiàn)，吸收了更多私人數(shù)據(jù)和第三方數(shù)據(jù)的專家Agent，在實用性方面確實大有提升，尤其在面對復(fù)雜任務(wù)過程中易出錯的問題，它總是能自主發(fā)現(xiàn)錯誤并不斷嘗試更正。

不過由于涉及的領(lǐng)域確實比較專業(yè)，任務(wù)耗時也大大增加，類似股票分析的任務(wù)往往需要運行幾十分鐘。

以下為具體實測過程。

0產(chǎn)品經(jīng)驗也能做出完整用戶調(diào)研

假如有一個新入行的產(chǎn)品經(jīng)理，想要設(shè)計一個北京地區(qū)的戶外活動APP，需要對用戶需求進(jìn)行調(diào)研。

盡管沒有工作經(jīng)驗，也可以使用簡單描述來生成一份用戶訪談提綱。

實測不到1分鐘，這個Agent就生成了一份可下載的Markdown文檔，10個問題基本覆蓋了我們想要調(diào)研的需求。

然后我們又繼續(xù)在輸入框中下達(dá)新指令:

再幫我生成一份調(diào)研問卷。

從思考過程可以看到，面對一個比較模糊的需求，它能通過自主規(guī)劃（設(shè)計約30個問題的調(diào)研問卷）進(jìn)一步明確任務(wù)。

而且評估其生成效果，從一名資深戶外運動愛好者的角度來看，這份調(diào)研報告可謂非常完整——

7個大類、30個小問題，從用戶基本信息到戶外運動參與情況、活動信息與獲取等等，均考慮到了。

接下來，鑒于我們目前缺少真實問卷結(jié)果，所以又給它扔了個“麻煩”:

能直接幫我生成一份虛擬完整用戶調(diào)研數(shù)據(jù)，并最終生成一份用戶分析報告嗎?

大約幾分鐘后，這個Agent自己生成了一份虛擬用戶數(shù)據(jù):

橫向標(biāo)準(zhǔn)項需要長時間拖動才能看完整，豎向共有100條數(shù)據(jù):

當(dāng)然，過程中Agent也自己發(fā)現(xiàn)了錯誤，并多次嘗試更正。

最終，基于虛擬數(shù)據(jù)，Agent確實生成了一份可下載的完整用戶畫像報告。

整體而言，這個用戶研究Agent具備問卷數(shù)據(jù)分析、訪談紀(jì)要總結(jié)、調(diào)研問卷生成、訪談提綱生成這四大能力，即使零產(chǎn)品經(jīng)驗也能通過持續(xù)對話實現(xiàn)自己的調(diào)研需求。

每天都能收到專屬股票早報

而另一個股票專家Agent，由于涉及的領(lǐng)域比較復(fù)雜，官網(wǎng)顯示平均任務(wù)耗時為42分鐘。

能做的事兒包括下面這些:

這里我們簡單測試了其早報生成功能。

支持選定3支關(guān)注的股票（這里就不具體展示選了哪些了），以及三個關(guān)注的板塊，然后給出當(dāng)日A股早報。

有意思的是，相比之前的用戶調(diào)研Agent，這個智能體則更加謹(jǐn)慎了，過程中還需要用戶手動確認(rèn)其階段性完成情況，然后才繼續(xù)執(zhí)行。

而且整個過程搜集了大量數(shù)據(jù):

不過比較遺憾的是，截至發(fā)稿前（已經(jīng)跑了一個多小時），可能由于服務(wù)器資源問題，暫時沒有跑出最終結(jié)果。

然而，從其他網(wǎng)友對該智能體的測試來看，據(jù)稱效果驚艷。

（股票功能）實測蠻驚艷的

小結(jié)一下，相比通用Agent，專家Agent在實用性方面確實更勝一籌。

就產(chǎn)品的初步設(shè)計來看，和“扣子空間”這個名字相呼應(yīng)，扣子團(tuán)隊希望打造一個“通用Agent和專家Agent協(xié)作的系統(tǒng)”。

不過按照扣子團(tuán)隊的長期設(shè)想，最終目標(biāo)則還是打造一個開放的Agent系統(tǒng)——

當(dāng)用戶提出需求時，系統(tǒng)能自動調(diào)度最合適的一位或多位專家Agent協(xié)同完成任務(wù)。

而拋開長遠(yuǎn)不談，僅就當(dāng)下這個測試版扣子空間而言，得益于它在自主規(guī)劃和任務(wù)驅(qū)動方面的加強，對于絕大多數(shù)實際情況，它已經(jīng)是一個可以上手、能用的Agent系統(tǒng)了。

One More Thing

這一次，字節(jié)在扣子空間上還搞了一波“裂變玩法”。

我們實測過程中發(fā)現(xiàn)，在執(zhí)行完第一個任務(wù)之后，還可以得到五個邀請碼。

并且當(dāng)五個邀請碼全部用完后，還能獲得更多邀請資格。

所以相比其他家那種完全封閉的測試，扣子空間的體驗資格也更容易獲得。

（舉報）

相關(guān)推薦

關(guān)鍵詞：

薦接替Manus，字節(jié)的Agent王牌能打多久？

字節(jié)跳動旗下智能體平臺"扣子空間"推出首款由大廠發(fā)布的Agent爆款產(chǎn)品，自4月18日上線后引發(fā)用戶瘋搶邀請碼。該產(chǎn)品具備規(guī)劃、工具調(diào)用和記憶等關(guān)鍵能力，支持游戲攻略撰寫、市場調(diào)研等復(fù)雜需求，并首創(chuàng)"探索模式"和"規(guī)劃模式"雙交互設(shè)計。雖然底層模型能力較DeepResearch和Manus仍有差距，但憑借產(chǎn)品設(shè)計優(yōu)化和量大價優(yōu)的優(yōu)勢，成功填補了Manus留下的市場空白。字節(jié)同步推出企業(yè)版HiAgent解決私有化部署問題，半年內(nèi)智能體業(yè)務(wù)訂單量增長超330%。當(dāng)前行業(yè)正迎來Agent爆發(fā)期，但企業(yè)落地仍面臨系統(tǒng)接入、數(shù)據(jù)安全等挑戰(zhàn)。

?字節(jié) ?Agent ?AI
谷歌A2A協(xié)議是什么？ MCP 和 Agent2Agent 有什么區(qū)別？

4月10日，在GoogleCloudNext大會上，谷歌宣布開源Agent2Agent協(xié)議，這一協(xié)議被業(yè)界視為智能體交互領(lǐng)域的“通用語言”，旨在突破跨平臺、多模態(tài)協(xié)作及安全保障等核心技術(shù)瓶頸，并聯(lián)合全球50余家科技企業(yè)共同構(gòu)建新一代智能生態(tài)。本文從技術(shù)實現(xiàn)與行業(yè)變革兩個維度，深度解析A2A協(xié)議的核心價值。這一協(xié)議的推出，標(biāo)志著智能體協(xié)作模式從封閉系統(tǒng)向開放生態(tài)的范式轉(zhuǎn)變，為產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型注入新動能。

?Agent2Agent協(xié)議 ?智能體交互 ?跨平臺協(xié)作
薦“谷歌版MCP”來了，開源A2A，不同廠商Agent也能協(xié)作

“谷歌版MCP”來了!谷歌推出A2A協(xié)議，即Agent2Agent，能讓AIAgent在不同生態(tài)系統(tǒng)間安全協(xié)作無需考慮框架或供應(yīng)商。不同平臺構(gòu)建的AIAgent之間可以進(jìn)行通信、發(fā)現(xiàn)彼此的能力、協(xié)商任務(wù)并開展協(xié)作，企業(yè)可通過專業(yè)Agent團(tuán)隊處理復(fù)雜工作流。從各大廠最近動作來看，蕪湖，不愧是Agent元年。

?谷歌 ?A2A協(xié)議 ?AI
谷歌開源發(fā)布A2A協(xié)議 Agent2Agent智能體交互協(xié)議詳細(xì)介紹

在GoogleCloudNext25大會上，谷歌宣布開源了首個標(biāo)準(zhǔn)智能體交互協(xié)議——Agent2AgentProtocol，這一舉措有望徹底改變智能體之間的交互方式，打破系統(tǒng)孤島，對智能體的能力、跨平臺協(xié)作以及執(zhí)行效率產(chǎn)生質(zhì)的飛躍。A2A協(xié)議是一種開放標(biāo)準(zhǔn)，旨在為智能體提供一種通用的交互方式，使它們能夠在不同的底層框架和供應(yīng)商之間無縫協(xié)作。每個部分都有指定的內(nèi)容類型，這使得客戶端和遠(yuǎn)程智能體能夠協(xié)商所需的正確格式，并且明確包括用戶界面能力的協(xié)商，比如iframe、視頻、網(wǎng)絡(luò)表單等，從根據(jù)用戶的需求和設(shè)備的能力，提供最佳的用戶體驗。

?Agent2Agent ?Protocol ?智能體交互
「扣子空間」內(nèi)測上線，和 Agent 一起開始你的工作

“摘星空間”平臺正式推出，集生產(chǎn)、專業(yè)領(lǐng)域支持及雙模系統(tǒng)協(xié)作能力，通過多類型AI智能體實現(xiàn)高效辦公，具備生產(chǎn)提升、專家深度支持、雙模協(xié)同等四大核心功能，未來將持續(xù)擴展Agent能力邊界。
薦多模態(tài)和Agent成為大廠AI的新賽點

這是《窄播Weekly》的第52期，本期我們關(guān)注的商業(yè)動態(tài)是:當(dāng)大廠的AI競爭策略開始傾斜向應(yīng)用場景，多模態(tài)能力和代理執(zhí)行成為兩個焦點。大模型落地C端場景的核心，就是讓大模型的能力越來越接近人。沿著這個主旋律，可以劃分出兩個進(jìn)化方向:一個是持續(xù)降低用戶與大模型進(jìn)行有效溝通的難度;另一個則是讓大模型具備執(zhí)行更復(fù)雜任務(wù)的能力。前者的實現(xiàn)，需要給到大模型多

?AI競爭策略 ?多模態(tài)能力 ?大模型應(yīng)用
薦多模態(tài)和Agent成為大廠AI的新賽點

本期《窄播Weekly》聚焦AI大廠競爭策略向應(yīng)用場景傾斜的趨勢，重點分析了多模態(tài)能力和代理執(zhí)行兩大發(fā)展方向。文章指出，大模型落地的核心在于讓人機交互更自然，具體表現(xiàn)為：1）通過多模態(tài)技術(shù)降低用戶使用門檻，如阿里夸克新推出的"拍照問夸克"功能；2）通過代理執(zhí)行提升復(fù)雜任務(wù)處理能力，如字節(jié)、百度等推出的通用Agent產(chǎn)品。國內(nèi)外廠商路徑差異明顯：國?

?AI應(yīng)用場景 ?多模態(tài)能力 ?代理執(zhí)行
薦醒醒，只靠MCP和A2A還帶不來AI Agent的大繁榮

文章探討了AI Agents發(fā)展需要類似HTTPS的安全協(xié)議保障?；仡櫥ヂ?lián)網(wǎng)發(fā)展歷程，TCP/IP協(xié)議統(tǒng)一了網(wǎng)絡(luò)通信標(biāo)準(zhǔn)，HTTP協(xié)議實現(xiàn)了全球互聯(lián)，而HTTPS通過SSL加密解決了安全問題。類比互聯(lián)網(wǎng)發(fā)展，當(dāng)前AI Agents產(chǎn)業(yè)面臨類似挑戰(zhàn)：Anthropic推出的MCP協(xié)議解決智能體與工具連接問題，Google的A2A協(xié)議實現(xiàn)智能體間協(xié)作，但缺乏安全標(biāo)準(zhǔn)。IIFAA聯(lián)盟正致力于構(gòu)建AI Agents安全生態(tài)，推出ASL中間件保障數(shù)據(jù)隱私和身份認(rèn)證。文章指出，正如HTTPS推動電商繁榮，AI Agents的安全標(biāo)準(zhǔn)化將加速商業(yè)化進(jìn)程，螞蟻集團(tuán)等企業(yè)已開始實踐MCP應(yīng)用。未來AI Agents可能通過統(tǒng)一入口調(diào)用工具池，改變現(xiàn)有交互模式。

?TCP/IP協(xié)議 ?互聯(lián)網(wǎng)歷史 ?超文本傳輸協(xié)議
薦5000字長文帶你看懂，Agent世界里的A2A、MCP協(xié)議到底是個啥

Google發(fā)了一個關(guān)于Agent的新開放協(xié)議。叫Agent2Agent，簡稱A2A。希望這篇文章，對你有一些幫助。

?Agent2Agent ?阿里云MCP ?技術(shù)科普
薦5000字長文帶你看懂，Agent世界里的A2A、MCP協(xié)議到底是個啥。

Google發(fā)了一個關(guān)于Agent的新開放協(xié)議。叫Agent2Agent，簡稱A2A。希望這篇文章，對你有一些幫助。

?Google ?Agent2Agent ?阿里云

熱文

3 天
7天

站長商機

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

擠爆字節(jié)服務(wù)器的Agent到底啥水平？一手實測來了

△扣子智能體生成的活動介紹網(wǎng)頁