快科技4月9日消息,亞馬遜正式推出新一代生成式AI語音模型Nova Sonic,標(biāo)志著其在人工智能語音領(lǐng)域取得重大突破。
這款創(chuàng)新模型能夠原生處理語音輸入并生成自然流暢的語音輸出,在速度、語音識別準(zhǔn)確率和對話質(zhì)量等核心性能指標(biāo)上,已達到與OpenAI、谷歌等科技巨頭的尖端語音模型相媲美的水平。
Nova Sonic通過亞馬遜Bedrock開發(fā)者平臺提供服務(wù),采用創(chuàng)新的雙向流式API接口,為企業(yè)級AI應(yīng)用開發(fā)提供了強大支持。亞馬遜特別強調(diào),該模型在成本效益方面具有顯著優(yōu)勢,其價格比OpenAI的GPT-4o便宜約80%??胺Q目前市場上最具性價比的AI語音解決方案。
與競爭對手的AI語音模型相比,Nova Sonic在將用戶請求路由到不同API方面表現(xiàn)出色。這一能力使得Nova Sonic能夠知曉何時需要從互聯(lián)網(wǎng)獲取實時信息、解析專有數(shù)據(jù)源,或者在外部應(yīng)用程序中采取行動,并使用合適的工具來完成任務(wù)。
在雙向?qū)υ捴校琋ova Sonic會等待合適的時機”發(fā)言,會考慮到說話者的停頓和打斷等情況。此外,Nova Sonic還能夠為用戶的語音生成文本記錄,開發(fā)者可以將這些文本用于各種應(yīng)用場景。
亞馬遜AGI部門首席科學(xué)家羅希特?普拉薩德透露,Nova Sonic的部分技術(shù)已經(jīng)應(yīng)用于升級版數(shù)字助手Alexa 。該模型的推出是亞馬遜構(gòu)建人工通用智能(AGI)戰(zhàn)略的重要一步,未來還將推出支持多模態(tài)理解的AI模型,涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。
(舉報)