AIGC 和 大語言模型 LLM 的快速發(fā)展正推動人工智能領域的進步和創(chuàng)新,LLM 作為 AIGC 的核心模塊,其發(fā)展尤為引人注目。隨著技術的不斷進步,大語言模型的能力也不斷進化,一方面,訓練數(shù)據(jù)量與算力的提升,AI 的生成內容更準確、更智能;另一方面,大模型的交互方式,也從文本升級為音頻、視頻的多模態(tài),可以支持人與AI的語音對話等。
在多模態(tài)大模型的趨勢下,RTC?成為了人與?AI?交互中的重要一環(huán),越來越多的企業(yè)與開發(fā)者紛紛探索在大語言模型或者 AI 應用場景中快速集成有效的音視頻能力,構建 AI陪聊、AI口語老師等一系列場景。
對此,聲網推出?Linux Server SDK,支持當下大模型編程最主流的兩類語言?Python?與?Go?,企業(yè)可基于聲網?Linux SDK?,快速接入大模型,上線具備 RTC 傳輸能力的 AI 應用場景,如 AI 語音助手、AI 口語老師、虛擬戀人、多人語音游戲等。
聲網 Linux Server SDK 以 API 的形式提供了一系列的功能,例如 Linux Server SDK for Go 可支持連接管理、信令發(fā)送、音頻訂閱與推送、事件回調通知等,其中信令傳輸能力不僅可應用于創(chuàng)建 DataStream 數(shù)據(jù)流,并發(fā)送信令,也能應用在大模型中發(fā)送數(shù)據(jù)流消息,例如將 TTS、STT 和 LLM 的結果發(fā)送給客戶端。
此外,Linux Server SDK 還提供了使用時序的教程,從建立連接、訂閱遠端用戶的音頻、獲取遠端用戶的音頻數(shù)據(jù)、推送音頻數(shù)據(jù)、發(fā)送文字信令、斷開連接等不同流程的詳細描述,幫助開發(fā)者快速上手。
聲網 Linux Server SDK 客戶集成實踐圖
憑借在 RTC 行業(yè)日積月累的深耕細作,聲網 Linux Server SDK 在 RTC 的低延時、抗弱網、跨國傳輸、并發(fā)等方面具備優(yōu)秀的性能。
·??? ? ? 低延時與全球部署:聲網自研的 SD-RTN? 實時傳輸網絡覆蓋了全球200多個國家與地區(qū),音視頻的全球端到端延遲平均達到200ms。聲網還通過優(yōu)化網絡傳輸協(xié)議和算法,進一步降低音視頻傳輸?shù)难舆t。
·?? ? ? ?智能路由與抗弱網:針對網絡環(huán)境的波動,聲網的智能路由技術能夠根據(jù)用戶的網絡狀況自動選擇特出的網絡路徑,確保通話的穩(wěn)定性和流暢性。聲網的抗弱網傳輸與抗丟包算法,結合網絡探測、抗丟包技術、自適應jitter buffer、網絡擁塞控制策略等,為用戶在各種網絡環(huán)境下提供流暢的互動體驗。
·?? ? ? ?30000+終端機型適配:由于不同的設備可能對于語音處理效果產生影響,聲網的 RTC SDK 支持30000+終端機型適配,中低端機型覆蓋廣,幫助大模型與客戶解決了多設備兼容性的后顧之憂。
·?? ? ? ?并發(fā)性能:客戶集成聲網 Linux Server SDK 后可支持上百路的音視頻并發(fā)。
·?? ? ? ?支持多頻道多路流:聲網 SDK 支持用戶同時加入多個頻道,同一時間可以在多個頻道中接收和發(fā)布音視頻流。
目前聲網 Linux Server SDK 為 Alpha 版,如您想進一步了解或接入,可在聲網微信公眾號找到這篇文章,掃描文章底部的二維碼咨詢。
(推廣)