【摘要】建立AI大模型的可信數(shù)據(jù)空間(Data-trust-space),提供集風(fēng)險(xiǎn)分級(jí)、數(shù)據(jù)全流程管理、多用戶微隔離于一體的可信數(shù)據(jù)空間即基礎(chǔ)設(shè)施(DaaI,Data-trust-space as a Infrastructure),保護(hù)行業(yè)數(shù)據(jù)和模型參數(shù),打通上下游產(chǎn)業(yè)鏈,更好地服務(wù)大模型企業(yè)和行業(yè)生態(tài)。
上文《淺談AI大模型的數(shù)據(jù)特點(diǎn)和應(yīng)用問題》中曾提到:“基于共享彈性計(jì)算資源的云計(jì)算模式,更適合多租戶訪問、隨用隨訓(xùn)隨訓(xùn)隨取的場景,有效解決大模型成本高昂的問題??尚庞?jì)算、隱私計(jì)算在大模型時(shí)代迎來全新機(jī)遇,將在數(shù)據(jù)安全方面發(fā)揮更大的作用。各地政府鼓勵(lì)的大模型產(chǎn)業(yè)園,也有望推動(dòng)大模型數(shù)據(jù)產(chǎn)品化,緩解商業(yè)變現(xiàn)和生態(tài)構(gòu)建的壓力?!蹦敲矗绾瓮诰虼竽P椭械臄?shù)據(jù)要素價(jià)值,提升風(fēng)險(xiǎn)檢測和安全防護(hù)能力,發(fā)展負(fù)責(zé)任、可信任、受控的人工智能呢?
數(shù)篷科技提出可信數(shù)據(jù)空間即基礎(chǔ)設(shè)施(DaaI),是指在共享資源的云計(jì)算服務(wù)模式中,基于可信數(shù)據(jù)空間,結(jié)合大模型風(fēng)險(xiǎn)分級(jí)、數(shù)據(jù)全流程管理、多用戶微隔離等特點(diǎn),為大模型提供安全、可靠、有效且靈活的數(shù)據(jù)運(yùn)行環(huán)境,實(shí)現(xiàn)跨云疊加和跨產(chǎn)業(yè)鏈打通,有助于進(jìn)一步解決大模型的成本、安全和商業(yè)生態(tài)問題。
圖1? 可信數(shù)據(jù)空間即基礎(chǔ)設(shè)施(DaaI)特點(diǎn)
首先,DaaI根據(jù)大模型的不同風(fēng)險(xiǎn)級(jí)別,設(shè)置不同等級(jí)的可信數(shù)據(jù)空間,對不同敏感級(jí)別的數(shù)據(jù)實(shí)施相應(yīng)的安全保護(hù)措施,比如涉及跨境數(shù)據(jù)流動(dòng)、敏感行業(yè)應(yīng)用等的大模型,其可信數(shù)據(jù)空間的風(fēng)險(xiǎn)等級(jí)相對較高,從而監(jiān)控跨境跨云大模型的數(shù)據(jù)“投喂”行為,避免觸碰數(shù)據(jù)跨境流動(dòng)等的監(jiān)管紅線。
其次,可信數(shù)據(jù)空間針對不同數(shù)據(jù)進(jìn)行準(zhǔn)確管理,覆蓋數(shù)據(jù)采集、訓(xùn)練、推理、應(yīng)用等在大模型中運(yùn)行的各個(gè)階段,有效跟蹤數(shù)據(jù)流轉(zhuǎn)、防止數(shù)據(jù)泄露,使得可信空間中流轉(zhuǎn)的都是可信數(shù)據(jù),確保數(shù)據(jù)的完整性和合規(guī)性。
再次,可信數(shù)據(jù)空間對多用戶進(jìn)行微隔離防護(hù),使得多個(gè)用戶在同一物理環(huán)境中獨(dú)立運(yùn)行其大模型,提高了資源利用率和系統(tǒng)效率,間接降低了使用成本。通過對東西向訪問進(jìn)行持續(xù)檢測和內(nèi)網(wǎng)設(shè)備的細(xì)粒度訪問控制,準(zhǔn)確識(shí)別訪問主體和客體,有效阻止攻擊者的橫向移動(dòng),消除企業(yè)用戶對于大模型數(shù)據(jù)開發(fā)利用的后顧之憂,保障了企業(yè)對于數(shù)據(jù)的可信使用和可信交易。
建設(shè)數(shù)據(jù)融合的可信空間,可以使多個(gè)主體在可信空間內(nèi)進(jìn)行數(shù)據(jù)流轉(zhuǎn)、使用,保證數(shù)據(jù)在軟件定義的邊界內(nèi)“可用不可拿”、“共享但不外泄”。數(shù)據(jù)在上下游產(chǎn)業(yè)鏈之間流動(dòng),連接了數(shù)據(jù)提供者、數(shù)據(jù)使用者、算法開發(fā)者、大模型數(shù)據(jù)平臺(tái)方等產(chǎn)業(yè)鏈上的各個(gè)主體,形成完整的生態(tài)體系。數(shù)據(jù)提供者可以放心地提供高質(zhì)量數(shù)據(jù)、生成模型參數(shù);大模型數(shù)據(jù)平臺(tái)方則利用平臺(tái)的集聚效應(yīng),可以放心地開放平臺(tái)能力,讓高價(jià)值數(shù)據(jù)更好地存儲(chǔ)、使用和流轉(zhuǎn);數(shù)據(jù)使用者利用產(chǎn)生的行業(yè)大模型、邊緣大模型成果,優(yōu)化改善生產(chǎn)生活中的實(shí)際問題,體現(xiàn)大模型賦能千行百業(yè)的落地效果(如圖2所示)。
圖2? 可信數(shù)據(jù)空間(Data-trust-space)示意圖
DaaI構(gòu)建端到端的可信數(shù)據(jù)空間,可以APP、SDK、API等多種形態(tài),部署在本地設(shè)備或公有云上,以小切口嵌入IaaS、PaaS算力平臺(tái)和SaaS應(yīng)用中。數(shù)據(jù)在異構(gòu)云環(huán)境之間流動(dòng),打破了不同云服務(wù)商之間的壁壘,實(shí)現(xiàn)了數(shù)據(jù)和計(jì)算資源的跨平臺(tái)共享和協(xié)同工作。
如何緩解大模型的商業(yè)生態(tài)問題呢?公共政務(wù)數(shù)據(jù)一般具有較高的數(shù)據(jù)質(zhì)量和數(shù)據(jù)價(jià)值,包括政法、醫(yī)療、稅務(wù)、教育、商業(yè)等數(shù)據(jù)。地方政府通過建設(shè)大模型產(chǎn)業(yè)園,并以此為載體依托匯聚上下游產(chǎn)業(yè)生態(tài),可以在充分信任的基礎(chǔ)上開展這些數(shù)據(jù)的價(jià)值運(yùn)營。應(yīng)用DaaI,有助于更高頻次利用公共數(shù)據(jù),撮合各行業(yè)的公共數(shù)據(jù)交易,挖掘產(chǎn)業(yè)應(yīng)用中的數(shù)據(jù)要素價(jià)值,助力實(shí)現(xiàn)數(shù)據(jù)要素的資產(chǎn)化和資本化,打通商業(yè)生態(tài)的閉環(huán)。
圖3? 大模型產(chǎn)業(yè)園的場景應(yīng)用
大模型的快速發(fā)展,加速了數(shù)據(jù)要素流動(dòng),使得行業(yè)應(yīng)用場景愈發(fā)復(fù)雜,數(shù)據(jù)安全風(fēng)險(xiǎn)倍增。未來,數(shù)篷科技將持續(xù)拓展可信數(shù)據(jù)空間即基礎(chǔ)設(shè)施DaaI,提供“風(fēng)險(xiǎn)分級(jí)”、數(shù)據(jù)“全過程”、“多用戶”微隔離、“跨云跨產(chǎn)業(yè)鏈”打通的云上解決方案,解決大模型的數(shù)據(jù)安全問題,保障大模型平臺(tái)、開發(fā)方、使用方、監(jiān)管方等多元主體的權(quán)益,促使數(shù)據(jù)轉(zhuǎn)化為可量化、可交易、可持續(xù)增值的資產(chǎn),推動(dòng)大模型產(chǎn)業(yè)和更廣泛的數(shù)據(jù)要素市場發(fā)展。
(推廣)