作者: 周鑫?阿里云瓴羊智能科技高檔技術(shù)專家
近年來,盡管 AI Agent 實(shí)現(xiàn)了爆發(fā)式增長(zhǎng),但許多企業(yè)仍面臨 AI 應(yīng)用與實(shí)際業(yè)務(wù)脫節(jié)的難題,其關(guān)鍵原因之一,在于數(shù)據(jù)質(zhì)量不佳。根據(jù)Gartner的預(yù)測(cè),2025 年中國(guó)至少三分之二的生成式人工智能項(xiàng)目,將由于數(shù)據(jù)質(zhì)量差而面臨“終結(jié)”。
AI時(shí)代,如何才能把握住數(shù)據(jù)治理機(jī)會(huì),讓數(shù)據(jù)真正為業(yè)務(wù)服務(wù)?
瓴羊「數(shù)據(jù)薈」數(shù)據(jù)Meet Up 第 3 站線上開講,為大模型時(shí)代的數(shù)據(jù)治理創(chuàng)新實(shí)踐獻(xiàn)智獻(xiàn)策。阿里云智能集團(tuán)瓴羊高檔技術(shù)專家周鑫圍繞“AI驅(qū)動(dòng)的數(shù)據(jù)治理”,從數(shù)據(jù)治理面臨的難題出發(fā),聚焦AI時(shí)代數(shù)據(jù)治理機(jī)會(huì),剖析了瓴羊Dataphin在面對(duì)數(shù)據(jù)治理這一關(guān)鍵議題時(shí)的提效方案。
數(shù)據(jù)標(biāo)準(zhǔn):數(shù)據(jù)治理“化零為整”的核心
從實(shí)施鏈路來看,數(shù)據(jù)治理為何如此困難?
“整個(gè)數(shù)據(jù)治理實(shí)施過程困難重重,主要體現(xiàn)在現(xiàn)狀評(píng)估難、組織架構(gòu)復(fù)雜、實(shí)施成本高,治理迭代難,造成比較大的原因是整個(gè)治理過程關(guān)注的點(diǎn)太多了,沒有核心的抓手”,周鑫表示,大部分企業(yè)進(jìn)行數(shù)據(jù)治理時(shí),往往經(jīng)歷評(píng)估現(xiàn)狀、制定目標(biāo)、執(zhí)行計(jì)劃、持續(xù)監(jiān)控四個(gè)步驟,每一項(xiàng)都需要大量的工作,導(dǎo)致治理動(dòng)作非常零散。
這些零散的需求點(diǎn),導(dǎo)致企業(yè)在實(shí)施階段很容易偏離治理目標(biāo),缺少一個(gè)核心抓手。即使艱難地完成治理,后續(xù)迭代也非常困難,隨著業(yè)務(wù)的變化,需要調(diào)整治理目標(biāo)時(shí),沒有辦法增量的迭代,又需要重頭開始評(píng)估執(zhí)行,已完成的治理項(xiàng)的變更影響也需要全量評(píng)估,使得治理成本變得非常高。
因此,問題的關(guān)鍵,是找到數(shù)據(jù)治理的核心抓手——數(shù)據(jù)標(biāo)準(zhǔn)。
近年來,國(guó)家頻頻頒布數(shù)據(jù)標(biāo)準(zhǔn)相關(guān)政策規(guī)范,從《“數(shù)據(jù)要素x”三年行動(dòng)計(jì)劃》到國(guó)家數(shù)據(jù)標(biāo)準(zhǔn)體系,再到全國(guó)數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)委員會(huì),都印證了數(shù)據(jù)標(biāo)準(zhǔn)的重要位置。
“企業(yè)只需完成數(shù)據(jù)標(biāo)準(zhǔn)的梳理,即可完成大部分?jǐn)?shù)據(jù)治理工作”,周鑫表示,以瓴羊Dataphin為例,企業(yè)完成業(yè)務(wù)與數(shù)據(jù)盤點(diǎn)后,統(tǒng)一進(jìn)入到Data Catalog,在此基礎(chǔ)上梳理數(shù)據(jù)標(biāo)準(zhǔn)。Dataphin在數(shù)據(jù)標(biāo)準(zhǔn)的建立過程中會(huì)自動(dòng)生成元數(shù)據(jù)和內(nèi)容的監(jiān)控,數(shù)據(jù)標(biāo)準(zhǔn)會(huì)貫穿數(shù)據(jù)的整個(gè)生命周期,實(shí)現(xiàn)對(duì)數(shù)據(jù)的事前、事中和事后的標(biāo)準(zhǔn)落標(biāo)稽核。
例如,在身份證號(hào)的標(biāo)準(zhǔn)設(shè)置中,系統(tǒng)會(huì)根據(jù)用戶填寫的標(biāo)準(zhǔn)屬性,自動(dòng)生成一系列元數(shù)據(jù)和內(nèi)容監(jiān)控,以及安全的分級(jí)。用戶在治理過程中,只需關(guān)心那些沒有滿足標(biāo)準(zhǔn)的數(shù)據(jù)即可。這使數(shù)據(jù)標(biāo)準(zhǔn)的落標(biāo)情況,成為衡量數(shù)據(jù)質(zhì)量?jī)?yōu)劣的“晴雨表”,符合數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)越多,數(shù)據(jù)質(zhì)量也就越好。
AI激活一池春水,數(shù)據(jù)治理的提效之道
AI時(shí)代奔迅而至,激活了數(shù)據(jù)治理的一池春水。在AI技術(shù)爆發(fā)式增長(zhǎng)的當(dāng)下,數(shù)據(jù)治理的機(jī)會(huì)在哪里?
周鑫認(rèn)為,結(jié)合AI對(duì)數(shù)據(jù)治理提效的實(shí)現(xiàn)完整的主動(dòng)數(shù)據(jù)治理,包括以下幾點(diǎn)。
首先,通過AI能很好地理解結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù),自動(dòng)化地進(jìn)行業(yè)務(wù)梳理, 促進(jìn)數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)的效率。其次,在數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)完成后,企業(yè)可借助AI實(shí)現(xiàn)自動(dòng)治理:構(gòu)建質(zhì)量規(guī)則,實(shí)現(xiàn)分類分級(jí)和特征識(shí)別,管控?cái)?shù)據(jù)整個(gè)生命周期。最后,數(shù)據(jù)治理動(dòng)作完成后,AI還可自動(dòng)評(píng)估治理效果,自動(dòng)改進(jìn)治理策略,形成數(shù)據(jù)治理良性內(nèi)循環(huán)。
Dataphin解決方案:讓“好數(shù)據(jù)”成就“好業(yè)務(wù)”
“我是電商業(yè)務(wù)負(fù)責(zé)人,今年大促目標(biāo)是GMV提升20%,數(shù)據(jù)能幫我做什么?”
“我正在準(zhǔn)備做運(yùn)營(yíng)外投,對(duì)于圈選母嬰群,希望從數(shù)據(jù)上結(jié)合知識(shí)庫(kù),有什么建議?”
“我是產(chǎn)品運(yùn)營(yíng),我想了解產(chǎn)品的銷量指標(biāo)定義是什么?”
……
在AI的助力下,以上數(shù)據(jù)資產(chǎn)應(yīng)用問題,都可以通過對(duì)話的方式得到回應(yīng)。
而承載這一功能的平臺(tái),便是智能小D。
“智能小D承擔(dān)了數(shù)據(jù)PD與數(shù)據(jù)架構(gòu)師的角色,它可以根據(jù)每一條策略,找到與之對(duì)應(yīng)的數(shù)據(jù)資產(chǎn)表”,周鑫表示,智能小D基于Dataphin打造,由阿里云百煉平臺(tái)和開源Dify提供支持,擅長(zhǎng)數(shù)據(jù)知識(shí)的梳理和應(yīng)用。未來,智能小D將進(jìn)一步支持非結(jié)構(gòu)化知識(shí)和智能體管理,用戶還可通過掛載自定義智能體,實(shí)現(xiàn)智能體的個(gè)性化定義與功能拓展。
借助智能小D,用戶可以直接基于業(yè)務(wù)需求找數(shù)據(jù),如“我要找客戶表”、“我要做客戶分層,需要哪些表?”、“銷量下降明顯,可能的原因有哪些?”等,大模型將根據(jù)用戶需求,通過分解、聯(lián)想等方式,為其快速提供對(duì)應(yīng)的數(shù)據(jù)資產(chǎn)表,讓用戶無需將需求拆解成資產(chǎn)的關(guān)鍵詞,也能實(shí)現(xiàn)輕松找數(shù)。
除此之外,Dataphin還在屬性豐富上引入了AI能力,簡(jiǎn)化了資產(chǎn)上架的流程。以往,一張表上架到目錄,需要?dú)v經(jīng)以下幾個(gè)步驟:針對(duì)表及其所有字段,逐一描述其名稱與含義;熟知上架目錄,制定便于搜索的標(biāo)簽;若過程中發(fā)現(xiàn)表中的指標(biāo)也需要上架,還需返回重新填寫目錄和標(biāo)簽。
“一套幾百個(gè)字段下來,至少半小時(shí)才能將這張表完整地上架,我們引入AI能力后,把速度提高了近百倍”,周鑫表示,Dataphin可以幫用戶智能生成所有描述,規(guī)劃所有目錄,自動(dòng)識(shí)別潛在指標(biāo),待用戶確認(rèn)無誤后,即可一鍵上架,幾十秒即可完成所有資產(chǎn)上架工作。
在特征識(shí)別方面,Dataphin通過引入AI能力,降低了識(shí)別門檻,加快了識(shí)別速度。例如,在進(jìn)行性別字段識(shí)別時(shí),需要編寫SQL能夠識(shí)別的正則表達(dá)式,還需要探查多種數(shù)據(jù)的表達(dá),例如:(男/女、Malel/Female、Sex/性別),很難一次性枚舉種種條件。引入AI能力后,Dataphin即可以自動(dòng)生成所有的正則表達(dá)式,幾十秒內(nèi)即可完成一次特征識(shí)別。
周鑫指出,目前Dataphin的數(shù)據(jù)治理AI計(jì)劃正處于提效階段。在這一階段,Dataphin將進(jìn)一步引入更多行業(yè)和業(yè)務(wù)知識(shí),增強(qiáng)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的理解能力,并輔助生成質(zhì)量規(guī)則。隨著提效階段的完成,數(shù)據(jù)治理將邁入自動(dòng)化階段,平臺(tái)將實(shí)現(xiàn)質(zhì)量規(guī)則的自動(dòng)生成、分類分級(jí)的自動(dòng)處理,以及敏感數(shù)據(jù)的自動(dòng)識(shí)別等功能。最終,在更高階的智能化階段,Dataphin將基于對(duì)業(yè)務(wù)流程的深度理解,實(shí)現(xiàn)系統(tǒng)自動(dòng)生成數(shù)據(jù)標(biāo)準(zhǔn),全面提升數(shù)據(jù)治理的智能化水平。
知名的信息技術(shù)領(lǐng)域思想佼佼者J. Ladley 在其著作《數(shù)據(jù)治理》中宣稱,數(shù)據(jù)治理的最終目標(biāo)是讓它不再是一個(gè)獨(dú)立的計(jì)劃,而是成為業(yè)務(wù)核心的一部分。未來,瓴羊旗下Dataphin將發(fā)揮自身在數(shù)據(jù)治理領(lǐng)域的深厚沉淀,致力于將數(shù)據(jù)治理融入業(yè)務(wù)環(huán)節(jié),推動(dòng)其從支撐性工具走向核心驅(qū)動(dòng)力,以智能化手段賦能企業(yè)戰(zhàn)略決策與創(chuàng)新實(shí)踐。
(推廣)