本實用指南將幫助用戶了解,如何配置個人電腦才能更有效地使用生成式AI大語言模型
生成式人工智能(GenAI)徹底改變了計算世界,戴爾科技的用戶都開始考慮借助大語言模型(LLM)去開發(fā)能夠提升其公司生產(chǎn)力、效率和創(chuàng)新力的新功能。戴爾科技擁有全球最豐富的AI基礎設施產(chǎn)品組合,從云到客戶端設備一應俱全[1],因此能夠為用戶提供滿足其一切AI需求的端到端AI解決方案和服務。戴爾科技還提供專為助力AI工作負載而設計的硬件解決方案,包括工作站、高性能計算服務器、數(shù)據(jù)存儲、云原生軟件定義基礎設施、網(wǎng)絡交換機、數(shù)據(jù)保護、HCI和各種服務。但用戶所面臨的比較大問題之一是:如何確定一臺PC能夠與特定的LLM有效配合。戴爾科技將嘗試解答這個問題。
首先應該掌握一些關于如何幫助PC處理LLM的基礎知識。雖然AI例程可以在CPU或被稱為NPU的新型專用AI回路中進行處理,但目前的主流仍然是在PC中使用NVIDIA RTX GPU進行AI處理,該GPU帶有被稱為“張量核心”(Tensor Core)的專用回路。RTX張量核心專門用于實現(xiàn)混合精度數(shù)學計算,而這是AI處理的核心。但進行數(shù)學運算只是需要考慮的因素之一,鑒于LLM潛在的內(nèi)存占用量,還需要額外考慮可用的內(nèi)存空間。要在GPU中較大程度地發(fā)揮AI性能,就必須將LLM處理加入到GPU VRAM。NVIDIA的GPU產(chǎn)品線在各種移動和固定工作站產(chǎn)品中都可以擴展,用戶可以通過所提供的張量核心數(shù)量和GPU VRAM選項來輕松調(diào)整系統(tǒng)規(guī)模。請注意,某些固定工作站可以搭載多顆GPU來進一步擴大容量。
市場上出現(xiàn)的LLM數(shù)量和種類越來越多,但在確定硬件需求時,最需要考慮的因素之一是所選LLM的參數(shù)規(guī)模。以Meta AI的Llama-2LLM為例,該模型有70億、130億和700億這三種不同的參數(shù)規(guī)模。一般來說,參數(shù)規(guī)模越大,LLM的準確性就越高,在一般知識應用中的適用性也就越強。
無論用戶的目標是將基礎模型原封不動地用于推理,還是根據(jù)具體的用例和數(shù)據(jù)進行調(diào)整,他們都需要了解LLM對機器的要求以及如何較好地管理模型。如果能夠利用用戶專有的數(shù)據(jù)開發(fā)和訓練出針對特定用例的模型,那么用戶的AI項目就能為其帶來比較大的創(chuàng)新和回報。在使用LLM開發(fā)新功能和應用時,參數(shù)規(guī)模比較大的模型可能會對機器性能提出很高的要求,因此數(shù)據(jù)科學家們開發(fā)出了一些辦法來幫助降低處理開銷和管理LLM輸出準確性。
量化就是其中的一種辦法。該技術通過修改LLM內(nèi)部參數(shù)(即權重)的數(shù)學精度來縮小LLM的規(guī)模。降低位精度會對LLM產(chǎn)生兩方面的影響: 一是減少處理所占用的空間和對內(nèi)存的需求, 二是影響LLM的輸出準確性。量化可以看作是JPEG圖像壓縮,雖然壓縮得越多,創(chuàng)建出的圖像效率就越高,但在某些用例中可能會使圖像變得模糊不清。
在實際應用中,如果用戶想要運行量化為4位精度的Llama-2模型,可以考慮戴爾Precision3000和5000系列的多款移動工作站。
戴爾科技全新的3000和5000系列移動工作站集成了CPU,NPU,GPU多處理器組合,能夠優(yōu)化100多款應用中的AI性能,使其運行更快、能效更高。例如,它們可支持全新的協(xié)作體驗,如AI驅(qū)動的視頻會議,提供背景模糊、面部取景和視線糾正等功能。NPU能有效地卸載CPU或GPU上的任務,使功耗降低高達40% 。這意味著電池續(xù)航時間更長,用戶無需頻繁充電即可持續(xù)工作。此外,新款CPU還配備了速度更快的集成顯卡,為更多媒體密集型AI工作負載提供卓越性能。CPU、NPU和GPU協(xié)同工作,共同打造靈活、高性能且節(jié)能的AI引擎,為用戶帶來較好體驗。
此外,全新戴爾Precision3490和3590移動工作站比較高可搭載NVIDIA RTX500Ada圖形處理器,提升專業(yè)用戶的工作效率。Precision3591則專注于設計與創(chuàng)作領域,輕松應對入門級2D和3D CAD應用。而Precision5000系列移動工作站將創(chuàng)意應用的性能提升到了新的高度,Precision5690憑借其小巧的16英寸機身,為用戶帶來出色的創(chuàng)意應用體驗。它具備廣闊的視野、出色的便攜性和強大的應用性能,比較高可配備NVIDIA RTX5000圖形處理器。同時,機身小巧但強大功能的Precision5490作為一款14英寸超便攜設備,在性能和體驗方面也毫不遜色。
在更高精度(BF16)運行會增加對內(nèi)存的需求,但戴爾科技的解決方案可以在任何精度上滿足任何規(guī)模的LLM需求。戴爾Precision7960塔式工作站可支持多達四個NVIDIA 高性能GPU,其AI處理能力比上代產(chǎn)品高出80% 且每個GPU的VRAM高達48GB,而VRAM是處理GenAI大語言模型最關鍵的配置之一。
那么如何解決輸出準確性所受到的影響?另一種被稱為微調(diào)的技術可以通過在特定數(shù)據(jù)上重新訓練LLM的參數(shù)子集來提高準確性,進而提高特定用例中的輸出準確性。微調(diào)會調(diào)整某些已訓練參數(shù)的權重,能夠加快訓練過程并提高輸出準確性。通過將微調(diào)與量化相結(jié)合,就可以產(chǎn)生針對特定應用的小語言模型,這些模型非常適合部署到對AI處理能力要求較低的各種設備上。同樣,如果開發(fā)人員想要對LLM進行微調(diào),也可以放心地將Precision工作站作為構(gòu)建GenAI解決方案過程中的沙盒。
在使用LLM時這些不同技術不會相互排斥。把它們結(jié)合在一起使用往往會帶來更高的運行效率和準確性。
總之,LLM的規(guī)模以及哪些技術能夠為有效使用LLM所需的計算系統(tǒng)配置提供理想?yún)⒖级际顷P鍵的決定因素。戴爾科技堅信無論用戶在其AI旅程中想要朝哪個方向發(fā)展,戴爾科技的臺式機、數(shù)據(jù)中心等解決方案都將為其提供助力。
戴爾科技集團
戴爾科技集團致力于幫助企業(yè)和個人構(gòu)建數(shù)字化未來,改進他們的工作、生活和娛樂方式,為客戶提供面向數(shù)據(jù)時代全面和創(chuàng)新的產(chǎn)品、技術、解決方案及服務組合。
[1] ?基于戴爾科技集團的內(nèi)部分析,2023年8月。
(推廣)