站長之家(ChinaZ.com)5月11日 消息:Lumina-T2X 是一個創(chuàng)新的內(nèi)容生成系列模型,它采用了統(tǒng)一的 DiT(Diffusion Model)架構(gòu),能夠通過文本生成圖像、視頻、多視角3D 對象以及音頻剪輯。這一新系列模型在大幅提高生成質(zhì)量的同時,顯著降低了訓(xùn)練成本,展示了AI技術(shù)在內(nèi)容創(chuàng)作領(lǐng)域的最新進展。
主要特點:
多模態(tài)生成能力:能夠處理和生成多種類型的媒體內(nèi)容,包括圖像、視頻、3D 對象和音頻。
統(tǒng)一架構(gòu):所有 Lumina-T2X 模型都基于 DiT 架構(gòu),提供了一個通用的框架來處理不同的內(nèi)容生成任務(wù)。
成本效益:Lumina-T2X 在減少訓(xùn)練成本方面表現(xiàn)出色。例如,由50億參數(shù)的 Flag-DiT 驅(qū)動的 Lumina-T2I,其訓(xùn)練計算成本僅為同類6億參數(shù)模型的35%。
高質(zhì)量的圖像生成:已發(fā)布的 Lumina-T2I 圖像生成模型展示了出色的圖像質(zhì)量。
高效的模型設(shè)計:Lumina-T2I 的模型主干采用了 Large-DiT,文本編碼模型使用了 Llama2-7B,而 VAE(變分自編碼器)則采用了 SDXL。
Lumina-T2X 系列模型的發(fā)布,為AI內(nèi)容生成領(lǐng)域帶來了新的選擇,特別是在需要生成多種類型媒體內(nèi)容的應(yīng)用場景中。其高效的訓(xùn)練成本和高質(zhì)量的輸出,預(yù)示著AI在創(chuàng)意產(chǎn)業(yè)中的應(yīng)用將更加廣泛和深入。
隨著技術(shù)的不斷進步,我們可以預(yù)見,未來AI將在內(nèi)容創(chuàng)作、媒體制作、游戲開發(fā)等多個領(lǐng)域發(fā)揮更大的作用。
模型下載地址:https://huggingface.co/Alpha-VLLM/Lumina-T2I/tree/main
論文地址:https://arxiv.org/pdf/2405.05945
(舉報)