站長(zhǎng)之家(ChinaZ.com)9月24日 消息:在2024年AI創(chuàng)新巡展上,火山引擎科技有限公司隆重推出了豆包·視頻生成模型,標(biāo)志著其大模型家族再添新成員?;鹕揭婵偛米T待在會(huì)上表示,豆包·視頻生成模型具備多項(xiàng)創(chuàng)新性能,包括精準(zhǔn)的語(yǔ)義理解、多動(dòng)作多主體交互、強(qiáng)大的動(dòng)態(tài)效果和一致性多鏡頭生成能力。
該模型能夠理解和執(zhí)行復(fù)雜的指令,實(shí)現(xiàn)多個(gè)主體間的交互,并能在視頻主體的大動(dòng)態(tài)和鏡頭間進(jìn)行炫酷切換。此外,它還能夠在多鏡頭切換中保持一致性,10秒內(nèi)講述一個(gè)完整的故事,并支持多種風(fēng)格和比例,如黑白、3D動(dòng)畫(huà)、國(guó)畫(huà)等。
豆包·視頻生成模型包含兩個(gè)版本:Doubao-視頻生成PixelDance和Doubao-視頻生成-Seaweed。
PixelDance V1.4是ByteDance Research團(tuán)隊(duì)開(kāi)發(fā)的DiT結(jié)構(gòu)的視頻生成大模型,支持文生視頻和圖生視頻,能夠一次性生成長(zhǎng)達(dá)10秒的精彩視頻片段。它具備出色的語(yǔ)義理解能力,能快速生成優(yōu)質(zhì)的視頻片段,適用于影視創(chuàng)作、廣告?zhèn)髅降榷鄠€(gè)場(chǎng)景。
Doubao-視頻生成-Seaweed模型支持文生視頻和圖生視頻兩種生成方式,基于Transformer結(jié)構(gòu),利用時(shí)空壓縮的潛空間進(jìn)行訓(xùn)練,原生支持多分辨率生成,適配橫屏、豎屏,并能夠根據(jù)用戶輸入的高清圖像分辨率進(jìn)行適配和保真。默認(rèn)輸出為720p分辨率、24fps、時(shí)長(zhǎng)5秒,并可動(dòng)態(tài)延長(zhǎng)至20-30秒。
豆包·視頻生成模型預(yù)計(jì)將為電商營(yíng)銷、動(dòng)畫(huà)教育、城市文旅、微劇本(音樂(lè)MV、微電影、短劇等)等多個(gè)領(lǐng)域帶來(lái)創(chuàng)新和效率提升。火山引擎表示,該模型的發(fā)布將全面加速AIGC應(yīng)用創(chuàng)新。
(舉報(bào))