无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > 視頻模型最新資訊  > 正文

    騰訊開(kāi)源人像照片生成視頻模型V-Express

    2024-06-07 11:48 · 稿源:站長(zhǎng)之家

    站長(zhǎng)之家(ChinaZ.com)6月7日 消息:騰訊公司開(kāi)源了一款創(chuàng)新的模型V-Express,它能夠使用人像照片生成視頻。這一技術(shù)通過(guò)一系列逐步丟棄的操作來(lái)平衡不同控制信號(hào),使得音頻等較弱的信號(hào)得以有效利用,實(shí)現(xiàn)對(duì)姿態(tài)、輸入圖像和音頻的綜合控制。

    作者團(tuán)隊(duì)表示,在會(huì)說(shuō)話的人臉生成任務(wù)中,當(dāng)目標(biāo)視頻與參考角色不是同一個(gè)人時(shí),選擇與參考人臉姿勢(shì)更相似的目標(biāo)視頻將能獲得更好的效果。目前,該模型在英語(yǔ)上的表現(xiàn)較為出色,但對(duì)其他語(yǔ)言的適應(yīng)性和表現(xiàn)尚未經(jīng)過(guò)詳細(xì)測(cè)試。

    image.png

    V-Express模型的開(kāi)源,為肖像視頻生成領(lǐng)域帶來(lái)了新的發(fā)展機(jī)遇。在這一領(lǐng)域,使用單個(gè)圖像生成視頻的方法正變得日益流行。這通常涉及到使用生成模型增強(qiáng)適配器來(lái)實(shí)現(xiàn)受控生成,其中控制信號(hào)可能包括文本、音頻、圖像參考、姿勢(shì)、深度圖等。V-Express通過(guò)漸進(jìn)式的丟棄操作,解決了弱信號(hào)在強(qiáng)信號(hào)干擾下難以發(fā)揮作用的問(wèn)題,尤其是在音頻信號(hào)常常被姿勢(shì)和原始圖像等強(qiáng)信號(hào)掩蓋的情況下。

    實(shí)驗(yàn)結(jié)果顯示,V-Express能夠有效生成受音頻控制的肖像視頻,這在以往的研究中是一個(gè)難以實(shí)現(xiàn)的突破。V-Express方法的逐步丟棄操作,不僅有效實(shí)現(xiàn)了對(duì)弱條件的控制,而且為多條件生成提供了新的可能性和思路。

    V-Express模型為肖像視頻生成領(lǐng)域帶來(lái)了創(chuàng)新的思路和方法,通過(guò)平衡不同強(qiáng)度的控制信號(hào),成功實(shí)現(xiàn)了受音頻控制的視頻生成。這一成果不僅具有重要的理論和實(shí)踐意義,而且為未來(lái)的多條件生成提供了新的路徑。騰訊表示,將繼續(xù)深入研究V-Express方法,并探索其在更廣泛領(lǐng)域的應(yīng)用,以促進(jìn)肖像視頻生成領(lǐng)域的進(jìn)一步發(fā)展。

    項(xiàng)目地址:https://top.aibase.com/tool/v-express

    舉報(bào)

    • 相關(guān)推薦
    • 阿里開(kāi)源通義新模型:指定首尾圖片生成視頻

      快科技4月18日消息,據(jù)報(bào)道,阿里巴巴旗下通義萬(wàn)相宣布開(kāi)源其創(chuàng)新視頻生成技術(shù)首尾幀生視頻14B模型。這項(xiàng)突破性AI技術(shù)能夠根據(jù)用戶提供的起始和結(jié)束畫(huà)面,智能生成720p高清過(guò)渡視頻,為視頻創(chuàng)作帶來(lái)全新可能。該模型通過(guò)先進(jìn)的深度學(xué)習(xí)算法,能夠精準(zhǔn)理解輸入畫(huà)面的內(nèi)容、風(fēng)格及主題特征。當(dāng)用戶提供首尾兩幀圖像后,模型會(huì)智能分析畫(huà)面中的視覺(jué)元素,包括物體形?

    • AI日?qǐng)?bào):阿里通義萬(wàn)相首尾幀生視頻模型;豆包開(kāi)源Seed智能體模型UI-TARS-1.5;OpenAI首發(fā)“智能體實(shí)踐指南”

      歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開(kāi)發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里通義萬(wàn)相首尾幀生視頻模型Wan2.1-FLF2V-14B開(kāi)源阿里巴巴的通義實(shí)驗(yàn)室在Hugging Face和GitHub上開(kāi)源了Wan2.1-FLF2V-14B模型,標(biāo)志著AI視頻生成技術(shù)的重大進(jìn)步。該模型支持高清視頻生成

    • 馬斯克炫酷變身毒液!實(shí)測(cè)通義Wan2.1首尾幀視頻模型,還能“拼接”經(jīng)典梗圖

      在GitHub狂攬1w+星標(biāo)的通義萬(wàn)相Wan2.1,又雙叒上新了!最新打開(kāi)方式是醬嬸兒的:給出開(kāi)始(首幀)和結(jié)束(尾幀)兩張圖片,Wan2.1便能分分鐘生成一段絲滑的5s、720p視頻。根據(jù)前后視角的不同,還能自動(dòng)調(diào)整鏡頭角度,緩慢變成高空俯拍,并同時(shí)保證人物光影正確:原來(lái)這是阿里通義萬(wàn)相Wan2.1最新開(kāi)源的首尾幀視頻模型,基于Wan2.1文生視頻14B大模型,為創(chuàng)作者們提供更高效、更靈活的

    • DeepSeek上新!開(kāi)源發(fā)布DeepSeek-Prover-V2-671B新模型

      快科技4月30日消息,今日,DeepSeek 今日在 AI 開(kāi)源社區(qū) Hugging Face 發(fā)布了一個(gè)名為 DeepSeek-Prover-V2-671B 的新模型。據(jù)介紹,DeepSeek-Prover-V2-671B 其參數(shù)量達(dá)到6710億,使用了更高效的 safetensors 文件格式,并支持 BF16、FP8、F32 等多種計(jì)算精度,方便模型更快、更省資源地訓(xùn)練和部署。在模型架構(gòu)上,該模型使用了DeepSeek-V3架構(gòu),采用MoE(混合專家)模式,具有61層Transformer層,7168維隱藏層。同時(shí)支持超長(zhǎng)上下文,最大位置嵌入達(dá)163840,使其能處理復(fù)雜的數(shù)學(xué)證明,并且采用了FP8量化,可通過(guò)量化技術(shù)減小模型大小,提

    • 谷歌Gemini整合Veo 2視頻生成模型,8秒720P視頻輕松搞定

      谷歌宣布又有一款 AI 模型將加入 Gemini,但這次它不僅僅是一個(gè)聊天機(jī)器人。

    • AI日?qǐng)?bào):阿里騰訊全面支持MCP協(xié)議;階躍星辰多模態(tài)推理模型Step-R1-V-Mini;美圖WHEE圖像生成模型Miracle F1

      歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開(kāi)發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日,中國(guó)人工智能領(lǐng)域迎來(lái)技術(shù)標(biāo)準(zhǔn)的變革,ModelContextProtocol成為國(guó)內(nèi)AI生態(tài)的事實(shí)標(biāo)準(zhǔn)。12.英偉達(dá)發(fā)布Llama3.1NemotronUltra253B,性能?

    • 視頻生成模型Vidu Q1怎么用?Vidu Q1官網(wǎng)是什么?

      國(guó)產(chǎn)視頻生成大模型Vidu Q1在性能、價(jià)格和功能上實(shí)現(xiàn)重大突破。該模型由生數(shù)科技推出,在VBench評(píng)測(cè)中超越Sora等國(guó)內(nèi)外頂尖模型,支持1080p高清視頻生成,每秒價(jià)格低至3毛錢。其首尾幀功能僅需兩張圖即可實(shí)現(xiàn)電影級(jí)運(yùn)鏡效果,支持多元風(fēng)格生成和48kHz高采樣率混音功能。Vidu Q1已深度賦能影視、廣告、動(dòng)漫等行業(yè),大幅降低創(chuàng)作門檻。

    • 10倍精度升級(jí)!騰訊混元3D模型v2.5版本發(fā)布

      騰訊混元3D模型升級(jí)至v2.5版本,建模精度和貼圖真實(shí)度顯著提升。新版本參數(shù)體量從1B增至10B,有效面片數(shù)增加超10倍,支持1024幾何分辨率。紋理系統(tǒng)支持4K高清貼圖和凹凸細(xì)節(jié),率先支持多視圖生成PBR模型。針對(duì)動(dòng)畫(huà)場(chǎng)景優(yōu)化骨骼蒙皮系統(tǒng),支持非標(biāo)準(zhǔn)姿態(tài)自動(dòng)綁定。新增文生/圖生3D減面模型、多視圖建模模板等專業(yè)工作流?;煸?D v2.5已全面更新至騰訊AI創(chuàng)作引擎,免費(fèi)生成額度提升至每日20次,并正式上線騰訊云API面向企業(yè)開(kāi)放。GitHub開(kāi)源版本累計(jì)Star超1.2萬(wàn)。

    • 中國(guó)智力持續(xù)發(fā)力,智象未來(lái)開(kāi)源模型再獲國(guó)際認(rèn)可

      國(guó)內(nèi)AI企業(yè)智象未來(lái)研發(fā)的開(kāi)源圖像生成模型HiDream-I1近日取得重要突破:該模型憑借17B參數(shù)規(guī)模,在圖像真實(shí)感、細(xì)節(jié)處理及指令響應(yīng)能力上超越行業(yè)標(biāo)桿,多項(xiàng)評(píng)測(cè)指標(biāo)超過(guò)GPT-4o與Flux1.1。繼登頂AI基準(zhǔn)測(cè)試平臺(tái)Artificial Analysis、獲Hugging Face收錄后,該模型正式被谷歌技術(shù)生態(tài)體系收錄,成為首個(gè)登頂該平臺(tái)榜首的中國(guó)自研開(kāi)源模型。其24小時(shí)內(nèi)登頂?shù)募o(jì)錄,被視為中國(guó)AI技術(shù)全球競(jìng)爭(zhēng)力的重要里程碑。谷歌的收錄將推動(dòng)HiDream-I1觸達(dá)全球開(kāi)發(fā)者,助力開(kāi)源生態(tài)共建進(jìn)入新發(fā)展階段。

    • 阿里千問(wèn)3登頂全球最強(qiáng)開(kāi)源模型 已在通義App上線

      阿里集團(tuán)推出新一代開(kāi)源AI模型"通義千問(wèn)3"(Qwen3),包含8款不同規(guī)格的混合推理模型。旗艦型號(hào)Qwen3-235B采用混合專家架構(gòu),創(chuàng)下國(guó)產(chǎn)模型性能新紀(jì)錄;Qwen3-32B則以部署成本低、運(yùn)行穩(wěn)定見(jiàn)長(zhǎng)。該系列在邏輯推理、編程、翻譯等專業(yè)領(lǐng)域表現(xiàn)卓越,用戶可通過(guò)通義App和網(wǎng)頁(yè)版體驗(yàn)。升級(jí)后的通義App整合問(wèn)答對(duì)話、圖像理解與生成等多項(xiàng)功能,持續(xù)強(qiáng)化代碼生成、數(shù)學(xué)解題等專業(yè)場(chǎng)景應(yīng)用能力,致力于打造實(shí)用性強(qiáng)的個(gè)人AI助手。