无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > VLOGGER最新資訊  > 正文

    EMO同款?谷歌推對(duì)口型視頻工具VLOGGER 還具備視頻編輯功能

    2024-03-14 15:19 · 稿源:站長(zhǎng)之家

    站長(zhǎng)之家(ChinaZ.com) 3月14日 消息:科技巨頭們正在競(jìng)相開(kāi)發(fā)能夠從單張照片生成會(huì)說(shuō)話的人類視頻的技術(shù)。繼阿里巴巴推出其EMO項(xiàng)目后,Google也推出了類似的項(xiàng)目VLOGGER。這項(xiàng)技術(shù)基于文本和驅(qū)動(dòng)音頻,能夠從單張照片生成會(huì)說(shuō)話的人類視頻。

    image.png

    項(xiàng)目地址:https://top.aibase.com/tool/vlogger

    論文地址:https://arxiv.org/pdf/2403.08764.pdf

    VLOGGER的獨(dú)特之處在于:

    • 不需要針對(duì)每個(gè)人進(jìn)行訓(xùn)練。這意味著無(wú)需為每個(gè)個(gè)體創(chuàng)建專門(mén)的模型,大大降低了數(shù)據(jù)需求。

    • 不依賴于面部檢測(cè)和修剪。這使得VLOGGER能夠在沒(méi)有清晰的面部輪廓或面部特征的情況下工作。

    • 生成完整的圖像(而不僅僅是面部或嘴唇)。這為生成更自然、更真實(shí)的視頻提供了可能。

    • 考慮了一系列廣泛的場(chǎng)景(例如,可見(jiàn)的軀干或多樣化的身份特征),這對(duì)于正確合成交流的人類至關(guān)重要。

    • 然而,盡管VLOGGER在技術(shù)上有其獨(dú)特之處,但根據(jù)演示視頻來(lái)看,其效果似乎不如阿里巴巴的EMO好。這可能是由于EMO在面部表情和動(dòng)作的合成上更為精細(xì)。

    除了生成新的視頻,VLOGGER還具有編輯現(xiàn)有視頻的能力。例如,它可以改變主題的表情,或者調(diào)整嘴巴和眼睛的閉合狀態(tài),從而改變視頻的情緒和信息傳遞。

    在視頻翻譯方面,VLOGGER也可以取一個(gè)特定語(yǔ)言的現(xiàn)有視頻,并編輯唇部和面部區(qū)域以適應(yīng)新的音頻。例如,可以將一段英語(yǔ)視頻的唇部和面部區(qū)域編輯,使其看起來(lái)像是在說(shuō)西班牙語(yǔ)。

    總的來(lái)說(shuō),VLOGGER是Google在人工智能領(lǐng)域的又一重要突破,它展示了從單張照片生成會(huì)說(shuō)話的人類視頻的可能性,同時(shí)也提供了視頻編輯和翻譯的新工具。然而,與阿里巴巴的EMO相比,VLOGGER在視頻生成的效果上還有待提升。

    舉報(bào)

    • 相關(guān)推薦
    • 可靈AI發(fā)布全新2.0模型:上線多模態(tài)視頻編輯功能

      快科技4月16日消息,據(jù)報(bào)道,可靈AI在北京舉行靈感成真”2.0模型發(fā)布會(huì),正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型。據(jù)介紹,可靈2.0模型在動(dòng)態(tài)質(zhì)量、語(yǔ)義響應(yīng)、畫(huà)面美學(xué)等維度保持領(lǐng)先;可圖2.0模型在指令遵循、電影質(zhì)感及藝術(shù)風(fēng)格表現(xiàn)等方面顯著提升。3月27日,全球AI基準(zhǔn)測(cè)試機(jī)構(gòu)Artificial Analysis發(fā)布了最新的全球視頻生成大模型榜單,快手可靈1.6pro(高品質(zhì)模

    • 騰訊回應(yīng)朋友圈是否上線編輯功能:目前無(wú)法修改

      4月20日,微博詞條 #為什么微信還不推出編輯功能# 引發(fā)了廣泛討論。據(jù)媒體報(bào)道,對(duì)于朋友圈是否上線編輯功能的問(wèn)題,騰訊客服回應(yīng)稱,目前已經(jīng)發(fā)布的朋友圈無(wú)法再次編輯修改,并表示對(duì)此帶來(lái)的不便表示歉意,同時(shí)承諾后續(xù)會(huì)不斷優(yōu)化。2020年,微信曾上線朋友圈刪除后可重新編輯的功能。當(dāng)用戶刪除一條朋友圈時(shí),系統(tǒng)會(huì)提醒“你刪除

    • 可靈2.0大師版首發(fā)爆火!排隊(duì)半小時(shí)實(shí)測(cè),視頻編輯能力再升級(jí)

      “可靈持續(xù)領(lǐng)先!”4月15日下午,快手宣布可靈AI全系模型進(jìn)入2.0時(shí)代。自從上一次可靈1.6更新已過(guò)去近3個(gè)月,這次基座模型升級(jí),快手高級(jí)副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤在發(fā)布會(huì)上自信表示:“可圖2.0現(xiàn)在是行業(yè)領(lǐng)先的圖像模型……可靈2.0,特別在圖生視頻上持續(xù)全球大幅領(lǐng)先!”現(xiàn)場(chǎng)響起了一陣陣歡呼聲和掌聲?!癆I新榜”現(xiàn)場(chǎng)拍攝升級(jí)后,可靈2.0視頻生成模型(大師版)具

    • 谷歌Gemini整合Veo 2視頻生成模型,8秒720P視頻輕松搞定

      谷歌宣布又有一款 AI 模型將加入 Gemini,但這次它不僅僅是一個(gè)聊天機(jī)器人。

    • AI日?qǐng)?bào):百度文心4.5 Turbo將于4月25日發(fā)布;谷歌推全新智能體開(kāi)放協(xié)議A2A;視頻號(hào)整治不當(dāng)使用AI工具直播行為

      歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開(kāi)發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、百度官宣:文心大模型4.5Turbo將于4月25日發(fā)布百度宣布將在4月25日的Create大會(huì)上發(fā)布文心大模型4.5Turbo,盡管具體細(xì)節(jié)尚未披露,但業(yè)界對(duì)此充滿期待。雖然試用期間無(wú)需綁定信用卡,但實(shí)際使用需購(gòu)買(mǎi)托管計(jì)劃。

    • 谷歌ai壟斷?谷歌每月向三星支付“巨額費(fèi)用”,讓其預(yù)裝Gemini

      繼 Android 系統(tǒng)、Chrome 瀏覽器等應(yīng)用之后,谷歌又為他們的 Gemini 預(yù)裝花費(fèi)了“巨額費(fèi)用”……

    • 谷歌首推Gemini 2.5 Flash:成本爆降600%

      快科技4月18日消息,據(jù)報(bào)道,谷歌發(fā)布了突破性混合推理模型Gemini 2.5 Flash,該模型創(chuàng)新性地引入可調(diào)節(jié)思考預(yù)算功能,在保持高性能的同時(shí)顯著降低使用成本。在閉源思考模式下,其成本僅為0.6美元/百萬(wàn)tokens,相比全功能思考模式(3.5美元/百萬(wàn)tokens)大幅降低600%。值得注意的是,即便在基礎(chǔ)模式下運(yùn)行,其性能依然超越前代Gemini 2.0 Flash。性能表現(xiàn)方面,Gemini 2.5 Flash在大模?

    • 能理解海豚聲音!谷歌開(kāi)發(fā)全新AI模型DolphinGemma

      快科技4月15日消息,谷歌公布了一款名為DolphinGemma”的大型語(yǔ)言模型,旨在幫助科學(xué)家理解海豚的聲音,并生成類似海豚的聲音序列。研究人員預(yù)計(jì)在未來(lái)幾個(gè)月內(nèi)測(cè)試DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)發(fā)聲系統(tǒng),以探索是否能夠翻譯并模仿海豚的聲音,進(jìn)而實(shí)現(xiàn)與海豚的某種對(duì)話”。海豚是地球上最聰明且最善于溝通的動(dòng)物之一,其社交互動(dòng)極其復(fù)雜?

    • 迄今最貴!谷歌Gemini 2.5 Pro API定價(jià)公布:每百萬(wàn)輸入tokens超9元

      據(jù)報(bào)道,谷歌近日公布了Gemini2.5Pro的API定價(jià),基礎(chǔ)定價(jià)為每百萬(wàn)輸入tokens1.25美元,每百萬(wàn)輸出tokens10美元。對(duì)于超過(guò)20萬(wàn)tokens的長(zhǎng)文本輸入,價(jià)格調(diào)整為每百萬(wàn)輸入tokens2.50美元,輸出tokens15美元。谷歌CEO桑達(dá)爾皮查伊表示,Gemini2.5Pro是目前最受開(kāi)發(fā)者歡迎的AI模型,僅本月在GoogleAIStudio和GeminiAPI上的使用量就增長(zhǎng)了80%。

    • 超過(guò)ChatGPT、Deepseek?谷歌發(fā)布 Gemini 2.5 Flash AI 模型

      新版AI模型縮短了響應(yīng)時(shí)間,節(jié)約了運(yùn)算成本;還推出了新的AI芯片“Ironwood”。谷歌發(fā)布了新的AI模型“Gemini2.5Flash”,據(jù)稱,這款A(yù)I模型的性能比OpenAI和DeepSeek的AI產(chǎn)品“更高效”。谷歌計(jì)劃在三星今年上半年推出的AI伴侶機(jī)器人Ballie上搭載生成式AI模型。