无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

<li id="n00kn"></li>

<li id="n00kn"></li>

<dfn id="n00kn"><big id="n00kn"><xmp id="n00kn">

<dfn id="n00kn"></dfn>

Yann LeCun：生成模型不適合處理視頻，AI 理解視頻得在抽象空間中進行預測

2024-01-23 14:38 · 稿源：站長之家

站長之家(ChinaZ.com) 1月23日消息:根據(jù)圖靈獎得主、Meta 首席 AI 科學家在世界經(jīng)濟論壇上的講話，生成模型不適合處理視頻，AI得在抽象空間中進行預測。在互聯(lián)網(wǎng)文本數(shù)據(jù)即將枯竭之際，很多 AI 研究者將目光轉(zhuǎn)向了視頻。但如何讓 AI 理解視頻數(shù)據(jù)成了新的難題。

斯坦福大學教授指出了理解因果關系對于構(gòu)建未來AI系統(tǒng)的重要性。

Yann LeCun認為，適合用來處理視頻的模型并不是我們現(xiàn)在大范圍應用的生成模型，新的模型應該學會在抽象的表征空間中預測，而不是在像素空間中。

3_1705891276262_ai2023_a_note_that_reads_2024_is_a_year_of_AI_explosion_5bff7947-27c0-499d-87f9-e9d5833c4b34.png

圖源備注：圖片由AI生成，圖片授權服務商Midjourney

視頻預測的難題主要在于像素空間的復雜性，以及對于物體擺放方式和運動軌跡的預測。這些具體的像素空間預測都很困難，導致傳統(tǒng)生成模型在視頻處理中效果不佳。視頻輸入需要新的架構(gòu)來處理，以在抽象表征空間中進行預測。

AI系統(tǒng)需要在抽象表征空間中進行預測，而不是在具體的像素空間，同時也需要理解因果關系。當前模型中缺失的重要能力是理解因果關系，尤其在與物質(zhì)世界的交互中更為重要。

為了解決視頻處理中的難題，需要創(chuàng)造新的科學方法和技術，使AI系統(tǒng)能夠像人類一樣利用信息。這將需要一些科學和技術上的突破，對于在制造業(yè)、生物學等領域進行常識推理都具有重要意義。

（舉報）

相關推薦

關鍵詞：

AI視頻

谷歌Gemini整合Veo 2視頻生成模型，8秒720P視頻輕松搞定

谷歌宣布又有一款 AI 模型將加入 Gemini，但這次它不僅僅是一個聊天機器人。

?谷歌 ?谷歌gemini ?veo2
視頻生成模型Vidu Q1怎么用？Vidu Q1官網(wǎng)是什么？

國產(chǎn)視頻生成大模型Vidu Q1在性能、價格和功能上實現(xiàn)重大突破。該模型由生數(shù)科技推出，在VBench評測中超越Sora等國內(nèi)外頂尖模型，支持1080p高清視頻生成，每秒價格低至3毛錢。其首尾幀功能僅需兩張圖即可實現(xiàn)電影級運鏡效果，支持多元風格生成和48kHz高采樣率混音功能。Vidu Q1已深度賦能影視、廣告、動漫等行業(yè)，大幅降低創(chuàng)作門檻。

?國產(chǎn)視頻生成 ?Vidu ?Q1
阿里開源通義新模型：指定首尾圖片生成視頻

快科技4月18日消息，據(jù)報道，阿里巴巴旗下通義萬相宣布開源其創(chuàng)新視頻生成技術首尾幀生視頻14B模型。這項突破性AI技術能夠根據(jù)用戶提供的起始和結(jié)束畫面，智能生成720p高清過渡視頻，為視頻創(chuàng)作帶來全新可能。該模型通過先進的深度學習算法，能夠精準理解輸入畫面的內(nèi)容、風格及主題特征。當用戶提供首尾兩幀圖像后，模型會智能分析畫面中的視覺元素，包括物體形?

?阿里巴巴 ?通義萬相 ?視頻生成技術
低端顯卡登上AI的大船！6GB顯存就能生成高質(zhì)量視頻

快科技4月20日消息，GitHub的Lvmin Zhang聯(lián)合斯坦福大學的Maneesh Agrawala，發(fā)布了一項突破性的新技術FramePack，通過在視頻擴散模型中使用固定長度的時域上下文，可以更高效地生成時間更長、質(zhì)量更高的視頻。根據(jù)實測，基于FramePack構(gòu)建的130億參數(shù)模型，只需一塊6GB顯存的顯卡，就能生成60秒鐘的視頻。FramePack是一種神經(jīng)網(wǎng)絡架構(gòu)，使用多級優(yōu)化策略，完成本地AI視頻生成。目前，?
AI日報：阿里騰訊全面支持MCP協(xié)議；階躍星辰多模態(tài)推理模型Step-R1-V-Mini；美圖WHEE圖像生成模型Miracle F1

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日，中國人工智能領域迎來技術標準的變革，ModelContextProtocol成為國內(nèi)AI生態(tài)的事實標準。12.英偉達發(fā)布Llama3.1NemotronUltra253B，性能?

?人工智能 ?MCP協(xié)議 ?阿里巴巴
薦說個抽象的事，你現(xiàn)在可以在秘塔AI搜索里上課了。

給我整不會了。周末我本來在用秘塔AI搜關稅的問題，特朗普一天一個說法，又說關稅要結(jié)束了。然后，意外的發(fā)現(xiàn)，秘塔上了一個非常有意思的功能。“今天學點啥”。。。說實話，在進入到這個頁面的瞬間，我以為我跳到不知道哪去了，直到看到秘塔左上角的logo還在，我才確定，這是他們的新功能。它的功能大概就是，把一份文件或者一個鏈接，變成一個像是B站UP專門為?

?數(shù)字生命 ?秘塔AI ?關稅問題
可靈AI發(fā)布全新2.0模型：上線多模態(tài)視頻編輯功能

快科技4月16日消息，據(jù)報道，可靈AI在北京舉行靈感成真”2.0模型發(fā)布會，正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型。據(jù)介紹，可靈2.0模型在動態(tài)質(zhì)量、語義響應、畫面美學等維度保持領先；可圖2.0模型在指令遵循、電影質(zhì)感及藝術風格表現(xiàn)等方面顯著提升。3月27日，全球AI基準測試機構(gòu)Artificial Analysis發(fā)布了最新的全球視頻生成大模型榜單，快手可靈1.6pro（高品質(zhì)模

?可靈AI ?視頻生成模型 ?圖像生成模型
能理解海豚聲音！谷歌開發(fā)全新AI模型DolphinGemma

快科技4月15日消息，谷歌公布了一款名為DolphinGemma”的大型語言模型，旨在幫助科學家理解海豚的聲音，并生成類似海豚的聲音序列。研究人員預計在未來幾個月內(nèi)測試DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry（CHAT）發(fā)聲系統(tǒng)，以探索是否能夠翻譯并模仿海豚的聲音，進而實現(xiàn)與海豚的某種對話”。海豚是地球上最聰明且最善于溝通的動物之一，其社交互動極其復雜?

?谷歌 ?DolphinGemma ?海豚溝通
薦UniToken：多模態(tài)AI的“全能選手”，一次編碼搞定圖文理解與圖像生成

復旦大學與美團研究者提出UniToken框架，首次在統(tǒng)一模型中實現(xiàn)圖文理解與生成任務的"雙優(yōu)表現(xiàn)"。該方案融合連續(xù)和離散視覺編碼，有效解決了傳統(tǒng)多模態(tài)建模中的"任務干擾"和"表示割裂"問題。通過三階段訓練策略（視覺語義對齊、多任務聯(lián)合訓練、指令強化微調(diào)），UniToken在多個基準測試中性能超越專用模型。其創(chuàng)新性體現(xiàn)在：1）統(tǒng)一的雙邊視覺編碼

?UniToken ?多模態(tài)建模 ?視覺編碼
可靈AI開啟視頻生成2.0時代！全球用戶數(shù)已突破2200萬

4 月 15 日，快手可靈AI在北京中關村國際創(chuàng)新中心舉行“靈感成真”2. 0 模型發(fā)布會，宣布基座模型再次升級，面向全球正式發(fā)布可靈2. 0 視頻生成模型及可圖2. 0 圖像生成模型。

?可靈2.0 ?可靈AI ?快手

熱文

3 天
7天

站長商機

廣告

商務合作侵權投訴廣告服務版權聲明招聘

?CopyRight 2002-2020 CHINAZ.COM

<li id="xp900"><optgroup id="xp900"></optgroup></li>

<thead id="xp900"><mark id="xp900"></mark></thead>