无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > FreeMan最新資訊  > 正文

    中國研究團隊發(fā)布多視角數(shù)據(jù)集“FreeMan” 解決3D人體姿勢估計局限性

    2023-09-25 11:30 · 稿源:站長之家

    文章概要:

    - “FreeMan”是一份大規(guī)模多視角數(shù)據(jù)集,旨在解決現(xiàn)有3D人體姿態(tài)估計數(shù)據(jù)集的局限性。

    - 數(shù)據(jù)集包含來自8臺同步智能手機的1100萬幀,跨足了室內(nèi)和室外環(huán)境,具備不同光照條件,提供了更真實的場景多樣性。

    - 研究者通過自動化的標(biāo)注流程,包括人體檢測、2D關(guān)鍵點檢測、3D姿態(tài)估計和網(wǎng)格標(biāo)注,生成了精確的3D標(biāo)注,可用于多種任務(wù),如單2D到3D轉(zhuǎn)換、多視角3D估計和神經(jīng)渲染。

    站長之家(ChinaZ.com)9月25日 消息:從真實場景中估計人體的三維結(jié)構(gòu)是一項具有挑戰(zhàn)性的任務(wù),對于人工智能、圖形學(xué)和人機交互等領(lǐng)域具有重要意義。然而,現(xiàn)有的3D人體姿態(tài)估計數(shù)據(jù)集通常在受控條件下收集,具有靜態(tài)背景,無法代表真實世界場景的多樣性,從而限制了用于真實應(yīng)用的準(zhǔn)確模型的開發(fā)。

    在這方面,類似于Human3.6M和HuMMan的現(xiàn)有數(shù)據(jù)集廣泛用于3D人體姿態(tài)估計,但它們是在受控的實驗室環(huán)境中收集的,無法充分捕捉真實世界環(huán)境的復(fù)雜性。這些數(shù)據(jù)集在場景多樣性、人體動作和可擴展性方面存在局限。研究人員提出了各種模型用于3D人體姿態(tài)估計,但由于現(xiàn)有數(shù)據(jù)集的局限性,它們的效果通常在應(yīng)用于真實場景時受到阻礙。

    image.png

    中國的一支研究團隊推出了“FreeMan”,這個由來自香港中文大學(xué)(深圳)和騰訊等機構(gòu)的團隊共同合作開發(fā)的項目,被譽為革新性的多視角數(shù)據(jù)集,旨在為3D人體姿勢估計領(lǐng)域帶來新的突破。

    FreeMan是一個新穎的大規(guī)模多視角數(shù)據(jù)集,旨在解決現(xiàn)有數(shù)據(jù)集在真實場景中3D人體姿態(tài)估計方面的局限性。FreeMan是一項重要的貢獻,旨在促進更準(zhǔn)確和穩(wěn)健模型的開發(fā)。

    FreeMan項目的特點之一是其數(shù)據(jù)集的規(guī)模和多樣性。該數(shù)據(jù)集由8部智能手機在不同場景下的同步錄制組成,包括10個不同場景、27個真實場地,總計包含了超過1100萬幀的視頻。每個場景都涵蓋了不同的照明條件,使得這個數(shù)據(jù)集成為一個獨一無二的資源。

    FreeMan數(shù)據(jù)集的開源是為了促進大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集的發(fā)展,同時也為戶外3D人體姿勢估計提供了全新的基準(zhǔn)。這一數(shù)據(jù)集不僅包括視頻,還提供了豐富的注解信息,包括2D和3D人體關(guān)鍵點、SMPL參數(shù)、邊界框等,為研究人員提供了豐富的資源以推動相關(guān)領(lǐng)域的研究。

    值得注意的是,F(xiàn)reeMan引入了相機參數(shù)和人體尺度的變化,使其更具代表性。研究團隊開發(fā)了自動化的標(biāo)注流程,以從收集的數(shù)據(jù)中高效生成精確的3D標(biāo)注。這一流程包括人體檢測、2D關(guān)鍵點檢測、3D姿態(tài)估計和網(wǎng)格標(biāo)注。由此產(chǎn)生的數(shù)據(jù)集對于多種任務(wù)都非常有價值,包括單目3D估計、2D到3D轉(zhuǎn)換、多視角3D估計和人體主體的神經(jīng)渲染。

    研究人員提供了對FreeMan進行各種任務(wù)的全面評估基線。他們將在FreeMan上訓(xùn)練的模型與在Human3.6M和HuMMan上訓(xùn)練的模型的性能進行了比較。值得注意的是,在3DPW數(shù)據(jù)集上測試時,訓(xùn)練在FreeMan上的模型表現(xiàn)出顯著更好的性能,突顯了FreeMan在真實場景中的卓越泛化能力。

    image.png

    在多視角3D人體姿態(tài)估計實驗中,與在Human3.6M上訓(xùn)練的模型相比,在跨領(lǐng)域數(shù)據(jù)集上測試時,訓(xùn)練在FreeMan上的模型表現(xiàn)出更好的泛化能力。結(jié)果一致顯示了FreeMan多樣性和規(guī)模的優(yōu)勢。

    在2D到3D姿態(tài)轉(zhuǎn)換實驗中,F(xiàn)reeMan的挑戰(zhàn)顯而易見,因為在這個數(shù)據(jù)集上訓(xùn)練的模型面臨更大的難度。然而,當(dāng)模型在整個FreeMan訓(xùn)練集上進行訓(xùn)練時,其性能得到改善,顯示出該數(shù)據(jù)集提高模型性能的潛力。

    FreeMan的可用性預(yù)計將推動人體建模、計算機視覺和人機交互領(lǐng)域的進步,彌合了受控實驗室條件與真實場景之間的差距。

    項目網(wǎng)址:https://wangjiongw.github.io/freeman/

    舉報

    • 相關(guān)推薦
    • 媲美OpenAI-o3,剛剛開源模型DeepCoder,訓(xùn)練方法、數(shù)據(jù)集大公開

      今天凌晨4點,著名大模型訓(xùn)練平臺TogetherAI和智能體平臺Agentica,聯(lián)合開源了新模型DeepCoder-14B-Preview。該模型只有140億參數(shù),但在知名代碼測試平臺LiveCodeBench的測試分為60.6%,高于OpenAI的o1模型,略低于o3-mini。TogetherAI剛獲得3.05億美元的B輪融資,其估值也從去年的12.5億美元翻倍至33億美元。

    • 英偉達(dá)開源15T數(shù)據(jù)集32萬個機器人訓(xùn)練軌跡

      全球AI領(lǐng)導(dǎo)者英偉達(dá)開源了,用于實體機器人和自動化駕駛的超大訓(xùn)練數(shù)據(jù)合集——NVIDIAPhysicalAIDataset。這個數(shù)據(jù)集一共15T,涵蓋了超過320,000個機器人訓(xùn)練軌跡,以及多達(dá)1,000個通用場景描述包括一個SimReady集合。英偉達(dá)表示,未來將繼續(xù)擴展PhysicalAIDataset,將其建設(shè)成世界最大、統(tǒng)一的開源數(shù)據(jù)集,可用于AI模型、醫(yī)療、自動化駕駛等不同領(lǐng)域,加速AI、實體機器人的訓(xùn)練效?

    • 提升大模型自動修Bug能力 豆包正式開源首個多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動豆包大模型團隊宣布,正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評測基準(zhǔn)。相比于以往聚焦Python的單語言任務(wù),Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景,也更能反映當(dāng)前模型在自動化軟件工程”方向上的實際能力邊界。

    • 大模型時代的新燃料|標(biāo)貝科技推出大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集

      本文探討了人工智能語音交互領(lǐng)域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出,大模型技術(shù)驅(qū)動下語音交互應(yīng)用場景持續(xù)拓展,但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當(dāng)前語音大模型訓(xùn)練需要TB至PB級數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實數(shù)據(jù)的重要補充,能通過參數(shù)化生成機制規(guī)避隱私風(fēng)險,突破傳統(tǒng)數(shù)據(jù)在多樣性和場景覆蓋上的局限性。國內(nèi)外科技企業(yè)已開始廣泛應(yīng)用合成數(shù)據(jù)訓(xùn)練AI模型,如Meta的LLaMA3和微軟的Phi-4模型。標(biāo)貝科技推出超大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集,包含上萬小時數(shù)據(jù),覆蓋中英混合場景,支持情感合成、風(fēng)格遷移等前沿任務(wù),為虛擬偶像、數(shù)字人等元宇宙場景提供實時語音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術(shù),在自然度、流暢度等方面達(dá)到行業(yè)領(lǐng)先水平。

    • 10倍精度升級!騰訊混元3D模型v2.5版本發(fā)布

      騰訊混元3D模型升級至v2.5版本,建模精度和貼圖真實度顯著提升。新版本參數(shù)體量從1B增至10B,有效面片數(shù)增加超10倍,支持1024幾何分辨率。紋理系統(tǒng)支持4K高清貼圖和凹凸細(xì)節(jié),率先支持多視圖生成PBR模型。針對動畫場景優(yōu)化骨骼蒙皮系統(tǒng),支持非標(biāo)準(zhǔn)姿態(tài)自動綁定。新增文生/圖生3D減面模型、多視圖建模模板等專業(yè)工作流?;煸?D v2.5已全面更新至騰訊AI創(chuàng)作引擎,免費生成額度提升至每日20次,并正式上線騰訊云API面向企業(yè)開放。GitHub開源版本累計Star超1.2萬。

    • 日銷破千元!AI生成的3D梗圖掛件,被我們賣爆了

      先說結(jié)論:我們花15天做的AI3D掛件,在線下賣爆了,單日營收破千元!故事的開始,是因為我們發(fā)現(xiàn)把AI3D打印手辦做成一門小生意的可行性越來越高,這也激發(fā)了我們的“搞錢基因”。再加上前不久新榜在上海舉辦了「新榜內(nèi)容節(jié)」,一拍即合,我們于是做了一批模型去大會現(xiàn)場擺攤試水!最后結(jié)果還不錯,單日最高收入突破1000元,是我們“創(chuàng)業(yè)史”上的一個高光表現(xiàn)。歡迎大家

    • 創(chuàng)想三維十一周年慶典:多款新品發(fā)布,共筑3D打印新生態(tài)

      4月9日,全球消費級3D打印領(lǐng)軍品牌創(chuàng)想三維在中國深圳、美國底特律兩地舉辦“創(chuàng)想三維十一周年慶典暨春季新品發(fā)布會”。公司聯(lián)合創(chuàng)始人陳春、敖丹軍、劉輝林、唐京科與來自全球的行業(yè)專家、核心經(jīng)銷商合作伙伴、供應(yīng)鏈合作伙伴及媒體代表共同見證品牌里程碑時刻。創(chuàng)想三維將持續(xù)加碼核心技術(shù)創(chuàng)新,通過技術(shù)突破、生態(tài)共建與用戶共創(chuàng),持續(xù)推動3D打印技術(shù)從“小?

    • 接替Manus,字節(jié)的Agent王牌能打多久?

      字節(jié)跳動旗下智能體平臺"扣子空間"推出首款由大廠發(fā)布的Agent爆款產(chǎn)品,自4月18日上線后引發(fā)用戶瘋搶邀請碼。該產(chǎn)品具備規(guī)劃、工具調(diào)用和記憶等關(guān)鍵能力,支持游戲攻略撰寫、市場調(diào)研等復(fù)雜需求,并首創(chuàng)"探索模式"和"規(guī)劃模式"雙交互設(shè)計。雖然底層模型能力較DeepResearch和Manus仍有差距,但憑借產(chǎn)品設(shè)計優(yōu)化和量大價優(yōu)的優(yōu)勢,成功填補了Manus留下的市場空白。字節(jié)同步推出企業(yè)版HiAgent解決私有化部署問題,半年內(nèi)智能體業(yè)務(wù)訂單量增長超330%。當(dāng)前行業(yè)正迎來Agent爆發(fā)期,但企業(yè)落地仍面臨系統(tǒng)接入、數(shù)據(jù)安全等挑戰(zhàn)。

    • 聚首華南,2025下半年增材制造、3D 打印的頂尖展覽與活動推薦

      2025年全球3D打印行業(yè)將迎來系列盛會。4月西安論壇成功舉辦后,下半年將迎來深圳Formnext Asia(8月26-28日)、東京論壇(9月25-26日)和法蘭克福Formnext展會(11月18-21日)三大國際活動。這些平臺將匯聚全球頂尖企業(yè),展示航空航天、醫(yī)療健康、汽車工業(yè)等領(lǐng)域的最新技術(shù)成果,特別關(guān)注中國企業(yè)的快速成長。法蘭克福展會預(yù)計吸引超900家展商,中國展商數(shù)量有望再創(chuàng)新高。系列活動將搭建全球產(chǎn)業(yè)交流平臺,推動3D打印技術(shù)創(chuàng)新與商業(yè)應(yīng)用深度融合。

    • 超過ChatGPT、Deepseek?谷歌發(fā)布 Gemini 2.5 Flash AI 模型

      新版AI模型縮短了響應(yīng)時間,節(jié)約了運算成本;還推出了新的AI芯片“Ironwood”。谷歌發(fā)布了新的AI模型“Gemini2.5Flash”,據(jù)稱,這款A(yù)I模型的性能比OpenAI和DeepSeek的AI產(chǎn)品“更高效”。谷歌計劃在三星今年上半年推出的AI伴侶機器人Ballie上搭載生成式AI模型。