无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > DINOv2最新資訊  > 正文

    DINOv2:Meta AI 開源的自監(jiān)督計(jì)算機(jī)視覺模型

    2023-05-25 08:40 · 稿源:站長(zhǎng)之家

    站長(zhǎng)之家(ChinaZ.com) 5月25日消息:Meta AI Research 發(fā)布了 DINOv2 開源項(xiàng)目,這是一款用于計(jì)算機(jī)視覺(CV)任務(wù)的基礎(chǔ)模型。DINOv2 在一個(gè)由 1.42 億張圖像構(gòu)成的篩選數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,可用作圖像分類、視頻動(dòng)作識(shí)別、語義分割和深度估計(jì)等多個(gè)任務(wù)的骨干模型。

    Meta,元宇宙,F(xiàn)acebook

    Meta 基于 Vision Transformer(ViT)架構(gòu)構(gòu)建了該模型,并對(duì)其進(jìn)行了自監(jiān)督學(xué)習(xí)目標(biāo)的修改。團(tuán)隊(duì)建立了一個(gè)自動(dòng)化流程,從網(wǎng)絡(luò)上獲取圖像并構(gòu)建了一個(gè)篩選數(shù)據(jù)集來訓(xùn)練模型。其中一個(gè)重要的貢獻(xiàn)是改進(jìn)了訓(xùn)練過程,該方法的速度是之前方法的兩倍,內(nèi)存使用量減少了三分之一。在計(jì)算機(jī)視覺基準(zhǔn)測(cè)試中,DINOv2 優(yōu)于其他自監(jiān)督學(xué)習(xí)(SSL)模型,并顯示出與弱監(jiān)督模型相媲美或更好的性能。根據(jù) Meta 的說法:

    展望未來,團(tuán)隊(duì)計(jì)劃將該模型整合到一個(gè)更大、更復(fù)雜的人工智能系統(tǒng)中,該系統(tǒng)可以與大型語言模型進(jìn)行交互。具備豐富圖像信息的視覺骨干模型將使復(fù)雜的人工智能系統(tǒng)能夠?qū)D像進(jìn)行比單一文本描述更深入的推理。以文本監(jiān)督進(jìn)行訓(xùn)練的模型最終受限于圖像標(biāo)題的內(nèi)容。而使用 DINOv2,則沒有這樣的內(nèi)置限制。

    計(jì)算機(jī)視覺任務(wù)的深度學(xué)習(xí)模型通常依賴于帶有人工注釋的大型圖像數(shù)據(jù)集,例如 ImageNet。2021 年,OpenAI 發(fā)布了 CLIP,這是一個(gè)使用弱監(jiān)督訓(xùn)練方法的計(jì)算機(jī)視覺基礎(chǔ)模型,其中的注釋是通過爬取與源圖像相關(guān)的 html 標(biāo)簽和其他網(wǎng)絡(luò)元數(shù)據(jù)自動(dòng)生成的。同年,Google 發(fā)布了 ViT 模型,它使用自監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練。Meta 也發(fā)布了 DINO 的原始版本的研究成果,將 ViT 模型與知識(shí)蒸餾相結(jié)合,從而獲得了性能相當(dāng)?shù)〉哪P汀?/p>

    對(duì)于 DINOv2,Meta 專注于收集更多訓(xùn)練數(shù)據(jù)并擴(kuò)大訓(xùn)練過程。對(duì)于訓(xùn)練數(shù)據(jù),Meta 從互聯(lián)網(wǎng)上收集了 1.2B 個(gè)獨(dú)特的圖像,然后根據(jù)它們與 ImageNet 數(shù)據(jù)集中圖像的相似性對(duì)它們進(jìn)行聚類,以獲得最終的 142M 圖像集。為了擴(kuò)大訓(xùn)練規(guī)模,Meta 實(shí)施了自定義版本的 FlashAttention,并使用 PyTorch 進(jìn)行完全分片數(shù)據(jù)并行 (FSDP) 訓(xùn)練??傮w而言,該項(xiàng)目消耗了大約 20 萬個(gè) GPU 日的計(jì)算量。

    為了評(píng)估 DINOv2 作為基礎(chǔ)模型的性能,該團(tuán)隊(duì)在各種 CV 任務(wù)上對(duì)其進(jìn)行了測(cè)試,并將其與幾個(gè)基線 SSL 模型以及 CLIP 等弱監(jiān)督模型進(jìn)行了比較。在 ImageNet-1k 分類任務(wù)上,DINOv2 與其他 SSL 模型相比表現(xiàn)出「非常顯著的改進(jìn)」,并且表現(xiàn)優(yōu)于弱監(jiān)督模型。它還在三個(gè)視頻動(dòng)作識(shí)別基準(zhǔn)測(cè)試中創(chuàng)造了新的 SSL 最先進(jìn)記錄,并在實(shí)例級(jí)識(shí)別基準(zhǔn)測(cè)試和三個(gè)單眼深度估計(jì)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于基線。

    在 Hacker News 關(guān)于這項(xiàng)工作的討論中,一些用戶稱贊了 Meta 最近在計(jì)算機(jī)視覺方面的工作以及 PyTorch 等過去的貢獻(xiàn)。有人確實(shí)注意到 Meta 圍繞他們的工作進(jìn)行交流的轉(zhuǎn)變:

    作為該領(lǐng)域的研究生,在 Yann LeCun 的內(nèi)部倡導(dǎo)下,Meta 一直為開源機(jī)器學(xué)習(xí)工作做出了不小的貢獻(xiàn)。最近發(fā)生變化的是他們的公關(guān)策略:[OpenAI] 基本上已經(jīng)向所有人表明,如果你的宣傳很糟糕,那么你是否有最好的模型并不重要。

    GitHub 上提供了 DINOv2 代碼和模型。該項(xiàng)目站點(diǎn)托管了使用 DINOv2 的多個(gè)計(jì)算機(jī)視覺任務(wù)的交互式演示。

    DINOv2 開源模型 GitHub 地址:https://github.com/facebookresearch/dinov2

    DINOv2 開源項(xiàng)目: https://dinov2.metademolab.com/

    舉報(bào)

    • 相關(guān)推薦