要點(diǎn):
1、DualToken-ViT將卷積和自注意力聯(lián)合使用,分別提取局部和全局信息,再將兩者輸出融合形成有效的注意力結(jié)構(gòu)。
2、使用位置感知全局令牌提升全局信息質(zhì)量,令牌中還包含圖像位置信息,有利于視覺(jué)任務(wù)。
3、在相同F(xiàn)LOPs下,DualToken-ViT在圖像分類、目標(biāo)檢測(cè)和語(yǔ)義分割任務(wù)上表現(xiàn)最好。
站長(zhǎng)之家(ChinaZ.com)10月2日 消息:最近,視覺(jué)Transformer(ViT)成為各類視覺(jué)任務(wù)如物體識(shí)別和圖片分類的有效架構(gòu)。這是因?yàn)樽宰⒁饬梢詮膱D片中提取全局信息,而卷積核大小限制了卷積神經(jīng)網(wǎng)絡(luò)(CNN)只能提取局部信息。隨著ViT模型和數(shù)據(jù)集規(guī)模的增大,相比CNN具有更好的擴(kuò)展性。但在輕量級(jí)模型上,由于缺乏某些歸納偏置,CNN優(yōu)于ViT。
自注意力的二次復(fù)雜度導(dǎo)致ViT計(jì)算成本潛在很高,構(gòu)建輕量高效的ViT并不容易。為此,提出金字塔結(jié)構(gòu),將模型分為多個(gè)階段,每階段令牌數(shù)減少,通道數(shù)增加,以構(gòu)建更輕量高效的ViT。簡(jiǎn)化自注意力結(jié)構(gòu)以減輕其復(fù)雜度,但以犧牲注意力有效性為代價(jià)。一個(gè)典型策略是下采樣自注意力的key和value,減少參與注意力過(guò)程的令牌數(shù)。
論文地址:https://arxiv.org/abs/2309.12424
本研究中,華東師范大學(xué)和阿里巴巴集團(tuán)的研究人員提出了緊湊高效的視覺(jué)Transformer模型DualToken-ViT。他們的方法使用卷積和自注意力聯(lián)合提取局部和全局信息,再將兩者輸出融合形成有效的注意力結(jié)構(gòu)。盡管窗口自注意力也可以提取局部信息,但他們發(fā)現(xiàn),在輕量模型上卷積更有效。他們采用逐步下采樣的方式生成key和value特征圖,在下采樣過(guò)程中保留更多信息,降低自注意力在傳播全局信息時(shí)的計(jì)算成本。
此外,他們?cè)诿總€(gè)級(jí)別使用位置感知全局令牌來(lái)提高全局?jǐn)?shù)據(jù)質(zhì)量。與標(biāo)準(zhǔn)全局令牌不同,他們的位置感知全局令牌還可以維護(hù)和傳遞圖像位置信息,在視覺(jué)任務(wù)中為模型提供優(yōu)勢(shì)。如圖1所示,圖像中的關(guān)鍵令牌與位置感知全局令牌中的對(duì)應(yīng)令牌產(chǎn)生了更大的相關(guān)性。
總之,他們的貢獻(xiàn)有:1)提出了緊湊高效的視覺(jué)Transformer模型DualToken-ViT,通過(guò)卷積和自注意力的優(yōu)勢(shì)實(shí)現(xiàn)有效的注意力結(jié)構(gòu);2)提出位置感知全局令牌,通過(guò)圖像位置信息來(lái)增強(qiáng)全局信息;3)DualToken-ViT在相同F(xiàn)LOPs下在多個(gè)視覺(jué)任務(wù)上表現(xiàn)最好。
(舉報(bào))