mask—and—predict 的方法可能會(huì)成為計(jì)算機(jī)視覺(jué)領(lǐng)域的新流派。
自監(jiān)督預(yù)訓(xùn)練在自然語(yǔ)言處理方面取得了驚人的成功,其基本思路中包含著掩碼預(yù)測(cè)任務(wù)前段時(shí)間,何愷明一作的論文《Masked Autoencoders Are Scalable Vision Learners》提出了一種簡(jiǎn)單實(shí)用的自監(jiān)督學(xué)習(xí)方案 MAE,將 NLP 領(lǐng)域的掩碼預(yù)測(cè)方法用在了視覺(jué)問(wèn)題上現(xiàn)在來(lái)自 Facebook AI 研究院的研究團(tuán)隊(duì)又提出了一種自監(jiān)督視覺(jué)預(yù)訓(xùn)練新方法 MaskFeat
MaskFeat 首先隨機(jī)掩碼一部分輸入序列,然后預(yù)測(cè)被掩碼區(qū)域的特征通過(guò)研究 5 種不同類(lèi)型的特征,研究者發(fā)現(xiàn)方向梯度直方圖 是一種很好的特征描述方法,在性能和效率方面都表現(xiàn)優(yōu)異并且研究者還觀察到 HOG 中的局部對(duì)比歸一化對(duì)于獲得良好結(jié)果至關(guān)重要,這與之前使用 HOG 進(jìn)行視覺(jué)識(shí)別的工作一致
該方法可以學(xué)習(xí)豐富的視覺(jué)知識(shí)并驅(qū)動(dòng)基于 Transformer 的大規(guī)模模型在不使用額外的模型權(quán)重和監(jiān)督的情況下,MaskFeat 在未標(biāo)記的視頻上進(jìn)行預(yù)訓(xùn)練,使用 MViT—L 在 Kinetics—400 上實(shí)現(xiàn)了前所未有的 86.7% top—1 準(zhǔn)確率此外,MaskFeat 還能進(jìn)一步推廣到圖像輸入,并在 ImageNet 上獲得了有競(jìng)爭(zhēng)力的結(jié)果
方法
掩碼視覺(jué)預(yù)測(cè)任務(wù)旨在修復(fù)被掩碼的視覺(jué)內(nèi)容通過(guò)建模掩碼樣本,該模型從識(shí)別物體的部位和運(yùn)動(dòng)的意義上實(shí)現(xiàn)了視頻理解例如,要補(bǔ)全下圖中的圖像,模型必須首先根據(jù)可見(jiàn)區(qū)域識(shí)別對(duì)象,還要知道對(duì)象通常的形態(tài)和移動(dòng)方式,以修復(fù)缺失區(qū)域
該任務(wù)的一個(gè)關(guān)鍵組成部分是預(yù)測(cè)目標(biāo)在自然語(yǔ)言處理任務(wù)中,掩碼語(yǔ)言建模使用詞表 tokenize 語(yǔ)料庫(kù)作為目標(biāo)而在視覺(jué)領(lǐng)域,原始視覺(jué)信號(hào)是連續(xù)的,高維的,并且沒(méi)有可用的自然「詞表」
因此,MaskFeat 提出將預(yù)測(cè)被掩碼區(qū)域的特征借助從原始完整樣本中提取的特征進(jìn)行監(jiān)督目標(biāo)特征的選擇在很大程度上影響了預(yù)訓(xùn)練模型的屬性,該研究對(duì)特征進(jìn)行了廣泛的解釋?zhuān)⒅饕紤]了 5 種不同類(lèi)型的目標(biāo)特征
首先研究者將目標(biāo)特征分為兩組:1) 可以直接獲得的單階段目標(biāo),包括像素顏色和 HOG,2) 由經(jīng)過(guò)訓(xùn)練的深度網(wǎng)絡(luò)提取的兩階段目標(biāo)由于預(yù)測(cè)兩階段目標(biāo)是借助訓(xùn)練有素的深度網(wǎng)絡(luò)有效學(xué)得的(類(lèi)似于模型蒸餾),因此教師模型的預(yù)訓(xùn)練和推理的額外計(jì)算成本是不可避免的
像素顏色, 方向梯度直方圖, 離散變分自編碼器(dVAE), 深度特征, 偽標(biāo)簽。
該研究通過(guò)了一系列的分析探究了這 5 種特征的利弊盡管掩碼語(yǔ)言建模最初是在預(yù)定義詞表上預(yù)測(cè)分類(lèi)分布,但 BEiT 中的離散化不需要視覺(jué)信息分析結(jié)果表明,連續(xù)的無(wú)監(jiān)督特征和圖像描述符是性能較好的預(yù)測(cè)目標(biāo),其中前者需要模型蒸餾,后者則不需要額外的計(jì)算開(kāi)銷(xiāo)
此外,研究者還發(fā)現(xiàn)監(jiān)督訓(xùn)練的目標(biāo)特征會(huì)產(chǎn)生較差的結(jié)果,這可能與存在于特征中的類(lèi)級(jí)特定信息有關(guān),即這種方法對(duì)于局部掩碼建模來(lái)說(shuō)過(guò)于全局化總的來(lái)說(shuō),考慮性能和計(jì)算成本之間的權(quán)衡,該研究最終選擇了 HOG 作為 MaskFeat 的默認(rèn)特征
方向梯度直方圖特征是一種在計(jì)算機(jī)視覺(jué)和圖像處理中用來(lái)進(jìn)行物體檢測(cè)的特征描述方法,最早是在 CVPR 2005 的一篇論文《Histograms of Oriented Gradients for Human Detection》中提出的。
HOG 特征提取的過(guò)程如下:首先把樣本圖像分割為若干個(gè)像素單元,把梯度方向平均劃分為多個(gè)區(qū)間,在每個(gè)單元里面對(duì)所有像素的梯度方向在各個(gè)方向區(qū)間進(jìn)行直方圖統(tǒng)計(jì),得到一個(gè)多維的特征向量,每相鄰的單元構(gòu)成一個(gè)區(qū)間,把一個(gè)區(qū)間內(nèi)的特征向量聯(lián)起來(lái)得到多維的特征向量,用區(qū)間對(duì)樣本圖像進(jìn)行掃描,掃描步長(zhǎng)為一個(gè)單元最后將所有塊的特征串聯(lián)起來(lái),就得到了完整的特征
基于視頻識(shí)別的實(shí)驗(yàn)
該研究在 K400 數(shù)據(jù)集上將 MaskFeat 和之前的工作進(jìn)行了比較,結(jié)果如下表 3 所示,使用 MaskFeat 的 MViT—L 在 Kinetics—400 上實(shí)現(xiàn)了新的 SOTAmdash,mdash,86.7% top—1 準(zhǔn)確率。
遷移學(xué)習(xí)
為了評(píng)估該方法在下游任務(wù)上的遷移學(xué)習(xí)性能,該研究在 AVA v2.2 上微調(diào)了 MViT—Luarr,312,40times,3 Kinetics 模型,實(shí)驗(yàn)結(jié)果如上表 3 和下表 4 所示,在 K600 上實(shí)現(xiàn)了 88.3% top—1 準(zhǔn)確率,K700 上為 80.4%,均實(shí)現(xiàn)了新的 SOTA。
該研究在 AVA v2.2 上微調(diào)了 MViT—Luarr,312,40times,3 Kinetics 模型,下表 5 給出了 MaskFeat 模型與現(xiàn)有方法相比的平均精度 MaskFeat 在全分辨率測(cè)試中達(dá)到了前所未有的 38.8 mAP,大大超過(guò)了以前所有方法
感興趣的讀者可以閱讀論文原文了解更多研究細(xì)節(jié)。
。鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場(chǎng)無(wú)關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。