最近,Google DeepMind 推出了 NaViT:一種新的 ViT 模型,它在訓(xùn)練過程中使用序列打包來處理任意分辨率和寬高比的輸入。該模型將圖像分割成小塊,并線性投影到令牌上,形成了這個(gè)模型的基礎(chǔ)。
之前的研究已經(jīng)探討了與這個(gè)模型不同的可能性:FlexiViT 允許連續(xù)范圍的序列長度,并通過在每個(gè)訓(xùn)練迭代中隨機(jī)選擇補(bǔ)丁大小,并使用縮放技術(shù)來適應(yīng)初始卷積嵌入中的多個(gè)補(bǔ)丁大小。Pix2Struct 的替代補(bǔ)丁方法在圖表和文件理解等任務(wù)中非常有價(jià)值。
NaViT 是谷歌研究人員開發(fā)的另一種替代方案,它采用了 Patch n' Pack 技術(shù),通過將多個(gè)來自不同圖像的補(bǔ)丁打包到一個(gè)序列中,實(shí)現(xiàn)了不同分辨率的同時(shí)保持寬高比。NaViT 在廣泛的解決方案范圍內(nèi)都表現(xiàn)出色,為推理時(shí)間提供了平滑的性能 - 成本平衡,并且易于適應(yīng)新任務(wù),而且無需花費(fèi)大量資金。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們