最近,謝賽寧團(tuán)隊(duì)的新作 “iREPA” 便是源于一場持續(xù)了四個(gè)月的推特辯論。這場論戰(zhàn)雖以謝賽寧的讓步為結(jié)局,卻意外催生了一篇重要論文,展示了新穎的研究思路。
事件的起源可以追溯到八月份。當(dāng)時(shí),一位網(wǎng)友在推特上提出了關(guān)于自監(jiān)督學(xué)習(xí)(SSL)模型的看法,認(rèn)為它們應(yīng)該專注于稠密任務(wù),因?yàn)檫@些任務(wù)依賴于圖像的空間和局部信息,而不僅僅是全局分類性能。謝賽寧對此提出了反駁,認(rèn)為全局性能與稠密任務(wù)并沒有直接關(guān)系。
網(wǎng)友們展開了熱烈的討論,其中一位網(wǎng)友還分享了可以與 REPA 進(jìn)行比較的方案。這個(gè)討論激發(fā)了謝賽寧的興趣,并促使他深入探索這一問題。幾個(gè)月后,謝賽寧表示,自己之前的看法被修正,并且這篇論文的研究為理解視覺編碼器的生成能力提供了新視角。
在這篇論文中,研究者們探討了在預(yù)訓(xùn)練視覺編碼器中,究竟是哪些部分決定了生成模型的表現(xiàn)。結(jié)果顯示,空間結(jié)構(gòu)的信息,而非全局語義,才是驅(qū)動(dòng)生成質(zhì)量的關(guān)鍵因素。傳統(tǒng)觀點(diǎn)認(rèn)為更好的全局語義信息能提升生成效果,但研究表明,實(shí)際上較低準(zhǔn)確率的視覺編碼器往往能實(shí)現(xiàn)更好的生成性能。
為了解決這一問題,研究者們提出了 iREPA,這一新框架僅需三行代碼即可整合到任何表示對齊方法中。通過對 PA 的改,如用卷層替換傳統(tǒng)的 MLP 投影層,研究者們成功強(qiáng)化了空間結(jié)構(gòu)信息,顯著提升了生成性能。
這次學(xué)術(shù)討論不僅展示了開放和的科研氛,更強(qiáng)調(diào)了通過交流和實(shí)驗(yàn)獲取知識(shí)的重要性。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們