Twelve Labs最新發(fā)布了 Pegasus-1的公測(cè)版本,這款視頻 - 語(yǔ)言基礎(chǔ)模型在視頻理解領(lǐng)域取得了新突破。
Pegasus-1是一款具有約17億參數(shù)的視頻 - 語(yǔ)言模型,能夠以卓越的準(zhǔn)確性和細(xì)節(jié)處理能力從視頻輸入中生成語(yǔ)言描述。據(jù)稱(chēng),Pegasus-1視頻解讀能力比Gemini Pro1.5還要強(qiáng),通過(guò)優(yōu)質(zhì)數(shù)據(jù)、優(yōu)化視頻處理和精細(xì)訓(xùn)練等升級(jí),提供卓越的視頻理解和生成文本能力。在視頻總結(jié)、問(wèn)題回答和對(duì)話方面表現(xiàn)卓越。
產(chǎn)品特色功能包括:
- 數(shù)據(jù)優(yōu)化:高質(zhì)量數(shù)據(jù)驅(qū)動(dòng)模型表現(xiàn),100,000個(gè)高質(zhì)量視頻 - 文本對(duì)訓(xùn)練帶來(lái)強(qiáng)大基礎(chǔ)視頻理解能力。
- 視頻處理提升:優(yōu)化空間和時(shí)間分辨率,使 Pegasus-1能更好地捕捉視頻信息。
- 訓(xùn)練技術(shù)改進(jìn):多階段訓(xùn)練避免災(zāi)難性遺忘,使模型在細(xì)節(jié)、世界知識(shí)和時(shí)間理解等方面大幅提升。
在基準(zhǔn)測(cè)試中,Pegasus-1在視頻問(wèn)答、對(duì)話和摘要等任務(wù)中勝過(guò)谷歌 Gemini Pro 等現(xiàn)有模型,展現(xiàn)出卓越的性能。無(wú)論是零樣本表現(xiàn)還是廣泛泛化能力,Pegasus-1都站在行業(yè)前沿,為視頻理解任務(wù)設(shè)立新標(biāo)桿。
然而,仍需關(guān)注模型安全性、視頻長(zhǎng)度限制和偶發(fā)幻覺(jué)等方面的改進(jìn)空間。Pegasus-1的不斷進(jìn)化與創(chuàng)新,為視頻理解技術(shù)開(kāi)辟新的可能性。值得一提的是,Pegasus-1未開(kāi)源,通過(guò)API使用


產(chǎn)品與服務(wù)
聯(lián)系站長(zhǎng)
關(guān)于我們