5月13日,火山引擎發(fā)布豆包1.5·視覺(jué)深度思考模型。該模型激活參數(shù)20B,具備多模態(tài)理解和推理能力,在60個(gè)評(píng)測(cè)基準(zhǔn)中表現(xiàn)優(yōu)異。
其新增GUI Agent能力,可在PC端和手機(jī)端完成復(fù)雜交互任務(wù),如自動(dòng)化檢測(cè)APP功能。
此外,模型支持視頻動(dòng)態(tài)幀率采樣,增強(qiáng)時(shí)序定位能力,并通過(guò)強(qiáng)化學(xué)習(xí)提升視覺(jué)推理水平,已應(yīng)用于字節(jié)跳動(dòng)多款產(chǎn)品開(kāi)發(fā)測(cè)試中。


產(chǎn)品與服務(wù)
聯(lián)系站長(zhǎng)
關(guān)于我們