蘋(píng)果公司最近為其多模態(tài)人工智能模型MM1推出了重大更新,將其升級(jí)為MM1.5版本。
這次升級(jí)不僅僅是簡(jiǎn)單的版本號(hào)變更,而是全方位的能力提升,使得模型在各個(gè)領(lǐng)域都展現(xiàn)出了更強(qiáng)大的性能。
MM1.5的核心升級(jí)在于其創(chuàng)新的數(shù)據(jù)處理方法,包括高清晰度的OCR數(shù)據(jù)和合成圖像描述的使用,以及優(yōu)化的視覺(jué)指令微調(diào)數(shù)據(jù)混合。
MM1.5采用以數(shù)據(jù)為中心的訓(xùn)練方法,優(yōu)化了訓(xùn)練數(shù)據(jù)集,在文字識(shí)別、圖像理解和執(zhí)行視覺(jué)指令等方面表現(xiàn)顯著提升。
MM1.5涵蓋了從10億到300億參數(shù)的多個(gè)版本,包括密集型和專家混合(MoE)變體,即使是較小規(guī)模的模型也能達(dá)到令人印象深刻的性能水平。
MM1.5的能力提升主要體現(xiàn)在文本密集型圖像理解、視覺(jué)指代和定位、多圖像推理、視頻理解以及移動(dòng)UI理解等方面,拓展了應(yīng)用場(chǎng)景。


產(chǎn)品與服務(wù)
聯(lián)系站長(zhǎng)
關(guān)于我們