8月31日,上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)宣布開源發(fā)布多模態(tài)大模型書生·萬象InternVL3.5。該模型通過創(chuàng)新的級聯(lián)式強(qiáng)化學(xué)習(xí)(Cascade RL)、動(dòng)態(tài)視覺分辨率路由與解耦部署架構(gòu),實(shí)現(xiàn)了推理能力、部署效率與通用能力的全面升級。InternVL3.5開源了從1B到241B各尺寸參數(shù)的全量級版本,刷新了開源模型性能標(biāo)桿,在多種任務(wù)上達(dá)到領(lǐng)先水平。
InternVL3.5的旗艦?zāi)P虸nternVL3.5-241B-A28B在多學(xué)科推理基準(zhǔn)MMMU中獲得開源模型最高分77.7分,多模態(tài)通用感知基準(zhǔn)MMStar和OCRBench分別取得77.9分和90.7分,超越GPT-5(75.7分/80.7分)。文本推理基準(zhǔn)AIME25和MMLU-Pro分別達(dá)到75.6和81.3分,全面領(lǐng)先現(xiàn)有開源多模態(tài)大模型。依托級聯(lián)式強(qiáng)化學(xué)習(xí)框架,全系列模型推理性能相比上一代平均提升16.0分。其中,InternVL3.5-241B-A28B綜合推理性能達(dá)到66.9分,超越上一代模型的54.6分以及Claude-3.7-Sonnet的53.9分,在數(shù)學(xué)推理、邏輯推理等復(fù)雜任務(wù)中表現(xiàn)突出。

借助創(chuàng)新的視覺分辨率路由(ViR)與解耦部署框架(DvD),38B模型在896分辨率下的響應(yīng)速度大幅提升,單次推理延遲由369ms縮短至91ms(提升約4倍)。與此同時(shí),輕量化的InternVL3.5-Flash在將視覺序列長度減少50%的情況下,仍能保持接近100%的性能水平。
InternVL3.5還加強(qiáng)了GUI智能體、具身智能體、SVG圖形理解與生成等智能體核心能力,在ScreenSpot GUI定位(92.9分)、VSI-Bench空間推理(69.5分)、SGP-Bench矢量圖理解(70.6分)等任務(wù)中超越主流開源模型。
InternVL3.5提供10億至2410億參數(shù)共九種尺寸模型,覆蓋不同資源需求場景,包含稠密模型和專家混合模型(MoE),是首個(gè)支持GPT-OSS語言模型基座的開源多模態(tài)大模型。官方提供了使用`transformers`運(yùn)行`InternVL3.5-8B`的示例代碼,模型最多可以部署在單張A100GPU上,而38B模型需要2張A100GPU,235B模型則需要8張A100GPU。
ms-swift已經(jīng)支持對InternVL3.5系列模型進(jìn)行訓(xùn)練。ms-swift是魔搭社區(qū)官方提供的大模型與多模態(tài)大模型訓(xùn)練部署框架。用戶可以將數(shù)據(jù)準(zhǔn)備成特定格式進(jìn)行自定義數(shù)據(jù)集微調(diào)。訓(xùn)練完成后,可以使用相應(yīng)命令進(jìn)行推理,并將模型推送到ModelScope。
InternVL3.5的發(fā)布標(biāo)志著多模態(tài)大模型技術(shù)的又一重要進(jìn)展,為研究人員和開發(fā)者提供了強(qiáng)大的工具,推動(dòng)了多模態(tài)人工智能的發(fā)展。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們