8月7日消息,小紅書hi lab(人文智能實驗室)開源了其首款多模態大模型dots.vlm1,這一模型基于DeepSeek V3打造,并配備了由小紅書自研的12億參數視覺編碼器NaViT,具備多模態理解與推理能力。
在主要的視覺評測集上,dots.vlm1的整體表現已接近當前領先模型,如Gemini 2.5 Pro與Seed-VL1.5 thinking,尤其在MMMU、MathVision、OCR Reasoning等多個基準測試中顯示出較強的圖文理解與推理能力。
據網經社云計算臺(CC.100EC.CN)了解,這一模型可以看懂復雜的圖文交錯圖表,理解表情包背后的含義,分析兩款產品的配料表差異,還能判斷博物館中文物、畫作的名稱和背景信息。
在主流視覺評測數據集上,dots.vlm1的整體性能已逼近當前處于領先地位的Gemini2.5Pro和Seed-VL1.5thinking模型。特別是在MMMU、MathVision、OCRReasoning等多個基準測試中,它展現出極具競爭力的成果,充分彰顯了其出色的圖文理解與推理能力。
在AIME、GPQA、LiveCodeBench等典型文本推理任務中,dots.vlm1的表現與DeepSeek-R1-0528大致相當。這表明它在數學和代碼能力方面已具備一定的通用性,但在GPQA等涵蓋范圍更廣的推理任務上,仍存在明顯差距。
綜合而言,dots.vlm1在視覺多模態能力上已接近當前最佳水平,文本推理能力也達到了主流模型的標準。不過,在部分細分任務中,它與最優結果仍有一定距離,未來還需在架構設計和訓練數據兩方面進行進一步優化。


產品與服務
聯系站長
關于我們