階躍星辰團隊宣布其最新一代基礎大模型 Step3正式開源。Step3是一款專為追求性能與成本極致均衡的企業和開發者設計的模型,旨在面向推理時代打造最適合應用的模型。該模型的開源地址包括 Github、Hugging Face 和魔搭 ModelScope,開發者可以自由下載體驗。
Step3采用 MoE 架構,總參數量達到3210億,激活參數量為380億。它不僅擁有強大的視覺感知和復雜推理能力,還能準確完成跨領域的復雜知識理解、數學與視覺信息的交叉分析,以及日常生活中的各類視覺分析問題。通過 MFA(Multi-matrix Factorization Attention)和 AFD(Attention-FFN Disaggregation)的優化,Step3在各類芯片上的推理效率均大幅提升。此外,面向 AFD 場景的 StepMesh 通信庫也已隨模型一同開源,提供可跨硬件的標準部署接口,支持關鍵性能在實際服務中的穩定復現。

Step3的核心結構采用自研 MFA 注意力機制,有效降低注意力計算中的 KV 緩存開銷與算力消耗。在不犧牲模型能力的前提下,這一方案實現了資源利用與推理效率的平衡,使得模型可在8×48GB 顯卡上完成大吞吐量推理,具備真實部署的可行性。多模態能力方面,Step3采用5B Vision Encoder,并通過雙層2D 卷積對視覺特征進行降采樣,將視覺 token 數量減少到原來的1/16,減輕上下文長度壓力,提升推理效率。訓練過程分為兩個階段:第一階段強化 Encoder 感知,第二階段凍結視覺編碼器,僅優化主干與連接層,以減少梯度干擾。訓練語料涵蓋 Pair、Interleave 與多任務數據,在清洗環節中引入相似度過濾、重采樣與任務比例控制,進一步提升圖文協同質量與訓練魯棒性。
Step3在系統架構層重構了解碼流程,重點解決 Attention 與 FFN 混合執行帶來的推理瓶頸以及資源不匹配問題。為此,團隊實現了高性能的 AFD 方案,將兩類計算任務解耦成為兩個子系統,并通過多級流水線并行調度,有效提升整體吞吐效率。由于解耦后的子系統之間對數據傳輸有極高要求,團隊同時研發了面向 AFD 場景的 StepMesh 通信庫,基于 GPU Direct RDMA 實現跨卡的低延遲和高帶寬傳輸,同時兼備不占用 GPU 計算資源、適配多類異構硬件等優勢。在50ms 解碼的 SLA 前提下,Step3在 Hopper GPU 上的吞吐達到4039token/gpu/s,顯著高于類似設置下的 DeepSeek V3(2324token/gpu/s),且該性能增益在特定硬件與長文場景會進一步放大至300%。
Step3在 MMMU、MathVision、SimpleVQA、AIME2025、GPQA-Diamond、LiveCodeBench (2024.08-2025.05)等評測集上進行了測試,在同類型開源模型中,Step3成績行業領先。例如,在“安排商務宴座”的任務中,Step3能夠識別圖中結構,自動解析禮儀規則、角色關系與空間邏輯,再結合中文社交禮儀推理出完整12人角色分布邏輯,最終輸出了角色明確、位置清晰、結構合理的“主賓-主陪”全局排座方案,并用表格+ASCII 圖直觀展示。在卡路里計算任務中,Step3能夠看懂復雜的小票,把菜品歸類、對上熱量,最終估算出2人一頓飯總共吃了5710大卡,人均2855大卡,整個過程從原始數據到結論解釋,邏輯清晰,一整個閉環。
Step3API 已上線階躍星辰開放平臺(platform.stepfun.com),開發者也可以在“階躍 AI”官網(stepfun.com)和“階躍 AI”App(應用商店搜索下載)進行體驗。模型限時折扣中,所有請求均按最低價格計算,每百萬 token 價格低至輸入1.5元,輸出4元。


產品與服務
聯系站長
關于我們