8月12日,華為將在 2025金融AI推理應用落地與發展論壇 上發布突破性 AI 推理創新技術 UCM(推理記憶數據管理器)。該技術有望降低中國 AI 推理對 HBM(高帶寬內存)的依賴,并顯著提升國內大模型推理性能。
UCM 以 KV Cache 為核心,融合多類型緩存加速算法工具,通過分級管理推理過程中產生的記憶數據,擴大上下文窗口,實現高吞吐、低時延的推理體驗,并降低每 Token 的推理成本。這一方案可緩解 HBM 資源不足帶來的任務卡頓與響應延遲問題。
在此次論壇上,華為將與中國銀聯共同發布 AI 推理最新應用成果。信通院、清華大學、科大訊飛等機構專家也將分享大模型推理加速與體驗優化的實踐。華為數據存儲產品線副總裁樊杰表示,未來 AI 突破將高度依賴高質量行業數據的釋放,高性能 AI 存儲可將數據加載時間從小時級縮短至分鐘級,使算力集群效率從30% 提升至60%。
業內分析認為,UCM 的推出正值 AI 產業從“追求模型能力極限”轉向“追求推理體驗最優化”的關鍵節點,推理體驗已成為衡量 AI 商業價值的重要標準。長城證券指出,隨著大模型能力持續提升與商業場景擴展,算力及產業鏈公司有望迎來新的發展機遇。


產品與服務
聯系站長
關于我們