元象大模型開源了30款量化版本,支持 vLLM 和 llama.cpp 等主流框架的量化推理,無條件免費商用。
對量化前后的模型能力、推理性能進行評估,以 XVERSE-13B-GPTQ-Int4量化版本為例,量化后模型權重壓縮了72%,總吞吐提高了1.5倍,同時保留了95% 的能力。
開發者可以根據技能、軟硬件配置和具體需求選擇不同推理框架和數據精度的模型。如果本地資源有限,可以直接調用元象大模型的 API 服務(chat.xverse.cn)。
總體來說,元象大模型的開源量化版本提供了方便快捷的部署方式,可以根據需求選擇不同的框架和精度模型進行部署和推理。


產品與服務
聯系站長
關于我們