6月7日消息,Intel官方宣布,旗下數據中心、客戶端、邊緣AI解決方案均已經為阿里云通義千問2(Qwen2)的全球發布提供支持,已取得ModelScope、阿里云PAI、OpenVINO等諸多創新成果。
為了最大限度地提升諸通義千問2等大模型的效率,Intel進行了全面的軟件優化,包括高性能融合算子、平衡精度和速度的先進量化技術等。
Intel還采用KV Caching、PagedAttention機制和張量并行,提高推理效率。
Intel的硬件也可利用軟件框架和工具包進行加速,并獲得出色的大模型推理性能,包括PyTorch以及Intel PyTorch擴展包、OpenVINO工具包、DeepSpeed、Hugging Face庫、vLLM。

首先看Intel Gaudi AI加速器,專為生成式AI、大模型的高性能加速而設計,最新版的Gaudi Optimum可以輕松部署新號的大模型。
Intel使用Gaudi 2,對70億參數、720億參數的通義千問2模型的推理和微調吞吐量進行了基準測試,以下為詳細性能指標和測試結果:

70億參數通義千問2在單顆Gaudi 2加速器上的推理

720億參數通義千問2在八顆Gaudi 2加速器上的推理

通義千問2 FP8在Gaudi 2加速器上的推理

通義千問2在Gaudi 2加速器上的微調
再看Intel至強處理器,作為通用平臺具有廣泛的可用性,適用于各個規模的數據中心,對于希望快速部署AI解決方案、沒有專項基礎設施企業非常理想。
至強處理器的每個核心都內置了Intel AMX高級矩陣擴展,可以處理多樣化的AI工作負載,并加速AI推理。

以上是在五代可擴展至強上運行阿里云ecs.ebmg8i.48xlarge實例,通義千問2的下一個推理token延遲情況。
最后是消費級的AI PC,可以在本地部署大模型,既然可以使用處理器內置GPU核顯、NPU AI引擎,也可以搭配獨立的銳炫顯卡。
以下展示了AI PC運行15億參數的通義千問2:

酷睿Ultra 7 165H上的通義千問2推理

酷睿 Ultra 7 165H上的通義千問2下一個token延遲

銳炫A770 16GB顯卡上的通義千問2下一個token延遲


產品與服務
聯系站長
關于我們