近日,DeepSeek公司正式發布并開源其最新技術成果FlashMLA。FlashMLA是專為英偉達Hopper架構GPU打造的高效多層注意力(Multi-Layer Attention)解碼內核,并特別針對變長序列場景進行了優化,可顯著提升大模型推理性能。同時,FlashMLA通過對BF16精度的全面支持,以及采用塊大小為64的頁式鍵值緩存系統,實現了更精確的內存管理。
在性能表現方面,基于CUDA12.6平臺,FlashMLA在H800SXM5GPU上表現突出:在內存受限場景下達到3000GB/s的處理速度,在計算受限場景下則實現580TFLOPS的算力水平。