IT之家 3 月 12 日消息,Stability AI 近日發(fā)布新聞稿,表示在文生圖模型 Stable Diffusion 3 測(cè)試中,英特爾 Gaudi2 加速器比英偉達(dá) H100最多快 55%。
根據(jù)新聞稿,Stable Diffusion 3 模型參數(shù)范圍在 8 億到 80 億之間,本次測(cè)試使用的是 20 億參數(shù)版本。測(cè)試選手包括英偉達(dá)的 H100“Hopper” 80 GB、A100“Ampere” 80 GB 和英特爾 Gaudi2 96 GB 加速器。
在保持加速器和節(jié)點(diǎn)數(shù)量不變的情況下,英特爾 Gaudi2 陣列使用 2 個(gè)節(jié)點(diǎn)、16 個(gè)加速器和每個(gè)加速器 16 個(gè)恒定批處理大小(共 256 個(gè)),每秒可生成 927 幅圖像,而 H100 陣列每秒生成 595 幅圖像,A100 陣列每秒生成 381 幅圖像。
在節(jié)點(diǎn)數(shù)相同的情況下,Gaudi2 陣列每秒可生成 12654 幅圖像,每臺(tái)設(shè)備每秒可生成 49.4 幅圖像;而老一代 A100 "Ampere" 陣列每秒可生成 3992 幅圖像,每臺(tái)設(shè)備每秒可生成 15.6 幅圖像。
Stability AI 表示:
在使用 80 億參數(shù)的 Stable Diffusion 3 模型進(jìn)行推理測(cè)試時(shí)候,Gaudi2 芯片的推理速度與使用基本 PyTorch 的 Nvidia A100 芯片相近。然而,經(jīng)過(guò) TensorRT 優(yōu)化后,A100 芯片生成圖像的速度比高迪 2 快 40%。 我們預(yù)計(jì),經(jīng)過(guò)進(jìn)一步優(yōu)化后,Gaudi2 在該模型上的性能將很快超過(guò) A100。在我們使用基本 PyTorch 的 SDXL 模型上進(jìn)行的早期測(cè)試中,Gaudi2 在 3.2 秒內(nèi)生成了 30 steps 1024x1024 圖像,而 A100s 上的 PyTorch 為 3.6 秒,A100 上使用 TensorRT 的生成速度為 2.7 秒。
IT之家附上報(bào)告原文地址,感興趣的用戶(hù)可以深入閱讀。