PG电子英特尔通过软硬件为LIama2大模子供给加快

常见问题 | 2023-07-22 22:11:45 | 小编

　　PG电子官方网站DoNews7月21日音信，正在Llama 2公布之际，英特尔分享了70亿和130亿参数模子正在英特尔AI产物组合上运转的结果，包含Habana Gaudi 2 深度练习加快器、第四代英特尔至强可扩展处置器硬件、至强CPU Max系列和数据核心GPU Max系列等。

　　正在近期公布的MLPerf基准测试中PG电子，Gaudi2正在大说话模子上涌现了精华的演练职能，包含正在384个Gaudi2加快器上演练1750亿参数的GPT-3模子所涌现的结果。Gaudi2通过验证的高职能使其成为Llama和Llama 2模子演练和推理的高能效管理计划。

　　下图显示了70亿参数和130亿参数Llama 2模子的推理职能。模子离别正在一台Habana Gaudi2摆设上运转，batch size=1，输出token长度256，输入token长度未必，行使BF16精度。呈报的职能目标为每个token的延迟（不含第一个）硬件。

　　该测试行使optimum-habana文本天生剧本正在Llama模子上运转推理。optimum-habana库也许帮帮简化正在Gaudi加快器上铺排此类模子的流程，仅需极少的代码更改即可实行。

　　得益于更高的HBM2E带宽，英特尔至强CPU Max系列为以上两个模子供应了更低的延迟。而依靠英特尔AMX加快器，用户能够通过更高的批量尺寸（batch size）来进步模糊量。

　　对付70亿和130亿参数的模子，每个第四代至强插槽可供应低于100毫秒的延迟。用户能够离别正在两个插槽上同时运转两个并行实例，从而得到更高的模糊量，并独登时效劳客户端。

　　亦或者PG电子，用户能够通过英特尔PyTorch扩展包和DeepSpeed CPU，行使张量并行的式样正在两个第四代至强插槽上运转推理，从而进一步消浸延迟或声援更大的模子。

　　英特尔正在一个600瓦OAM样式的GPU上评估了Llama 2的70亿参数模子和Llama 2的130亿参数模子推理职能，这个GPU上封装了两个tile，而英特尔只行使个中一个tile来运转推理。

　　下图显示，对付输入长度为32到2000的token，英特尔数据核心GPU Max系列的一个tile可认为70亿参数模子的推理供应低于20毫秒的单token延迟，130亿参数模子的单token延迟为29.2-33.8毫秒PG电子。

　　由于该GPU上封装了两个tile硬件，用户能够同时并行运转两个独立的实例硬件，每个tile上运转一个，以得到更高的模糊量并独登时效劳客户端。PG电子英特尔通过软硬件为LIama2大模子供给加快