PG电子英特尔通过软硬件为LIama2大模子供给加快

 常见问题     |      2023-07-22 22:11:45    |      小编

  PG电子官方网站DoNews7月21日音信,正在Llama 2公布之际,英特尔分享了70亿和130亿参数模子正在英特尔AI产物组合上运转的结果,包含Habana Gaudi 2 深度练习加快器、第四代英特尔至强可扩展处置器硬件、至强CPU Max系列和数据核心GPU Max系列等。

  正在近期公布的MLPerf基准测试中PG电子,Gaudi2正在大说话模子上涌现了精华的演练职能,包含正在384个Gaudi2加快器上演练1750亿参数的GPT-3模子所涌现的结果。Gaudi2通过验证的高职能使其成为Llama和Llama 2模子演练和推理的高能效管理计划。

  下图显示了70亿参数和130亿参数Llama 2模子的推理职能。模子离别正在一台Habana Gaudi2摆设上运转,batch size=1,输出token长度256,输入token长度未必,行使BF16精度。呈报的职能目标为每个token的延迟(不含第一个)硬件。

  该测试行使optimum-habana文本天生剧本正在Llama模子上运转推理。optimum-habana库也许帮帮简化正在Gaudi加快器上铺排此类模子的流程,仅需极少的代码更改即可实行。

  得益于更高的HBM2E带宽,英特尔至强CPU Max系列为以上两个模子供应了更低的延迟。而依靠英特尔AMX加快器,用户能够通过更高的批量尺寸(batch size)来进步模糊量。

  对付70亿和130亿参数的模子,每个第四代至强插槽可供应低于100毫秒的延迟。用户能够离别正在两个插槽上同时运转两个并行实例,从而得到更高的模糊量,并独登时效劳客户端。

  亦或者PG电子,用户能够通过英特尔PyTorch扩展包和DeepSpeed CPU,行使张量并行的式样正在两个第四代至强插槽上运转推理,从而进一步消浸延迟或声援更大的模子。

  英特尔正在一个600瓦OAM样式的GPU上评估了Llama 2的70亿参数模子和Llama 2的130亿参数模子推理职能,这个GPU上封装了两个tile,而英特尔只行使个中一个tile来运转推理。

  下图显示,对付输入长度为32到2000的token,英特尔数据核心GPU Max系列的一个tile可认为70亿参数模子的推理供应低于20毫秒的单token延迟,130亿参数模子的单token延迟为29.2-33.8毫秒PG电子。

  由于该GPU上封装了两个tile硬件,用户能够同时并行运转两个独立的实例硬件,每个tile上运转一个,以得到更高的模糊量并独登时效劳客户端。PG电子英特尔通过软硬件为LIama2大模子供给加快