关于我们

质量为本、客户为根、勇于拼搏、务实创新

< 返回新闻公共列表

延迟减少2倍!英特尔向Meta披露了强6处理器! Llama 3模型的推理性能

发布时间:2024-04-20 16:48:30

4月20日消息,近日,MetaMeta推出了80亿和700亿参数 Llama 3开源大模型。该模型引入了新功能和更多的模型尺寸,如改进推理,并使用了新的标记器(Tokenizer),旨在提高编码语言效率,提高编码语言效率模型性能

英特尔在模型发布的第一时间验证了Llama 3能够在包括英特尔最强处理器在丰富的人工智能产品组合中运行,并披露了即将发布的英特尔至强6性能核处理器(代号为Granite Rapids)针对Meta Llama 3模型的推理性能。

英特尔到强处理器可以满足端到端人工智能工作负载的严格要求。以第五代到强处理器为例,每个核心都内置了AMX加速发动机,它可以提供出色的人工智能推理和训练性能。到目前为止,该处理器已被许多主流云服务提供商采用。此外,强处理器可以提供更低的延迟,同时处理各种工作负载。

事实上,英特尔一直在不断优化强大平台的大模型推理性能。例如,与Llama相比, Pytorch和英特尔Pytorch扩展包(IntelExtension for PyTorch)延迟减少了5倍。这种优化是通过Paged进行的 Attention算法与张量并行实现,因为它可以最大限度地发挥可用算力和内存带宽。下图显示了80亿参数的Meta Lama 3模型在AWS m7i.metal-根据第四代英特尔到强可扩展处理器,48x实例的推理性能。

Llamama 下一个Token延迟3

不仅如此,英特尔还首次披露了即将到来的产品——英特尔至强6性能核处理器(Granite) Rapids)针对Meta Llama 3.性能测试。结果表明,与第四代到强处理器相比,英特尔到强6处理器在80亿参数的Llama 3推理模型的延迟减少了2倍,可以在单个双路延迟不到100毫秒的token服务器Llama上运行,如700亿参数 这种更大参数的推理模型。

基于英特尔的实力 6性能核处理器(Granitee代码) Rapids)Llama 下一个Token延迟

考虑到Llama 3具有更高效的编码语言标记器(Tokenizer),随机选择的prompt用于Llama 三、Llama 2.快速比较。当prompt相同时,Llama 与Lama相比,标记3的token数量为Lama 2减少18%。因此,即使是80亿参数的Llama Llama3模型比70亿参数的Llama AWS模型参数较高, m7i.metal-BF16推理在48xl实例中运行时,整个prompt的推理延迟几乎相同(在评估中,Llama 3比Llama好 2快1.04倍)。


/template/Home/Zkeys/PC/Static