关于我们

质量为本、客户为根、勇于拼搏、务实创新

< 返回新闻公共列表

Llamama开源大模型 3王者归来!最大底牌参数4000亿,性能直接接近GPT-4

发布时间:2024-04-20 16:48:47

声明:本文来自微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权站长之家转载发布。

扎克伯格:「有了 Llama3,全世界都能拥有最智能的 AI。」

ChatGPT 拉开大模型竞赛的序幕,Meta 似乎要后来居上了。

本周四,AI 该领域迎来了重大新闻,Meta 人们等待已久的开源大模型正式发布 Llama3。

扎克伯格在 Facebook 上发帖:Big AI news today.

与此同时,扎克伯格宣布,基于最新的 Llama3模型,Meta 的 AI 助理现在已经被覆盖了 Instagram、WhatsApp、Facebook 等待整个系列应用程序,并单独打开网站。还有一个图像生成器,可以根据自然语言提示生成图片。

Meta AI 网址:https://www.meta.ai/

图片

同日,亚马逊云科技也宣布,Meta Llama3基础模型已经通过 Amazon SageMaker JumpStart部署和推理操作。亚马逊云技术官方博客详细介绍了如何介绍亚马逊云技术的官方博客 SageMaker Studio 中使用 有兴趣的读者可以详细了解Llama3模型(见文后链接)。

扎克伯格说,Meta 提供的生成式 AI 能力在免费产品中的性能最强大的。

在 Facebook、Instagram、WhatsApp 和 Messenger 现在,用户可以使用它 Meta AI 不需要在应用程序之间切割搜索

当你浏览信息流时,你也可以直接从帖子中走向 Meta AI 询问更多信息。

图像生成器带来的游戏玩法更有趣,Imagine 该功能从文本中实时创建图像。这个功能的测试版从今天开始在美国 WhatsApp 和 Meta AI 推出网络体验。

当你开始打字时,你会看到一个图像出现,每次多输入几个字母,图像就会改变。

Meta Llama3在多个关键的基准测试中表现优于行业先进的类似模型,在代码生成等任务中全面领先,可以进行复杂的推理,可以遵循指令,可视化想法,解决许多微妙的问题。

简而言之,Llama3的主要亮点包括:

  • 基于超过15T token 训练,相当于 Llama2数据集的7倍以上;

  • 支持8K 长文本,改进 tokenizer 具有128K token 词汇量可以实现更好的性能;

  • 在大量的重要基准中最先进性能;

  • 包括增强推理和代码能力在内的新能力范畴;

  • 训练效率比 Llama2高3倍;

  • 带有 Llama Guard2、Code Shield 和 CyberSec 新版Eval2的信任和安全工具。

刚刚发布的8B 和70B 版本 Llama3模型已用于Llama3模型 Meta AI 助手还为开发人员开源,包括预训练和微调版本:

下载链接:https://llama.meta.com/llama-downloads/

Github:https://github.com/meta-llama/

图片

未来几个月将推出更大的多模态版本。Meta 说,目前正在开发中最大模型是400B+ 参数。

Meta 研究科学家 Aston Zhang 大模型发布后表示, 在Llama3的研发过程中,研究团队共同应对了预训练和人类数据、预训练扩展、上下文、后训练和评价等诸多挑战。这是一段艰难而令人兴奋的旅程。

图片

更令人兴奋的内容即将到来:Meta 目前,研究人员正准备推出一系列视频,帮助人们深入了解 Llama3背后的技术。另外 Llama3的相关研究论文也将发表。

Llama3,性能回归王座,性能回归王座

最新发布的8B 和70B 参数的 Llama3模型可以说是 由于预训练和后训练,Llama2的重大飞跃(Post-training)此次发布的预训练和指令微调模型是今天的8B 和70B 在参数规模中最佳模型。同时,后训练过程的改进大大降低了模型错误率,进一步提高了一致性,增加了模型响应的多样性。

Llama3将数据和规模提升到一个新的高度。Meta Llama3是两个定制的24K GPU 基于15T以上的集群 token 在数据上进行了训练 —— 相当于 Llama2数据集的7倍以上,代码数据相当于 Llama2的4倍。从而产生到目前为止最强大的 Llama Llama3支持8K模型 上下文的长度,是的 Llama2的两倍容量。

图片

此外,Meta 还开发了一套新的高质量人类评估数据集。评估集包括1800个提示,包括12个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。为了防止 Llama3在这个评估集中过度拟合,Meta 这意味着他们自己的团队无法访问数据集。下图显示了针对性 Claude Sonnet、Mistral Medium 和 GPT-3.5人工评估这些类别和提示的汇总结果。

图片

下图是 与其他相同规模的Llama3预训练模型相比,前者表现出 SOTA 水平。

图片

要开发出优秀的语言模型,Meta 认为创新、扩展和优化是非常重要的。所以在 在Llama3的研发中 Meta 采用这一设计理念,重点关注模型架构、预训练数据、扩展预训练和指令微调四个关键要素。

模型架构

Llama3选择了相对标准的纯解码器 Transformer 架构。与 与Llama2相比,Llama3做了几个关键的改进,包括:

  • Llama3使用128K token 词汇表的 tokenizer,能更有效地编码语言,从而显著提高模型性能;

  • 为了提高 Llama3模型的推理效率,8B研究团队 和70B 大小模型采用分组查询注意力 (GQA);

  • 在8192个 token 在序列上训练模型,使用掩码确保自我注意力不会跨越文档边界。

训练数据

图片

为了训练最好管理大型、高质量的培训数据集对于语言模型至关重要。Meta 在预训练数据上投入了大量成本。Lllama3使用超过15TT 的 token 这些都是预训练 token 它们都是从公共来源收集的。总的来说,Llama3的训练数据集是 Llama2使用七倍多的数据集,并包含四倍多的代码。为了为即将到来的多语言用例做准备,超过5% 的 Llama3预训练数据集由高质量的非英语数据组成,涵盖30多种语言。然而,Llama3在这些语言中的表现水平预计不会与英语相同。

为了确保 Llama3接受最高研究小组开发了一系列数据过滤培训 pipeline,包括使用启发式过滤器(filter)、NSFW 预测数据质量的过滤器、语义重复数据删除方法和文本分类器。

研究团队发现了前几代 Llama 因此,它非常擅长识别高质量的数据 Meta 使用 Llama2为给 提供Llama3支持的文本质量分类器生成训练数据。

研究小组还进行了广泛的实验,以评估不同来源的数据集中在最终的预训练数据中最佳最终保证混合模式 Llama3用于各种用例(包括日常问题)STEM、在编码、历史知识等方面表现良好。

扩展预训练

有效利用 Llama3模型的预训练数据,Meta 投入大量精力扩大预训练。

具体来说,Meta 为下游基准评估制定了一系列详细的扩展规则。这些扩展规则使 Meta 能够选择最佳数据组合,以及如何最好用训练计算做出明智的决定。

重要的是,扩展规则使 Meta 在实际训练模型之前,可以预测最大模型在关键任务中的性能(例如, HumanEval 基准评估的代码生成性能)。这有助于确保最终模型在各种用例和功能上具有强大的性能。

在 在Llama3的开发过程中,Meta 对扩展行为进行了一些新的观察。例如,尽管8B 参数模型的 Chinchilla 最佳训练计算量对应约200B token,但 Meta 发现,即使在模型接受了两次以上的数据训练后,模型性能仍在不断提高。

在对多达15T token 训练后,8B 和70B 参数模型继续以数线性的方式提高性能。较大的模型可以通过较少的训练计算来匹配较小模型的性能,但较小的模型通常是首选,因为它们在推理过程中更有效率。

图片

Meta 透露他们使用自定义训练库,Meta 的超级生产集群预培训和生产集群 Llama3。在第三方云计算中进行微调、注释和评估。

预训练是在 H100-80GB 类型的硬件(TDP 770万是700W GPU 小时计算。

为了训练最大的 Llama3模型,Meta 数据并行化、模型并行化、管道并行化三种并行化相结合。

当同时在16K GPU 上进行训练时,Meta 最高可实现每个 GPU 超过400TFLOPS 计算利用率。Llama3是两个定制的24K GPU 集群训练。为了。最大限度地延长 GPU 正常运行时间,Meta 开发了一种先进的新型训练堆栈,可自动检测、处理和维护错误。Meta 它还大大改进了硬件可靠性和静默数据损坏检测机制,并开发了新的可扩展存储系统,以减少检查点和回滚的成本。

这些改进使整体有效训练时间超过95%。

综上所述,这些改进使得 Llama3的训练效率比 Llama2增加了大约三倍。

指令微调

在聊天场景中充分释放预训练模型的潜力,Meta 还创新了指令微调的方法。Llama3后训练方法采用监督微调(SFT)、拒绝采样,优化近端策略(PPO)以及直接战略优化(DPO)的组合。SFT 中使用的 prompt 质量以及 PPO 和 DPO 偏好排序对模型对齐有很大的影响。

模型质量最大改进来自于仔细整理数据,保证人类注释者提供的注释的多轮质量。

通过 PPO 和 DPO 从偏好排序中学习也有了很大的提高 Llama3在推理和编码任务中的性能。Meta 发现,如果你问模型一个难以回答的推理问题,模型有时会产生正确的推理轨迹:模型知道如何产生正确的答案,但不知道如何选择。偏好排名的训练使模型能够学习如何选择正确的答案。

使用 Llama3

这个版本,Meta 包括信任和安全在内的新工具 Llama Guard2和 Cybersec Eval2的更新组件,并引入 Code Shield—— 防护栏过滤大模型生成的不安全代码。

Meta 还用 torchtune 开发了 Llama3。torchtune 是新的 PyTorch 原生库,可轻松使用 LLM 进行创作、微调和实验。

torchtune 提供完全用 PyTorch 内存高效可破解的训练方法。图书馆和 Hugging Face、Weights & Biases 和 EleutherAI 等知名平台集成,甚至支持 Executorch,高效推理各种移动和边缘设备。

从快速工程到将军 Llama3和 LangChain 结合使用,Meta 指导开发者进行大规模部署,提供全面的入门指南。

安全改进

Meta 负责开发和部署新的系统级方法 Llama,将 Llama 该模型被视为系统更广泛的一部分,使开发者能够掌握主导地位。Llama 该模型将作为系统的基本部分,由开发人员根据其独特的最终目标进行设计。

图片

指令微调在确保模型安全方面也起着重要作用。通过内部和外部的共同作用努力,Meta 安全红队(测试)对指令微调的模型进行了测试。

「红队」该方法利用人类专家和自动化方法生成对抗性提示,试图诱发有问题的反应。例如,综合测试用于评估与化学、生物、网络安全等风险领域相关的滥用风险。所有这些工作都是反复进行的,并用于安全微调发布的模型。

Llama Guard 该模型旨在为及时响应安全奠定基础,并可根据应用需要轻松微调,创建新的分类标准。作为起点,新版本 Llama Guard2采用了最近公布的Guard2 MLCommons 分类标准。此外,CyberSeceval2在其前身的基础上扩展,增加了对 LLM 允许滥用其代码解释器的倾向、攻击性网络安全能力以及测量注入攻击的易感性。最后,Meta 将推出代码盾(Code Shield),它增加了对 LLM 推理过滤支持生成的不安全代码。这可以降低不安全代码建议、代码解释器滥用预防和执行安全命令的风险。

随着生成人工智能领域的快速发展,开源将是整合生态系统、减少这些潜在危害的重要途径。

为此,Meta 不断更新《责任使用指南》(RUG),指南负责任地使用 LLM 开发提供了全面的指导。例如,如指南所述,应根据适用的内容指南对所有输入和输出进行检查和过滤。此外,许多云服务提供商还提供负责部署的内容审查 API 与其他工具一样,也建议开发人员使用这些选项。

大规模部署 Llama3

Llama3即将在所有主要平台上推出,包括云提供商和模型 API 提供商等。

基准测试表明,tokenizer 提高了 token 化效率,与 与Llama2相比,token 产量最多可减少15%。另外,小组查询要注意(GQA)如今也增加了 Llama38B。

所以,尽管和 Llama27B 相比之下,该模型超过1B 个参数,但 tokenizer 效率和 GQA 有助于维持和改进 Llama27B 相当大的推理效率。

在 Llama Recipes(https://github.com/meta-llama/llama-recipes)介绍了如何使用所有这些功能的例子,包括从微调、部署到模型评估的所有开源代码。

下一步是什么?

8B 和70B 标志着两种模型的模型 Llama3系列的开始,下一步还会有更多。

Meta 表示, 「最大的 Llama3」参数超过400B。虽然这些模型仍在训练中,但它们也将在未来几个月发布。新功能包括多模式、多语言对话能力、更长的上下文窗口和更强的整体能力。

一旦完成 Llama3训练,Meta 还将发表详细的研究论文。

图片

400BLlama3尚未到来+ 版本会有多强?一旦发布,是否意味着开源社区将迎来? GPT-4级大模型?

图片

Jim Fan 整理的 Llama3400B 与 GPT-四等模型的比分。

也许只有 OpenAI 的 GPT-5压下开源模型。

参考内容:

https://llama.meta.com/llama3/

https://www.facebook.com/4/videos/377361005296904/

https://www.reuters.com/technology/meta-releases-early-versions-its-llama-3-ai-model-2024-04-18/

https://www.theverge.com/2024/4/18/24133808/meta-ai-assistant-llama-3-chatgpt-openai-rival

亚马逊云科技博客:https://aws.amazon.com/cn/blogs/machine-learning/meta-llama-3-models-are-now-available-in-amazon-sagemaker-jumpstart/


/template/Home/Zkeys/PC/Static