声明:本文来源于微信公众号 量子位(ID:QbitAI),作者:克雷西 鱼羊,授权站长之家转载发布。
Llama3来了!
就在刚才,Meta的官方网站上,Llama380亿和700亿参数版正式宣布。
并推出即将开源的SOTA:
根据Meta的官方数据,Llama38B和70B版本在各自的参数规模上超过了许多竞争对手。
8B模型在MMLU、GPQA、Humaneval等基准均优于Gemma7B和Mistral7B Instruct。
70B模型超越了闭源流行炸鸡Claude3Sonet和谷歌的Geminit Pro1.五打得有来有回。
Huggingface链接一出来,开源社区又沸腾了。
盲生还有眼尖第一时间发现了华点:
Meta更隐藏了Llama3版本的一手4000亿参数+,不亚于Claude3超大杯Opus!
AI写作助手HyperWriteAICEO见此不禁感慨:
我们正在进入一个新世界,一个GPT-4级模型开源的世界,可以自由访问。
Jim,英伟达科学家 Fan认为,仍在训练中的Llama3400B将成为开源大模型的分水岭,改变许多学术研究和初创公司的发展模式。
Meta在博客文章中给出了更多的技术细节。
在架构层面,Llama3选择了经典的解码(decoder-only)Transformer架构包含128KKK token词汇表的分词器。
从训练数据来看,Llama3的训练数据规模达到15T tokens,全部来自公共信息,其中5%是非英语数据,涵盖30多种语言。
Llama3的数据量是Llama2训练数据的7倍,其中代码是Llama2的4倍。
另外,为了提高 Llama3模型的推理效率,Meta AI还采用分组查询注意力 (GQA)该机制,在8192tokens序列上训练模型,并使用掩码,以确保自我注意力不会跨越文档边界。
结果,Llama3与上一代Llama2相比,无论是8B版还是70B版,都取得了很大的飞跃。
Llama3已经成为迄今为止8B和70B参数规模的新型SOTA模型。
在语言(MMLU)、知识(GPQA)、编程(HumanEval)、数学(GSM-8K、MATH)在能力方面,Llama3几乎完全领先于同等规模的其他模型。
除这些常规数据集外,Meta 人工智能还对Llama3在现实场景中的性能进行了评估,并开发了一套高质量的测试数据集。
该测试集包含1800个数据,涵盖代码、推理、写作、总结等12个关键用例,并对开发团队保密。
因此,Llama3不仅大大超过了Llama2,还战胜了Claude3Sonett,、Mistral Medium和GPT-3.5这些著名的模型。
AGIEval、BIG-Bench、ARC-Llama3在Challenge等更高级、更困难的数据集中的表现也值得称赞。
在这些任务中,8B版本超越了Mistral和Gemma,70B版战胜了Gemini MixtralPro和MoE架构分别获得相应规模的SOTA。
然而,美中不足的是,Llama3的上下文窗口只有8k,这似乎仍然停留在上一代(手动狗头),而不是数十万窗口的大模型。
但也不用太担心,Matt Shumer对此持乐观态度,他表示相信,在开源社区的努力下,窗口的长度很快就会扩大。
目前,Llama3和Instruct版本的参数量基础已经上线。 Face可以下载。
此外,微软Azure、亚马逊AWS谷歌云、Llama3也将陆续推出英伟达NIM等云服务平台。
与此同时,Meta还表示,Llama3将获得英特尔、英伟达、AMD、许多制造商提供的硬件平台支持,如高通。
值得一提的是,基于Llama3的官方Web版本与基本模型一起发布,名称为Meta AI。
目前,该平台有两个功能:对话和绘画。如果只使用对话,则无需注册和登录,即可打开和使用。如果使用绘画功能,您需要先登录帐户。
然而,该平台目前不支持中文,也没有上传文本等功能。
在代码方面,该平台还可以运行一些简单的Python程序,但似乎只能输出文本,涉及绘图等任务无法运行。
总的来说,这个网页版本还是比较初级的,不妨期待一波以后的更新。
其实在Meta正式宣布前几个小时,微软的Azure市场已经偷走了Llama38B Instruct版的新闻。
开源模型机器学习在线平台Replicate上的Llama3价格表也被网民使用第一时间拉了出来。
但很快,这些“小道消息”就被404了。
幸运的是,乌龙已经结束,官员们没有拖延。关心开源大模型的朋友可以做到这一点(doge)。
参考链接:
[1]https://ai.meta.com/blog/meta-llama-3/
[2]https://about.fb.com/news/2024/04/meta-ai-assistant-built-with-llama-3/
[3]https://huggingface.co/meta-llama/Meta-Llama-3-70B
Copyright © 2013-2025 bacaiyun.com. All Rights Reserved. 八彩云 版权所有 八彩云(北京)网络科技有限公司 京ICP备2023023517号
本站文章全部采集于互联网,如涉及版权问题请联系我们删除.联系QQ:888798,本站域名代理为阿里云