关于我们

质量为本、客户为根、勇于拼搏、务实创新

< 返回新闻公共列表

谁是国内百模第一?清华14大LLM最新评估报告发布,GLM-4、文心4.0站在第一梯队

发布时间:2024-04-19 19:30:50

声明:本文来源于微信公众号 新智元(ID:AI_era),作者:基础模型研究中心,授权站长之家转载发布。

【新智元导读】谁是大模型混战的实力选手?清华对国内外14个LLM进行了最全面的综合能力评估,其中GPT-4、Cluade3当之无愧王牌,而在国内GLM-4、文心4.0已经闯入了第一梯队。

在2023年的「百模大战」在中国,许多实践者推出了各种模型,其中一些是原创的,一些是微调开源模型;有些是通用的,有些是特定的行业。如何合理评价这些模型的能力已成为一个关键问题。

虽然国内外有多个模型能力评价列表,但其质量参差不齐,排名差异显著,主要是由于评价数据和测试方法不成熟和科学。我们认为,一个好的评价方法应该是开放的、动态的、科学的和权威性。

清华大学基础模型研究中心为提供客观科学的评价标准联合中关村实验室研制了SuperBench大型模型综合能力评价框架旨在促进大型模型技术、应用和生态的健康发展。

近日,《SuperBench大模型综合能力评估报告》于2024年3月正式发布。

评估包括国内外14个具有代表性的模型。其中,对于闭源模型,选择API和网页两种调用模式中得分较高的一种进行评估。

图片

根据评价结果,可以得出以下主要结论:

● 整体来说,GPT-4系列模型Claude-3外国模型等多种能力的外国模型仍处于领先地位国内头部大模型GLM-4文心一言4.0表现亮眼,接近国际一流模型水平,差距已经逐渐缩小

●在国外大模型中,GPT-4系列模型性能稳定,Claude-3也表现出较强的综合实力,在语义理解和作为智能体的能力评价中获得榜首,跻身国际一流模式之列。

●在国内大模型中,GLM-4.0和文心在本次评估中的表现最好,为国内头部模型,通义千问2.1、Abab6、moonshot网页版和qwen1.5-72b-chat紧随其后,在某些能力评估中也表现良好;然而,与国际一流模型相比,国内大型模型在代码编写和作为智能主体的能力上仍存在较大差距,国内模型仍需努力工作。

大模型能力迁移&SuperBench

自大型语言模型诞生以来,评估已成为大型模型研究中不可或缺的一部分。随着大型模型研究的发展,对其性能的关键研究也在不断转移。根据我们的研究,大型模型能力评估可能经历以下五个阶段:

2018-2021年语义评价阶段

早期语言模型主要关注理解自然语言的任务(e.g. 相关评价主要考察语言模型对自然语言的语义理解能力,如分词、词性标注、句法分析、信息提取等。代表性工作:BERT、GPT、T5等。

2021-2023年代码评估阶段

随着语言模型能力的提高,越来越有价值的代码模型逐渐出现。研究人员发现,基于代码生成任务培训的模型在测试中表现出更强的逻辑推理能力,代码模型已成为研究的热点。代表性工作:Codex、CodeLLaMa、CodeGeeX等。

2022-2023年,对齐评价阶段

随着大模型在各个领域的广泛应用,研究人员发现续写训练方法和指令应用方法之间存在差异,理解人类指令和对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解和响应用户的意图,为大模型的广泛应用奠定基础。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM等。

2023-2024年智能体评价阶段

基于遵守指令和偏好对齐的能力,逐渐探索了大模型作为智能中心拆卸、规划、决策和执行复杂任务的能力。大模型作为智能主体解决实际问题也被视为通用人工智能(AGI)重要方向。代表工作:AutoGPT、AutoGen等。

2023年-future:安全评价阶段

随着模型能力的提高,对模型安全性和价值观的评价、监督和加强逐渐成为研究人员关注的焦点。未来将加强对潜在风险的研究和判断,确保大型模型的可控性、可靠性和可信度「人工智能的可持续发展」关键问题。

因此,为了全面评价大模型的各种能力,SuperBench评测体系包含语义、代码、对齐、智能和安全等五大评价类别28个子类

图片

PART1语义评价

Extremeglue是一个高难度的集合,包含72个中英双语传统数据集采用零样本为语言模型提供更严格的评价标准 CoT 根据具体要求对模型输出进行评分。

首先,GPT-44采用20多种语言模型进行初步测试、Claude、Vicuna、WizardLM、ChatGLM等。

然后,根据所有模型的综合性能,选择每个分类的难度最大的10%~将20%的数据组合成「传统的高难度数据集」。

评测方法&流程

评测方式:收集了72个传统的中英文双语数据集,提取了4个维度的难题评价数据集,采用零样本Cot评价,各维度得分计算方法为回答正确问题的百分比,最终总分取决于每个维度的平均值

评测流程:根据不同主题的形式和要求,对模型零样本Cot生成的结果进行评分。

图片

整体表现:

图片

在语义理解能力评价中,每个模型形成三个梯队,70分第一梯队,包括Claude-3、GLM-4、文心一言4.0以及GPT-4系列模型。

其中,Claude-3得分为76.7,排名第一第一;国内模型GLM-4文心一言4.0与Claude-3相比,GPT-4系列模型排名第二和第三,但差距为3分。

分类表现:

图片

●知识-常识:Claude-3以79.8分领先,国内模型GLM-4表现亮眼,超过GPT-4网页版排名第二;文心一言以蔽之,4.0表现不佳,距离榜首Claude-312.7分。

●知识-科学:Claude-3仍然领先,而且是唯一一个80分以上的模型;文心一句话4.0、GPT-4系列模型和GLM-4模型均在75分以上第一梯队模型。

●数学:Claude-3文心一言4.0并列第一,得65.5分,GLM-4领先GPT-4系列模型排名第三,其他模型得分集中在55分左右。目前,大型模型在数学能力方面仍有很大的提高空间。

●阅读理解:各分数段分布相对平均,文心一言4.0超过GPT-4Turbobo超过GPT、Claude-三、GLM-4获得榜首。

PART2代码评估

NaturalCodeBench(NCB)基准测试是对模型代码能力的评估,传统的代码能力评估数据集主要考察数据结构和算法中解决问题的能力,而NCB数据集侧重于在真实编程应用场景中编写正确可用代码的能力。

所有的问题都是从用户在线服务中的问题中筛选出来的,问题的风格和格式更加多样化,它涵盖了七个领域:数据库、前端开发、算法、数据科学、操作系统、人工智能、软件工程等,可简单分为算法类和功能需求类。

主题包括两种编程语言:java和python,以及两种问题语言:中文和英文。每个问题对应于10个人类编写矫正测试样本,9个用于测试生成代码的功能正确性,其余1个用于代码对齐。

评测方法&流程

评测方式:运行模型产生的函数将输出结果与准备好的测试结果进行比较和评分。将输出结果与准备好的测试结果进行比较和评分一次通过率pass@1计算生成代码。

评测流程:对于给定的问题、单元测试代码和测试例,模型首先根据问题生成目标函数;运行生成的目标函数以测试例中的输入为参数,与测试例中的标准输出进行比较,输出匹配得分,输出不匹配或函数运行错误不得分。

图片

整体表现:

图片

国内模型与国际一流模型在代码编写能力评估方面仍存在明显差距,GPT-4系列模型Claude-3模型在代码通过率上明显领先,在国内模型中GLM-4文心一言4.0讯飞星火3.5表现突出,综合得分40分以上。

然而,即使是表演最好代码的一次通过率仍然只有50%左右,代码生成任务对目前的大模型来说仍然是一个很大的挑战。

分类表现:

图片

Python、Java、中英文四个维度的数据集中GPT-4系列模型除了强大而全面的代码能力外,包揽头名还体现了强大而全面的代码能力Claude-3其他模型之间有明显的差距。

●英文代码指令:GPT-4TurboClaude-3Python和Java分别高出6.8分和1.5分GLM-4Python和Java问题分别高出14.2分和5.1分,国内模型和国际模型在英文代码指令上存在明显差距。

●中文代码指令:GPT-4TurboClaude-3Python高3.9分,Java低2.3分,差距不大。GPT-4TurboGLM-4Python和Java问题分别高出5.4分和2.8分,国内模型在中文编码能力上与国际一流模型仍存在一定差距。

PART3对齐评估

Alignbench旨在全面评估中文领域大模型与人类意图的对齐度,通过模型评分来评估答案的质量,并衡量模型的指令遵循和有用性。

它包括8个维度,如基本任务和专业能力,使用真实和困难的问题,并有高质量的参考答案。优秀的性能要求该模型具有全面的能力、指令理解和生成有用的答案。

「中文推理」维度重点关注大模型数学计算和逻辑推理在中文基础上的表现。本部分主要从真实用户的问题中获得并撰写标准答案,涉及多个细粒度领域的评估:

●在数学计算方面,包括初等数学、高等数学、日常计算等方面的计算与证明。

●逻辑推理包括常见的解释推理、常识推理、数学逻辑、大脑急转弯等问题,充分调查模型在需要多步推理和常见推理方法的场景中的表现。

「中文语言」在中文文字语言任务中,部分重点考察大模型的通用性能,它包括六个不同的方向:基本任务、中文理解、综合问答、文本写作、角色扮演和专业能力。

这些任务中的大部分数据都是从真实用户的问题中获取的,并由专业标记人员编写和纠正答案,从多个维度充分反映了大型模型在文本应用中的表现水平。具体来说:

●在常规NLP任务场景下,基本任务考察了模型泛化到用户指令的能力;

●在汉语理解方面,模型强调对中华民族传统文化和汉字结构渊源的理解;

●综合问答则关注模型回答一般开放问题时的表现;

●文字写作揭示了模型在文字工作中的表现水平;

●角色扮演是一项新兴任务,考察模型在用户指示下服从用户人设对话能力的能力;

●专业能力研究了大模型在专业知识领域的掌握程度和可靠性。

评测方法&流程

评测方式:通过对强模型(如GPT-4)的评分来评估答案的质量,并测量模型的指令遵循能力和有用性。评分维度包括事实正确性、满足用户需求、清晰度、完整性、丰富度等,不同任务类型的评分维度不完全相同,综合得分作为答案的最终得分。

评测流程:模型根据问题生成答案,GPT-4.根据生成的答案和测试集提供的参考答案进行详细的分析、评估和评分。

图片

整体表现:

图片

在人类对齐能力评估中,GPT-4网页版占据榜首,文心一言4.0GPT-4Turbo同分(7.74)紧随其后,国内模型GLM-4同样出色的表现,超过Claude-3,排名第四,通义千问2.1略低于Claude-3,排名第六第一梯队大模型。

分类表现:

图片

中文推理的整体分数明显低于中文语言,需要加强大模型推理的整体能力:

●中文推理:GPT-4系列模型表现最好,略高于国内模型文心一言4.0,并且与其它模型有明显的差距。

●中文语言:国内模型分别是前四名网页版本的Kimichat(8.05分)、通义千问2.1(7.99分)、GLM-4(7.98分)、文心一言4.0超过GPT-4系列模型和Claude-3等国际一流模型(7.91分)。

分类细分分析:

图片

中文推理:

●数学计算:GPT-4系列模型包括前两名,国内模型文心一言4.0通义千问2.1分数超过Claude-3,但与GPT-4系列模型仍有一定差距。

●逻辑推理:7分以上第一梯队,由国内模型组成文心一言4.0领跑,同在第一梯队的还有GPT-4系列模型Claude-3GLM-4Abab6

中文语言:

●基本任务:GLM-4拿下榜首,通义千问2.1Claude-3GPT-4网页版在国内其他大型模型中,占2-4位文心一言4.0网页版本的Kimichat也表现不错,超过了GPT-4Turbo

●中文理解:国内模型整体表现较好,跻身前四名,文心一言4.0领先优势明显,领先第二GLM-40.41分;在国外模型中,表现不错,排名第五,但GPT-4系列模型表现不佳,排名中下游,和谐第一名分差超过1分。

●综合问答:各大模型均表现良好,8分以上的模型达到6个,GPT-4网页版KimiChat网页版本拿下最高分,GLM-4Claude-3得分相同,接近榜首得分,并列第三。

●文本写作:网页版本的Kimichat表现最好,同时也是唯一一个8分以上的模型,GPT-4Turbo和分列二、三位。

●角色扮演:国内模型Abab6通义千问2.1网页版本的Kimichat前三名,均在8分以上,超过8分GPT-4系列模型Claude-3等国际一流模式。

●专业能力:GPT-4Turbo占据首位,网页版本的Kimichat超过GPT-4网页版在国内其他模型中获得第二名,GLM-4通义千问2.1也表现不错,并列第四。

PART4智能体评估

AgentBench是在操作系统、游戏、网页等实际环境中评价语言模型的综合基准测试工具包。

代码环境:本部分关注LLMS在协助人类与计算机代码接口交互方面的潜在应用。LLMS以其出色的编码能力和推理能力,有望成为一名强大的智能代理商,帮助人们更有效地与计算机界面互动。为了评估LLMS在这方面的表现,我们引入了三个具有编码和推理能力的代表性环境。在处理各种计算机界面和代码相关任务时,这些环境提供了测试LLMS能力的实际任务和挑战。

游戏环境:游戏环境是AgentBench的一部分,旨在评估LLMS在游戏场景中的表现。在游戏中,智能主体通常需要具有较强的策略设计、指令和推理能力。与编码环境不同,游戏环境中的任务不需要对编码有专业知识,而是需要全面掌握常识和世界知识。这些任务挑战了LLMS在常识推理和策略制定方面的能力。

网络环境:网络环境是人们与现实世界互动的主要界面,因此在复杂的网络环境中评估智能主体的行为对其发展至关重要。在这里,我们使用两个现有的网络浏览数据集来实际评估LLMS。这些环境旨在挑战LLMS在网络界面操作和信息检索方面的能力。

评测方法&流程

评测方式:模型与预设环境进行多轮交互,完成各项特定任务。场景猜谜将使用GPT-3.5-Turbo对最终答案进行评分,其他子类的评分方法将根据确定的规则对模型完成任务进行评分。

评测流程:模型与模拟环境交互,然后对模型给出的结果进行规则评分或GPT-3.5-Turbo评分。

打分规则:由于不同子任务的分数分布不同,根据平均分直接计算总分受极值影响较大,因此需要对各子任务的分数进行整合。如下表所示,每个子任务对应「Weight(-1)」值是归一化的权重,这个值是在 最初在Agentbench上测试的模型在这个子任务上得分的平均值。在计算总分时,将每个子任务的分数除以Weight(-1),然后寻求平均值。根据计算方法,具有平均能力的模型的最终总分应为1。

图片

SR:成功率

#Avg.Turn:解决单个问题所需的平均交互回合数

#Dev、#Test:单个模型开发集和测试集的预期总交互轮数

Weight⁻¹:计算总分时各单项分的权重倒数

整体表现:

图片

国内模型作为智能体能评价,明显落后于国际一流模型。其中,Claude-3GPT-4系列模型占据前三名,GLM-4在国内模型中表现最好,但与顶级Claude-3仍有较大差距。

国内外大型模型在这种能力下表现不佳,主要是因为智能身体对模型的要求远高于其他任务,大多数现有模型没有很强的智能身体能力。

分类表现:

图片

除了网上购物,国内模型被国内模型购物GLM-4除了获得头名,在其他分类下,排名第一Claude-3GPT-4系列模型作为一个相对强大的智能体能力,国内模型仍需不断改进。

●具身智能(Alfworld)前三甲均被Claude-3GPT-4系列模型与国内模型的差距最大

●在数据库(DB)和知识图谱(KG)在两个维度下,国内模型GLM-4均进入top3,但与前两名仍有一定差距。

PART5安全评价

SafetyBench首个大型语言模型的安全性测试基准通过单选题综合评价。包括攻击冒犯、偏见歧视、身体健康、心理健康、非法活动、伦理、隐私财产等。

评测方法&流程

评测方式:每个维度收集数千个选择题,并通过模型选择测试调查每个安全维度的理解和掌握能力。评估采用few-shot生成方法,从生成结果中提取答案与真实答案进行比较,模型的每个维度得分占回答正确问题的百分比,最终总分取决于每个维度得分的平均值。针对拒答现象,将分别计算拒答分数和非拒答分数,前者将拒答题视为答错,后者将拒答题排除在题库之外。

评测流程:答案从模型对指定问题few-shot的生成结果中提取,并与真实答案进行比较。

图片

整体表现:

图片

国内模型在安全能力评估中文心一言4.0亮眼的表现,国际一流模式的压力GPT-4系列模型Claude-3拿下最高在国内其他模型中,分(89.1分),GLM-与Claude-3同分,并列第四。

分类表现:

图片

在非法活动、身体健康、攻击冒犯、心理健康和隐私财产五个类别下,每个模型都有自己的结果,但在伦理和偏见歧视方面,每个模型都有很大的差异,并保持了与总分相对一致的部分顺序关系。

●伦理道德:文心一言4.0压力Claude-3位列第一,国内大型GLM-4也表现出色,超过GPT-4Turbo前三名。

●偏见歧视:文心一言4.0继续排名第一,领先GPT-4系列模型,GLM-紧接着,同为第一梯队模型。

参考资料:

https://mp.weixin.qq.com/s/r_AjFHTRDBGXhl3bd06

https://mp.weixin.qq.com/s/VHVEnriza1SZC9ka6Q


/template/Home/Zkeys/PC/Static