SuperCLUE
SuperCLUE-Open:中文通用大模型多轮开放问题测评基准
OPEN基准旨在评估语言中文大模型进行开放式、自由对话的能力,包括多轮交互的表现
Github项目地址:https://github.com/CLUEbenchmark/SuperCLUE-Open
技术报告:SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark
能力评估结构图
示例
SuperCLUE基础十大能力结构包含四个能力象限,包括语言理解与生成、知识理解与应用、专业能力和环境适应与安全性,进而细化为10项基础能力。
能力1:语义理解与抽取
这是一种语言能力,能够理解并解析输入的文字信息的含义。模型需要能够识别短语、句子、段落的含义,同时还要能从更大的文本块中抽取关键信息和主题。
多轮对话示例
注:本示例中可同时评测多轮对话能力
能力2:闲聊
这是一种语言能力,与用户进行自由形式、非特定目标的对话。模型需要具备生成流畅、自然、符合语言习惯和文化背景的回应。
示例
能力3:上下文对话
这是一种语言能力,需要理解并记住前面的对话信息,以便在回答中保持连贯性。这涉及到理解对话的整体流程和上下文环境,或生成相应的对话。
示例
能力4:生成与创作
这是一种语言能力,能够创造新的文本内容,如文章、文案、短故事、诗歌。这涉及到创造性地运用语言,同时还要考虑到风格、语境和目标读者。
示例
能力5:知识与百科
这是一种知识能力,能够像百科全书一样提供知识信息。这涉及到理解和回答关于广泛主题的问题,以及提供准确、详细和最新的信息。
示例
能力6:代码
这是一种专业能力,能够理解和生成编程代码。这涉及到理解多种编程语言的语法、结构和习惯,以及如何解决编程问题。
多轮对话示例
注:本示例中可同时评测多轮对话能力
能力7:逻辑与推理
这是一种专业能力,能够理解和应用逻辑原则进行推理。这涉及到分析问题、识别问题及推理。
示例
能力8:计算
这是一种专业能力,使其能够执行数学运算,如加法、减法、乘法和除法,甚至更复杂的数学问题。这涉及到理解数学问题的表述,以及如何步骤地解决这些问题。
多轮对话示例
注:本示例中可同时评测多轮对话能力
能力9:角色扮演
这是一种感知能力,使其能够在特定的模拟环境或情景中扮演一个角色。这涉及到理解特定角色的行为、说话风格,以及在特定情境下的适当反应。
示例
能力10:安全
这是一种安全能力,防止生成可能引起困扰或伤害的内容。这涉及到识别和避免可能包含敏感或不适当内容的请求,以及遵守用户的隐私和安全政策。
示例
SuperCLUE-Open:开放域多轮交互;SuperCLUE-Opt:三大能力,客观题;SuperCLUE-LYB:开放域众包匿名对战
Model | 机构 | Open开放域 | Opt封闭域 | LYB匿名对战 | 许可证 |
---|---|---|---|---|---|
GPT-4 | OpenAI | 94.64 | 78.76 | - | 专有服务 |
Claude-instant-v1 | Authropic | 69.51 | 60.38 | 1215 | 专有服务 |
gpt-3.5-turbo | OpenAI | 66.67 | 67.98 | 1171 | 专有服务 |
MiniMax-abab5 | MiniMax | 57.94 | 58.19 | 1188 | 专有服务 |
文心一言(v2.0.4) | 百度 | 50.48 | 62.85 | - | 专有服务 |
讯飞星火(v1.5) | 科大讯飞 | 48.87 | 59.8 | - | 专有服务 |
ChatGLM-130B | 清华&智谱AI | 42.46 | 51.53 | 1163 | 专有服务 |
ChatGLM2-6B | 清华&智谱AI | 36.50 | 48.56 | - | 开源-商用申请 |
360智脑(4.0) | 360 | 23.93 | 63.53 | - | 专有服务 |
IDEA-姜子牙-13B | 深圳IDEA | 22.04 | 48.67 | 1010 | 开源-非商用 |
MOSS-16B | 复旦 | 21.14 | 38.56 | 1049 | 开源-商用申请 |
BELLE-13B | 链家 | 15.61 | 50.65 | 958 | 开源-非商用 |
RWKV-world-7B | RWKV基金会 | 24.54 | 24.83 | 811 | 开源-可商用 |
baichuan-7B(预训练模型) | 百川智能 | 3.11 | 48.18 | - | 开源-商用申请 |
phoenix-7B | 香港中文大学 | - | 43.60 | 1100 | 开源-可商用 |
Vicuna-13B | UC伯克利 | - | 29.15 | 994 | 开源-非商用 |
SuperCLUE是一个综合性基准,包括三个子基准:开放域多轮交互基准,SuperCLUE-Open;
客观题形式的三大能力基准,SuperCLUE-Opt(基础能力、中文特性和专业能力);
众包匿名对战形式基准琅琊榜,SuperCLUE-LYB
从相关性分析中可以看到,SuperCLUE-open与SuperCLUE-opt具有较高的一致性(Pearson/Spearman相关性系数0.78--0.82)
排名 | Model | Score | Win | Loss | Tie | Win_rate(%) | Loss_rate(%) |
---|---|---|---|---|---|---|---|
🏅 | gpt-4 | 94.64 | 264 | 24 | 160 | 58.93 | 5.36 |
🥈 | Claude-instant-v1 | 69.51 | 127 | 161 | 240 | 24.05 | 30.49 |
🥉 | gpt-3.5-turbo | 66.67 | 176 | 176 | 176 | 33.33 | 33.33 |
4 | MiniMax-abab5 | 57.94 | 82 | 212 | 210 | 16.27 | 42.06 |
5 | 文心一言(v2.0.4) | 50.48 | 70 | 257 | 192 | 13.49 | 49.52 |
6 | 讯飞星火(v1.5) | 48.87 | 81 | 249 | 157 | 16.63 | 51.13 |
7 | ChatGLM-130B | 42.46 | 56 | 290 | 158 | 11.11 | 57.54 |
8 | ChatGLM2-6B | 36.50 | 80 | 381 | 139 | 13.33 | 63.50 |
9 | 360智脑(4.0) | 23.93 | 20 | 426 | 114 | 3.57 | 76.07 |
10 | IDEA-姜子牙-13B | 22.04 | 22 | 435 | 101 | 3.94 | 77.96 |
11 | MOSS-16B | 21.14 | 27 | 470 | 99 | 4.53 | 78.86 |
12 | BELLE-13B | 15.61 | 12 | 481 | 77 | 2.11 | 84.39 |
13 | RWKV-world-7B | 12.45 | 11 | 471 | 56 | 2.04 | 87.55 |
14 | baichuan-7B | 3.11 | 3 | 560 | 15 | 0.52 | 96.89 |
注:Score分数(即胜和率),是模型的胜率加上平局率之和,即(win+tie)/(win+tie+loss)*100。
模型 | 胜和率 | 语义理解 | 闲聊 | 上下文对话 | 角色扮演 | 知识与百科 | 生成与创作 | 代码 | 逻辑与推理 | 计算 | 安全 |
---|---|---|---|---|---|---|---|---|---|---|---|
GPT-4 | 94.64 | 80.00 | 97.30 | 93.18 | 100.00 | 87.76 | 100.00 | 97.92 | 100.00 | 100.00 | 95.12 |
Claude-instant-v1 | 69.51 | 64.29 | 92.31 | 68.52 | 83.02 | 51.79 | 51.06 | 54.00 | 59.57 | 80.00 | 86.79 |
MinMax-abab5 | 57.94 | 55.36 | 78.00 | 59.62 | 85.42 | 57.41 | 69.23 | 37.25 | 34.78 | 32.20 | 77.55 |
文心一言(v2.0.4) | 50.48 | 32.76 | 56.86 | 47.06 | 52.73 | 37.50 | 62.50 | 53.19 | 70.59 | 60.34 | 36.54 |
讯飞星火(v1.5) | 48.87 | 45.61 | 25.49 | 60.00 | 83.67 | 29.63 | 71.79 | 37.74 | 39.58 | 57.14 | 50.00 |
ChatGLM-130B | 42.46 | 44.64 | 53.06 | 50.00 | 51.92 | 39.29 | 52.50 | 17.07 | 37.25 | 42.37 | 34.00 |
ChatGLM2-6B | 36.50 | 33.33 | 38.33 | 36.67 | 41.67 | 20.00 | 40.00 | 21.67 | 55.00 | 45.00 | 33.33 |
360智脑(4.0) | 23.93 | 25.42 | 16.95 | 23.64 | 14.04 | 10.17 | 41.67 | 32.08 | 43.40 | 30.00 | 7.02 |
jiangziya-13B-v1.1 | 22.04 | 13.33 | 8.47 | 24.56 | 16.07 | 24.14 | 19.61 | 25.49 | 28.00 | 38.98 | 22.81 |
MOSS-16B | 21.14 | 26.67 | 20.00 | 11.67 | 27.59 | 11.86 | 25.42 | 15.00 | 35.00 | 21.67 | 16.67 |
BELLE-13B | 15.61 | 25.00 | 8.47 | 15.25 | 6.90 | 11.67 | 9.80 | 33.33 | 32.08 | 13.56 | 3.33 |
DLM | 12.54 | 16.67 | 0.00 | 13.79 | 10.00 | 6.90 | 3.57 | 11.11 | 45.83 | 20.00 | 3.33 |
RWKV-world-7B | 12.45 | 10.64 | 8.47 | 12.96 | 7.27 | 11.86 | 10.20 | 25.00 | 18.00 | 12.28 | 8.93 |
baichuan-7B(预训练模型) | 3.11 | 1.89 | 0.00 | 0.00 | 0.00 | 1.72 | 1.69 | 3.33 | 18.33 | 3.33 | 0.00 |
注:胜和率,是模型的胜率加上平局率之和,即(win+tie)/(win+tie+loss)*100。
当前已经有一些评价中文大模型的基准,如C-Eval, MMCU,但是这些基准可能不太擅长评估大模型的人类偏好。 传统的基准通常以封闭式问题形式进行测试,要求模型输出简要的结论(如多项选择),但是他们不能很好的反映大模型的典型使用场景(如生成、创作和提供想法)。 当前也刚刚出现一些基准,如加州伯克利的MT-bench, 斯坦福大学的Alpaca-Eval,可以用于评估开放域问题,但是这些基准都是英文。 中文的代表性专有服务和开源模型总体上无法进行有效评估。
为了缓解这个问题,我们发布了SuperCLUE-Open与SuperCLUE琅琊榜:
SuperCLUE-Open:是一个有挑战的多轮对话测试集,用于评估中文大模型对话式和遵循指令的能力。
SuperCLUE-LYB: SuperCLUE琅琊榜是一个众包匿名对战平台,用户问自己感兴趣的问题,并且投票他们喜欢的答案。
这两个基准设计的首要度量标准是人类的偏好。
SuperCLUE-Open是一个多轮开放域中文基准,包括600个高质量多轮问题。这里面的问题用于评估中文大模型对话能力和遵循指令的能力。 里面包括一些常用的使用场景和一些挑战性的指令用于区分不同的模型。它考察模型的十大能力, 包括:语义理解与抽取,闲聊,上下文对话,角色扮演,知识与百科,生成与创作,代码,逻辑与推理,计算,代码和安全。每个子能力六十道题目,每个题目包括两轮问题。
针对中文大模型的人类偏好能力,可以通过人工进行评估,但是它一般时间周期比较长、并且成本高。国际上已经开始有一些自动化模型评估的方式。
比如加州伯克利的MT-bench, 斯坦福大学的Alpaca-Eval进行了比较系统的自动化评估。这里面存在对比模型时模型位置、生成答案的长度、模型对数学推理的评估能力有限的问题。 借鉴上面两个工作的经验,我们也进行了针对性的处理,减少这些方面的问题。正如这两个工作提到的,GPT-4的评估可以实现和人类评估高达80-90%的一致性,这充分的说明了自动化评估的潜力。
我们的评估,通过使用超级模型作为评判官,使用一个待评估模型与一个基准模型进行对比,需要让模型选出哪个模型更好。答案可以是,A模型好,B模型好,或平局。 评估的标准,是要求超级模型作为一个公证的评估者,评估模型的质量。回答的质量包括回答有针对性、准确和全面。
我们对14个模型,针对10项能力,进行了全面的评估。我们的基准可以清晰的区分模型在不同能力上的表现。特别是一些国际专有服务gpt-4, gpt-3.5, Claude, 相比中开源模型ChatGM2-6B, MOSS-16B有明显的效果差异。
1.SuperCLUE榜单大模型评测申请:https://wj.qq.com/s2/12305633/a73d/
(针对已公开发布、有代表性的模型服务或开源模型)
2.机构内部测评需求收集:https://wj.qq.com/s2/12307825/2ae0/
模型详情或需求描述中,请注明:“SuperCLUE-Open”
1.在报告SuperCLUE-Open与SuperCLUE-Opt一致性基础上,添加SuperCLUE-Open与人类测评的一致性分析
2.扩充测试集规模
3.加入更多中文大模型
1.论文:Judging LLM-as-a-judge with MT-Bench and Chatbot Arena
2.文章:Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B
3.项目地址:Alpaca_Eval: A validated automatic evaluator for instruction-following language models
4.排行榜 AlpacaEval Leaderboard
1.SuperCLUE-Opt: 中文通用大模型综合性基准(基础能力、中文特性和专业能力)
2.SuperCLUE琅琊榜:中文通用大模型匿名对战评价基准
本基准的成功运行离不开FastChat项目在源代码方面的大力支持,在此十分感谢Large Model Systems Organization(LMSYS ORG)和FastChat
如果使用本项目的,请引用本项目,包括相关的论文或项目。
Llama2大模型中文版基准
Facebook母公司Meta发布了开源可商用的大模型Llama2,该开源模型受到广泛关注。Llama2为初创企业和其他企业提供了一个强大的免费选择。新版本Llama2将训练数据量增加了 40%,它包括70亿、130亿和700亿参数量的多个版本,此外还有对应的聊天机器人调优版本Llama 2-Chat。最近国内外大厂包括微软、阿里云等也宣布支持Llama2。开源社区和大量机构、个人,也纷纷着手基于Llama2构建中文版本及其应用。
基于Llama2的中文版本的效果怎么样?当前开源版本做到什么程度了;与国内代表性模型相比,特别是开源模型(baichuan-13b, chatglm2-6b)的相对表现如何;在一些比较关注的能力上,如生成与创作、逻辑推理、代码生成,表现怎么样呢?
基于SuperCLUE开放式与多轮测评基准(OPEN),即针对开放式的问题并结合多轮对话能力的测试,我们首次对Llama2中文版模型进行了定量和定性评估。通过前者可以看到模型的相对其他模型的表现,以及十大能力维度上的表现;而后者从一些典型示例中看到模型的表现(包括相对成熟和不足的能力)。
排名 | 模型 | 机构 | OPEN分数 | 描述 |
---|---|---|---|---|
- | GPT-4 | OpenAI | 94.64 | OpenAI发布的公认最强模型 |
- | Claude-instant-v1 | Authropic | 69.51 | OpenAI竞品的基础版本 |
- | Baichuan-13B-chat | 百川智能 | 65.28 | 继7B之后的更大持续的模型,在高质量的语料上训练了 1.4 万亿 tokens,使用 ALiBi 位置编码,上下文窗口长度为 4096 |
- | ChatGLM2-6B | 清华&智谱AI | 36.50 | 第二代版本, 1.4T 中英标识符的预训练与人类偏好对齐训练, 结合FlashAttention 在8K上训练,更高效的推理 |
1 | openbuddy-llama2-13b | OpenBuddy | 35.12 | 多语言对话型人工智能,支持中文、英文、日文、韩文、法文、德文以及更多语言;增强词汇量和对常见CJK字符的支持。 |
2 | Llama-2-13B-chat | Meta | 27.05 | Meta发布的原版Llama-2,主要支持英文,中文支持较弱 |
3 | Llama2-Chinese-13b-Chat | Llama2中文社区(FlagAlpha) | 26.51 | 采用中文指令集,对Llama-2进行LoRA微调,使其具备较强的中文对话能力。 |
4 | firefly_llama2_13b | YeungNLP | 12.54 | 采用百万指令数据,对Llama-2进行QLoRA微调 |
5 | Llama2-Chinese-7b-Chat | Llama2中文社区(FlagAlpha) | 12.50 | 采用中文指令集,对Llama-2进行LoRA微调,使其具备较强的中文对话能力。 |
6 | yayi-13b-llama2 | 中科闻歌(wenge-research,中科院自动化所孵化) | 8.78 | 在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。 |
计算方法: 针对一个特定的开放式问题,利用超级模型作为评判官,计算被评估的模型相对于基线模型(如gpt-3.5)的胜、平局或失败的个数; 胜和率,是模型的胜率加上平局率之和,即(win+tie)/(win+tie+loss)*100。win,即胜,tie即平,loss即负。
排名 | 模型 | 胜和率 | 语义理解与抽取 | 闲聊 | 上下文对话 | 角色扮演 | 知识与百科 | 生成与创作 | 代码 | 逻辑与推理 | 计算 | 安全 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
- | gpt-4 | 94.64 | 80.00 | 97.30 | 93.18 | 100.00 | 87.76 | 100.00 | 97.92 | 100.00 | 100.00 | 95.12 |
- | Baichuan-13B-Chat | 65.28 | 45.00 | 88.33 | 78.33 | 91.67 | 55.00 | 91.67 | 25.00 | 50.88 | 35.71 | 81.67 |
- | ChatGLM2-6B | 36.50 | 33.33 | 38.33 | 36.67 | 41.67 | 20.00 | 40.00 | 21.67 | 55.00 | 45.00 | 33.33 |
1 | openbuddy_llama2_13b | 35.12 | 33.33 | 40.00 | 23.33 | 20.00 | 23.33 | 46.67 | 33.33 | 58.62 | 50.00 | 23.33 |
2 | Llama-2-13B-chat | 27.05 | 43.33 | 35.00 | 27.12 | 11.67 | 15.00 | 46.67 | 6.67 | 35.00 | 26.67 | 23.33 |
3 | FlagAlpha-Llama2-13b-Chat | 26.51 | 33.33 | 36.67 | 36.67 | 24.14 | 10.00 | 50.00 | 6.67 | 41.38 | 13.33 | 13.33 |
4 | firefly_llama2_13b | 12.54 | 16.67 | 6.90 | 3.57 | 3.33 | 0.00 | 6.67 | 16.67 | 46.67 | 24.14 | 0.00 |
5 | FlagAlpha-Llama2-7b-Chat | 12.50 | 17.24 | 20.69 | 16.67 | 3.33 | 6.67 | 13.33 | 3.33 | 26.67 | 10.00 | 7.14 |
6 | yayi_13b_llama2 | 8.78 | 16.67 | 0.00 | 10.00 | 3.33 | 3.45 | 3.33 | 10.34 | 20.00 | 20.00 | 0.00 |
生成与创作,比如给定一个话题、一个写作任务来创作一段文字对于LLMs而言是相对比较容易的任务。我们发现作为中文llama-2微调模型中的佼佼者, OpenBuddy生成的内容在结构性、丰富度上距离百川13b仍有不小的差距,并且openbuddy的形容过于宽泛而缺少具体例子,有些词汇使用的也不太合适,比如用敏锐描述幽默感便有些不恰当。
openbuddy能精确地理解用户的意图完成任务,但是从返回的内容本身以及格式上来说openbuddy输出的内容不如百川的好。
在两轮对话的测试中,两个模型都能正确的完成任务。在我们给出的示例中,openbuddy在第一轮的回答中给出的建议不如百川13b给出的建议充分,但两者的回答结构都非常优秀,让用户能有不错的体验。在第二轮对话中,虽然openbuddy修改了自己的回答,但是相比百川,其修改的幅度较小,很大比例是照搬上一轮的回答。
代码,属于百川和openbuddy都不擅长的领域。和我们在百川测评推文中提到的一样,在我们给出的示例中,百川虽然能完成任务,但是给出的代码完全没考虑到非整数元素不需要逆转。 至于openbuddy,其虽然理解了用户仅将整数逆转的需求,但是给出的代码仅仅是把原列表中的整数按顺序放入新列表返回,并且给出的示例也和其给出的代码的实际效果不一致。
回顾我们上一篇的推文,可以发现Llama-2-13B-chat本身也会出现给出的代码与给出的代码用例不一致的情况。
逻辑推理,同样属于百川和openbuddy都不擅长的领域。两者对问题的回答都是错误的。其中openbuddy的回答更显混乱一些,不仅没能正确理解问题,而且出现了许多非常初等的计算错误,比如4-2-4=0这种错误回答。两个模型都在回答时搞错了卡牌的总数,而我们在问题中是明确指出总共有十张卡牌的。 正确答案是4张绿色背景卡牌
回顾Llama-2-13B-chat可以看到,Llama-2-13B-chat同样无法给出正确答案。
1. 指令微调:根据已经开源的版本看,目前主要是基于Llama2进行指令微调。
2. 高效微调:目前普遍采用高效微调技术(如LoRA/QLoRA) 来微调大模型(如FlagAlpha, firefly_llama2_13b等)。 这类技术上具备在单张GPU上微调大型语言模型的能力。LoRa为LLM的每一层添加了少量的可训练参数(适配器),并冻结了所有原始参数。 这样对于微调,只需要更新适配器权重,这可以显著减少内存占用;QLoRA通过更高的量化(4-bit)和更多的可微调参数等进行改进。
3. 中文词汇表:部分模型(如openbuddy-llama2-13b)改进或扩充词汇表,实现中文上更好的支持。
4. 微调数据:使用百万微调数据进行微调,开源或构造特定领域数据(yayi)
1. 整体质量:基于SuperCLUE的OPEN基准,当前处于Llama2中文版的初级阶段,总体上模型质量参差不齐。 在本次评估的5个模型中,在OPEN基准上有3个模型效果远远小于Llama2原版的效果(10多分 vs 27分)
2. 存在不错模型:有部分模型取得不错的效果(如OpenBuddy),效果与ChatGLM2-6B接近(35.12 VS 36.50);但与Baichuan-13B-Chat相比还有明显差距(35.12 VS 65.18)
3. 与先进模型差距大:开源Llama2中文模型中,OpenBuddy与GPT3.5对战的胜率最高,但仅为12%,要达到接近GPT3.5的效果(胜率提升至33%),还有很长的路要走。
4. 部分任务已经有效果:任务维度上,一些模型(openbuddy,FlagAlpha)具有还不错的生成与创作能力;并且在多种任务上都可以生成较长的回复,有些结构比较完整。
2023年7月SuperCLUE中文特性榜单
2023年7月SuperCLUE开源榜单