SuperCLUE

SuperCLUE:中文通用大模型综合性测评基准

中文通用大模型综合性测评基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。
它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?
它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。
SuperCLUE基准计划按照月度进行更新,数据集和进一步信息计划在下一次更新时公开,敬请期待。


Github项目地址:https://github.com/CLUEbenchmark/SuperCLUE






SuperCLUE的构成
着眼于综合评价大模型的能力,使其能全面的测试大模型的效果,又能考察模型在中文上特有任务的理解和积累,我们对能力进行了划分。 SuperCLUE从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
1)基础能力:
包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色扮演、代码、生成与创作等10项能力。
2)专业能力:
包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。
3)中文特性能力:
针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。

SuperCLUE的特点
1)多个维度能力考察(3大类70+子能力):从三个不同角度对中文大模型进行测试,以考察模型的综合能力;并且每一个子能力又含有十项或以上不同的细分能力。
2)自动化测评(一键测评):通过自动化测评方式以相对客观形式测试不同模型的效果,可以一键对大模型进行测评。
3)广泛的代表性模型(9个模型):选取了多个国内外有代表性的可用的模型进行测评,以反应国内大模型的发展现状并了解与国际领先模型的差距或相对优劣势。
4)人类基准:在通用人工智能发展的情况下,也提供了模型相对于人类效果的指标对比。

SuperCLUE的不足与局限
1. 基础能力、中文特性能力:虽然每一部分都包含了10类子能力,但这两个能力的总数据量比较少,可能存在需要扩充数据集的问题。
2. 选取模型的不完全:我们测试了9个模型,但还存在着更多的可用中文大模型。需要后续进一步添加并测试;有的模型由于没有广泛对外提供服务,我们没能获取到可用的测试版本。
3. 选取的能力范围:我们尽可能的全面、综合衡量模型的多维度能力,但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。
4. 客观考察的不足:我们以相对客观形式考察模型能力,但一些主观、开放性问题的模型能力的考察可能存在不足。


SuperCLUE讨论与交流
SuperCLUE榜单大模型评测申请
模型内测需求收集
Image 1 Image 2

联系邮箱: CLUEbenchmark@163.com


总榜单


总榜单,包括基础能力、中文特性、学术与专业能力
模型 机构 总分 基础能力 中文特性 学术与专业能力
人类 CLUE 96.50 98.00 95.00 -
GPT-4 OpenAI 76.67 90.00 68.00 72.00
GPT-3.5-turbo OpenAI 66.18 85.00 59.00 54.55
Claude Anthropic 65.13 87.00 55.00 53.39
360智脑 360 58.24 80.00 49.00 45.71
讯飞星火 科大讯飞 53.58 74.00 44.00 42.73
ChatGLM-130B 清华&智谱AI 49.52 73.00 33.00 42.55
西湖大模型 西湖大学&西湖心辰 49.46 75.00 35.00 38.39
MiniMax-abab5 MiniMax 46.45 72.00 29.00 38.36
IDEA-姜子牙-13B IDEA研究院 44.69 65.00 33.00 36.07
BELLE-13B 链家 43.70 69.00 23.00 39.09
ChatGLM-6B 清华&智谱AI 42.15 60.00 33.00 33.45
MOSS-16B 复旦 36.52 52.00 27.00 30.55
Vicuna-13B UC伯克利 34.33 45.00 30.00 28.00
RWKV-Raven-7B RWKV基金会 23.37 26.00 25.00 19.11

基础能力榜单


基础能力,包含10项子能力

中文特性榜单


中文特性,包含10项子能力

专业能力榜单

Copyright @2023