SuperCLUE:中文通用大模型综合性测评基准
中文通用大模型综合性测评基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。
它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?
它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。
SuperCLUE基准计划按照月度进行更新,数据集和进一步信息计划在下一次更新时公开,敬请期待。
总榜单
模型 | 机构 | 总分 | 基础能力 | 中文特性 | 学术与专业能力 | |
---|---|---|---|---|---|---|
人类 | CLUE | 96.50 | 98.00 | 95.00 | - | |
GPT-4 | OpenAI | 76.67 | 90.00 | 68.00 | 72.00 | |
GPT-3.5-turbo | OpenAI | 66.18 | 85.00 | 59.00 | 54.55 | |
Claude | Anthropic | 65.13 | 87.00 | 55.00 | 53.39 | |
360智脑 | 360 | 58.24 | 80.00 | 49.00 | 45.71 | |
讯飞星火 | 科大讯飞 | 53.58 | 74.00 | 44.00 | 42.73 | |
ChatGLM-130B | 清华&智谱AI | 49.52 | 73.00 | 33.00 | 42.55 | |
西湖大模型 | 西湖大学&西湖心辰 | 49.46 | 75.00 | 35.00 | 38.39 | |
MiniMax-abab5 | MiniMax | 46.45 | 72.00 | 29.00 | 38.36 | |
IDEA-姜子牙-13B | IDEA研究院 | 44.69 | 65.00 | 33.00 | 36.07 | |
BELLE-13B | 链家 | 43.70 | 69.00 | 23.00 | 39.09 | |
ChatGLM-6B | 清华&智谱AI | 42.15 | 60.00 | 33.00 | 33.45 | |
MOSS-16B | 复旦 | 36.52 | 52.00 | 27.00 | 30.55 | |
Vicuna-13B | UC伯克利 | 34.33 | 45.00 | 30.00 | 28.00 | |
RWKV-Raven-7B | RWKV基金会 | 23.37 | 26.00 | 25.00 | 19.11 |
基础能力榜单
中文特性榜单
专业能力榜单