SuperCLUE：中文通用大模型综合性测评基准

中文通用大模型综合性测评基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准。
它主要要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE，是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展。
目前包括三大基准：OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新

★最新榜单★：www.SuperCLUEai.com

大模型报告（可下载|80页）：《中文大模型基准测评2024年10月报告》

技术报告：SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark

Github项目地址：https://github.com/CLUEbenchmark/SuperCLUE

示例

SuperCLUE基础十大能力结构包含四个能力象限，包括语言理解与生成、知识理解与应用、专业能力和环境适应与安全性，进而细化为10项基础能力。

能力1：语言理解与抽取

这是一种语言能力，能够理解并解析输入的文字信息的含义。模型需要能够识别短语、句子、段落的含义，同时还要能从更大的文本块中抽取关键信息和主题。

多轮对话示例

注：本示例中可同时评测多轮对话能力

能力2：闲聊

这是一种语言能力，与用户进行自由形式、非特定目标的对话。模型需要具备生成流畅、自然、符合语言习惯和文化背景的回应。

示例

能力3：上下文对话

这是一种语言能力，需要理解并记住前面的对话信息，以便在回答中保持连贯性。这涉及到理解对话的整体流程和上下文环境，或生成相应的对话。

示例

能力4：生成与创作

这是一种语言能力，能够创造新的文本内容，如文章、文案、短故事、诗歌。这涉及到创造性地运用语言，同时还要考虑到风格、语境和目标读者。

示例

能力5：知识与百科

这是一种知识能力，能够像百科全书一样提供知识信息。这涉及到理解和回答关于广泛主题的问题，以及提供准确、详细和最新的信息。

示例

能力6：代码

这是一种专业能力，能够理解和生成编程代码。这涉及到理解多种编程语言的语法、结构和习惯，以及如何解决编程问题。

多轮对话示例

注：本示例中可同时评测多轮对话能力

能力7：逻辑与推理

这是一种专业能力，能够理解和应用逻辑原则进行推理。这涉及到分析问题、识别问题及推理。

示例

能力8：计算

这是一种专业能力，使其能够执行数学运算，如加法、减法、乘法和除法，甚至更复杂的数学问题。这涉及到理解数学问题的表述，以及如何步骤地解决这些问题。

多轮对话示例

注：本示例中可同时评测多轮对话能力

能力9：角色扮演

这是一种感知能力，使其能够在特定的模拟环境或情景中扮演一个角色。这涉及到理解特定角色的行为、说话风格，以及在特定情境下的适当反应。

示例

能力10：安全

这是一种安全能力，防止生成可能引起困扰或伤害的内容。这涉及到识别和避免可能包含敏感或不适当内容的请求，以及遵守用户的隐私和安全政策。

示例

联系邮箱: CLUEbenchmark@163.com

SuperCLUE中文大模型排行榜(2023年7月)

总榜单，包括基础能力、中文特性和专业能力

排名	模型	机构	总分	基础能力	中文特性	学术专业	许可证
🧝	人类	CLUE	83.66	85.03	82.29	-	-
-	GPT-4	OpenAI	70.89	70.04	72.67	69.96	专有服务
🏅	文心一言(v2.2.0)	百度	62.00	61.11	71.38	53.50	专有服务
-	Claude-2	Authropic	60.94	62.01	61.18	59.63	专有服务
-	gpt-3.5-turbo	OpenAI	59.79	64.40	63.19	51.78	专有服务
🥈	ChatGLM-130B	清华大学&智谱AI	59.35	53.78	71.39	52.89	专有服务
🥉	讯飞星火(v1.5)	科大讯飞	58.02	63.32	65.72	45.03	专有服务
-	Claude-instant-v1	Authropic	56.31	58.85	55.91	54.16	专有服务
4	360智脑(4.0)	360	55.04	56.68	62.54	45.88	专有服务
5	internlm-chat-7b	上海AI实验室与商汤	53.91	54.85	61.35	45.53	开源-可商用
6	ChatGLM2-6B	清华大学&智谱AI	53.85	55.60	63.59	42.37	开源-可商用
7	MiniMax-abab5.5	MiniMax	53.06	53.61	62.79	42.77	专有服务
8	通义千问(v1.0.3)	阿里巴巴	51.52	52.84	61.73	39.98	专有服务
9	Baichuan-13B-Chat	百川智能	49.35	50.46	55.38	42.21	开源-可商用
10	BELLE-LLaMA-13B-2M-enc	链家	46.60	48.71	52.99	38.10	开源-非商用
11	IDEA-姜子牙-13B-v1.1	深圳IDEA研究院	43.80	47.55	48.61	35.26	开源-非商用
12	phoenix-7B	香港中文大学	41.57	45.39	44.62	34.70	开源-可商用
13	MOSS-16B	复旦大学	35.36	37.01	38.01	31.07	开源-可商用
14	Llama-2-13B-chat	Meta	34.26	35.85	37.37	29.57	开源-可商用
15	Vicuna-13B	UC伯克利	31.70	34.61	33.71	26.80	开源-非商用
16	RWKV-7B-World-CHNtuned	RWKV基金会	27.83	30.71	28.13	24.66	开源-可商用

注：国外代表性非开源模型（GPT4.0/Claude/gpt-3.5）参与榜单，但不参与排名。

2023年7月SuperCLUE基础能力榜单

基础能力，包含10项子能力

排名	模型	平均分	语义理解	闲聊	对话	角色扮演	知识与百科	生成与创作	逻辑与推理	代码	计算	安全
🧝	人类	85.03	90.17	71.53	77.99	82.19	97.44	68.79	90.55	90.45	94.97	86.22
-	gpt-4	70.04	82.91	46.77	66.39	63.46	92.65	66.67	60.33	85.45	61.48	73.02
-	gpt-3.5-turbo	64.40	87.18	45.16	65.57	60.58	85.29	72.36	42.98	72.73	38.52	72.22
🏅️	讯飞星火(v1.5)	63.32	78.26	45.90	59.84	55.88	73.48	54.92	54.70	60.00	76.86	71.54
-	Claude-2	62.01	83.49	49.59	57.14	52.88	78.68	68.07	53.72	66.06	44.26	65.60
🥈	文心一言(v2.2.0)	61.11	81.90	46.34	56.67	59.80	86.76	47.73	36.52	65.79	52.63	70.63
-	Claude-instant-v1	58.85	76.52	50.00	58.20	55.77	77.04	61.48	40.00	66.97	33.61	67.77
🥉	360智脑(4.0)	56.68	76.92	52.46	58.33	54.08	76.80	61.54	37.29	53.64	29.57	67.92
4	ChatGLM2-6B	55.60	74.36	44.35	55.74	56.73	76.47	51.22	40.50	41.82	45.08	66.67
5	internlm-chat-7b	54.85	80.34	48.39	55.74	55.77	77.94	36.59	37.19	51.82	34.43	68.25
6	ChatGLM-130B	53.78	70.94	45.97	56.56	61.54	75.74	55.28	29.75	45.45	31.15	63.49
7	MiniMax-abab5.5	53.61	79.49	45.97	59.84	60.58	85.29	47.97	29.75	30.00	31.97	61.11
8	通义千问	52.84	74.77	45.97	57.98	53.00	76.69	38.89	33.06	46.67	39.67	60.40
9	Baichuan-13B-Chat	50.46	64.10	41.94	50.00	52.88	75.00	57.72	27.27	40.91	31.15	60.32
10	BELLE-13B	48.71	68.38	46.77	51.64	53.85	64.71	25.20	32.23	48.18	31.97	63.49
11	IDEA-姜子牙-13B-v1.1	47.55	70.09	49.19	48.36	48.08	58.82	32.52	34.71	21.82	45.08	63.49
12	Phoenix-7B	45.39	66.67	41.94	43.44	43.27	55.15	44.72	31.41	36.36	33.61	55.56
13	MOSS-16B	37.01	54.70	39.52	40.16	45.19	35.29	34.96	24.79	32.73	27.05	37.30
14	Llama-2-13B-chat	35.85	52.14	41.94	40.98	32.69	33.82	38.21	28.93	23.64	27.05	38.10
15	Vicuna-13B	34.61	49.57	33.06	32.79	37.50	25.74	30.89	27.27	40.91	35.25	35.71
16	RWKV-7B-World-CHNtuned	30.71	31.62	20.16	22.13	26.92	27.21	23.58	22.31	36.36	60.66	36.51

注：国外代表性非开源模型（GPT4.0/Claude/gpt-3.5）参与榜单，但不参与排名

2023年7月SuperCLUE中文特性榜单

中文特性，包含10项子能力

排名	模型	平均分	字形和拼音	字义理解	句法分析	文学	诗词	成语	歇后语	方言	对联	古文
🧝	人类	82.29	96.01	83.15	62.71	91.47	90.79	92.38	83.78	69.21	70.00	83.40
-	gpt-4	72.67	62.83	68.07	85.48	88.08	75.68	95.12	70.15	38.40	71.52	67.31
🏅️	ChatGLM-130B	71.39	48.67	68.07	75.00	83.44	84.68	95.94	67.16	45.60	70.86	72.12
🥈	文心一言(v2.2.0)	71.38	59.34	70.34	73.33	86.58	82.88	95.12	60.31	37.60	71.03	73.79
🥉	讯飞星火(v1.5)	65.72	47.32	68.38	77.42	72.03	69.09	89.43	59.85	35.77	71.23	63.46
4	ChatGLM2-6B	63.59	45.13	60.50	66.13	78.81	63.06	89.43	64.18	33.60	64.24	66.35
-	gpt-3.5-turbo	63.19	46.02	69.75	75.81	75.50	57.66	89.43	55.97	36.00	57.62	66.35
5	MiniMax-abab5.5	62.79	46.90	57.98	63.71	75.50	71.17	86.99	60.45	41.60	58.94	62.50
6	360智脑(4.0)	62.54	45.45	63.83	63.53	71.43	70.73	97.06	60.47	38.46	64.96	73.21
7	通义千问	61.73	41.59	60.87	60.66	73.65	67.89	88.24	51.91	40.68	68.97	57.89
8	internlm-chat-7b	61.35	41.59	58.82	62.10	76.16	68.47	86.18	61.94	32.80	57.62	65.38
-	Claude-2	61.18	48.67	70.94	70.16	67.55	54.05	83.74	58.21	36.00	60.67	59.62
-	Claude-instant-v1	55.91	43.36	62.16	72.13	62.91	50.91	84.87	47.73	31.20	56.38	45.19
9	Baichuan-13B-Chat	55.38	45.13	58.82	50.81	73.51	70.27	75.61	47.01	33.60	44.37	54.81
10	BELLE-13B	52.99	42.48	55.46	67.74	56.29	46.85	78.05	38.06	33.60	59.60	49.04
11	IDEA-姜子牙-13B-v1.1	48.61	28.32	54.62	51.61	56.29	51.35	63.41	42.54	36.00	48.34	51.92
12	Phoenix-7B	44.62	30.09	51.26	43.55	51.66	45.95	65.85	35.07	32.00	45.03	44.23
13	MOSS-16	38.01	32.74	43.70	36.29	40.40	32.43	60.98	32.09	31.20	31.13	40.38
14	Llama-2-13B-chat	37.37	31.86	40.34	49.19	37.75	33.33	43.90	32.09	32.00	33.77	40.38
15	Vicuna-13B	33.71	21.24	34.45	45.16	29.14	22.52	33.33	36.57	22.40	49.67	38.46
16	RWKV-7B-World-CHNtuned	28.13	25.66	26.05	25.00	29.80	26.13	45.53	17.16	20.00	36.42	27.88

注：国外代表性非开源模型（GPT4.0/Claude/gpt-3.5）参与榜单，但不参与排名；歇后语：歇后语和谚语

2023年7月SuperCLUE开源榜单

排名	模型	机构	总分	基础能力	中文特性	学术专业	许可证
🧝	人类	CLUE	83.66	85.03	82.29	-	-
🏅️	internlm-chat-7b	上海AI实验室与商汤	53.91	54.85	61.35	45.53	开源-可商用
🥈	ChatGLM2-6B	清华大学&智谱AI	53.85	55.60	63.59	42.37	开源-可商用
🥉	Baichuan-13B-Chat	百川智能	49.35	50.46	55.38	42.21	开源-可商用
4	BELLE-LLaMA-13B-2M-enc	链家	46.60	48.71	52.99	38.10	开源-非商用
5	IDEA-姜子牙-13B-v1.1	深圳IDEA研究院	43.80	47.55	48.61	35.26	开源-非商用
6	phoenix-7B	香港中文大学	41.57	45.39	44.62	34.70	开源-可商用
7	MOSS-16B	复旦大学	35.36	37.01	38.01	31.07	开源-可商用
8	Llama-2-13B-chat	Meta	34.26	35.85	37.37	29.57	开源-可商用
9	Vicuna-13B	UC伯克利	31.70	34.61	33.71	26.80	开源-非商用
10	RWKV-7B-World-CHNtuned	RWKV基金会	27.83	30.71	28.13	24.66	开源-可商用