SuperCLUE-Math6: 新一代中文原生多轮多步数学推理数据集

在人工智能领域，我们正见证着大语言模型如ChatGPT和GPT-4的蓬勃发展，它们是我们走向通用人工智能梦想的关键一步。中文大模型的推出，更是开启了人工智能在各行各业的全新应用时代；

像GSM8K数学推理任务，由于可以考察多步逻辑推理推能力、应用数学和实现知识的能力、需要自然语言理解和解决方案、具备精确的评估标准的任务，受到了广泛的使用。

然而，在这一进程中，缺乏能够测试中文大模型在数学推理上能力的原生数据集，导致中文模型的数学逻辑能力评估，一直依赖于英文测试集。

为了缓解这一问题，我们推出了SuperCLUE-Math6数据集。这是一个GSM8K的中文升级版，专门设计来测试中文大模型在数学推理方面的核心能力。 SuperCLUE-Math6不仅延续了GSM8K的高质量和多样性，更在难度和应用广度上进行了适当的扩充。它的推出，旨在解决中文模型评估中的关键问题，并提供一个全面的测试平台。

github地址：https://github.com/CLUEbenchmark/SuperCLUE-Math6

技术报告：SC-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in Chinese

公众号文章地址：https://mp.weixin.qq.com/s/jM2rgWE_-2TC7c49e22jAw

SuperCLUE-Math6具有四大特点：
1. 中文原生场景的数学推理：每个问题均以中文原生环境呈现，配备详细的自然语言解题方案，强化了模型在本土语言环境下的适用性和实际应用价值。

2. 多轮交互下的推理能力考察：适应真实交流，通过问题及其追问，考察模型在连续对话环境中的逻辑推理与问题解决能力。

3. 推理能力等级自动评定：独创的评估系统能自动给出大模型处理数学问题的推理能力等级，为模型智力水平提供量化指标。

4. 内容的丰富性和具体化：包含数百个场景，确保模型在多种情境下均能得到有效评估，提高了数据集的应用范围和实用性。

SuperCLUE-Math的推出不仅填补了中文数学推理数据集的空缺，而且对于提升中文大模型在复杂逻辑和数学问题解决能力上的表现具有重要价值。

期待SuperCLUE-Math能激励更多的创新，推动人工智能技术在各行各业的广泛应用，从而为社会带来更深远的影响。

SuperCLUE-Math6

SC-Math6与GSM8K区别联系

序号	对比项目	SC-Math6	GSM8K
1	数学逻辑推理	YES	YES
2	自然语言解决方案	YES	YES
3	小学数学知识	YES	YES
4	多步推理	YES	YES
5	中文原生场景	YES	NO
6	多轮深入推理	YES	NO
7	题目推理步骤数	YES	NO
8	可解析性的模型推理等级	YES	NO
9	测试题数量	2024题（1012对）	1300题

推理步数的分布

推理步数	题目占比（%）
1	15-20
2	15-20
3	45-50
4	5-10
5	5-10

推理等级的计算

我们介绍了一种创新的方案来评估大模型的推理能力。它通过结合模型在不同推理步骤的表现和总体准确率，以科学且公正的方式进行评估。其特点在于简明易懂，通过合理的阈值设置，确保了性能相近的模型被归入同一等级，方便了对新模型的快速评级，而无需重新评估现有模型。这提供了一个透明、易于理解的框架，帮助公众衡量和比较大模型的推理能力和智力水平。

推理等级的计算方案

为了设计一个科学且综合的方案来计算模型的推理等级，我们可以采用以下步骤：

1. 数据准备和处理

将提供的数据整理为一个表格，以便进行计算。

2. 计算每个模型的推理步数得分
由于更长的推理步数更难，我们将为每个推理步数赋予不同的权重。步数1的权重为1，步数5的权重为5。
对每个模型，计算加权平均得分：

3. 计算每个模型的综合得分

综合得分=0.5×推理步数得分+0.5×准确率得分
综合得分将由推理步数得分和准确率得分共同决定，每部分占50%的权重。

4. 等级划分
根据综合得分进行等级划分，等级从1到5，等级5为最高，等级1为最低。
使用阈值（0.05分）来确定等级。如果两个模型的综合得分差距在0.05分以内，它们处于同一个等级。

5. 新模型的等级计算
对于新模型，使用相同的方法计算其综合得分。
将其综合得分与现有模型的综合得分进行比较，按照相同的等级划分原则，确定其等级。

评估标准及Prompt

采取完全匹配的方式，计算准确率。其中，答案只能是非负整数。

使用的Prompt: <这里问题的内容>

注意：回答格式如下：“解题过程+'\n\n'+最终答案:【XXX】”。XXX，必须为非负整数，如35；解题过程中如涉及小数可保留两位数，最终结果如有小数四舍五入为非负整数。

模型列表及使用方式

模型名称	机构	使用方式
GPT_4_1106_Preview	OpenAI	API
GPT_4	OpenAI	API
文心一言4.0	百度	API
GPT_3.5_Turbo	OpenAI	API
ChatGLM_Turbo	智谱AI	API
Qwen_14B_Chat	阿里云	API
Baichuan2_13B_Chat	百川智能	模型
ChatGLM3_6B	智谱AI	模型
讯飞星火_V3.0	科大讯飞	API
文心一言3.5	百度	模型
Chinese_Alpaca2_13B	Yiming Cui	模型

测评结果

SuperCLUE推理能力等级

模型名称	推理等级	综合得分	推理步数加权得分	准确率综合得分
GPT_4_1106_Preview	5级	87.76	88.60	86.92
GPT_4	5级	83.86	83.60	84.12
文心一言4.0	5级	79.64	80.73	78.55
GPT_35_Turbo	4级	53.75	54.87	52.64
ChatGLM_Turbo	4级	52.55	53.60	51.49
Qwen_14B_Chat	4级	49.05	49.73	48.37
讯飞星火_V3.0	3级	37.39	40.87	33.91
Baichuan2_13B_Chat	3级	36.76	38.40	35.12
ChatGLM3_6B	3级	33.03	34.13	31.92
文心一言3.5	2级	21.01	22.20	19.82
Chinese_Alpaca2_13B	2级	18.09	18.67	17.51

模型准确率得分

模型名称	全面准确率	平均准确率	第一轮准确率	第二轮准确率	两轮差异
GPT_4_1106_Preview	83.68	90.16	94.22	86.10	-8.12
GPT_4	80.50	87.73	91.70	83.77	-7.93
文心一言4.0	73.32	83.77	89.74	77.80	-11.94
GPT_3.5_Turbo	43.94	61.33	72.48	50.19	-22.29
ChatGLM_Turbo	42.44	60.54	71.92	49.16	-22.76
Qwen_14B_Chat	38.54	58.19	72.31	44.06	-28.25
Baichuan2_13B_Chat	25.09	45.15	59.24	31.06	-28.18
ChatGLM3_6B	21.23	42.60	56.72	28.44	-28.28
讯飞星火_V3.0	20.52	47.29	69.12	25.47	-43.65
Chinese_Alpaca2_13B	10.23	24.79	33.21	16.32	-16.89
文心一言3.5	9.51	30.13	43.00	17.26	-25.74

指令遵循率与回答长度

模型名称	指令遵循率（答案）	回答长度
GPT_4_1106_Preview	99.44	173.48
GPT_4	99.21	126.75
文心一言4.0	68.04	143.78
GPT_3.5_Turbo	54.64	82.11
ChatGLM_Turbo	60.15	91.84
Qwen_14B_Chat	90.67	71.1
Baichuan2_13B_Chat	1.54	70.00
ChatGLM3_6B	20.91	56.29
讯飞星火_V3.0	53.66	61.03
Chinese_Alpaca2_13B	18.15	46.50
文心一言3.5	64.68	43.14

推理步数的成绩分布

模型名称	步数1	步数2	步数3	步数4	步数5
GPT_4_1106_Preview	0.92	0.89	0.91	0.89	0.86
GPT_4	0.92	0.91	0.89	0.82	0.77
文心一言4.0	0.87	0.85	0.85	0.81	0.75
GPT_3.5_Turbo	0.73	0.65	0.61	0.48	0.49
ChatGLM_Turbo	0.70	0.65	0.60	0.51	0.44
Qwen_14B_Chat	0.72	0.58	0.60	0.47	0.38
Baichuan2_13B_Chat	0.56	0.48	0.44	0.38	0.28
ChatGLM3_6B	0.58	0.49	0.41	0.27	0.25
讯飞星火_V3.0	0.62	0.48	0.47	0.31	0.38
文心一言3.5	0.49	0.29	0.29	0.16	0.15
Chinese_Alpaca2_13B	0.40	0.29	0.22	0.14	0.12

成绩对比：SC-Math vs GSM8K

模型名称	SC-Math6 全面准确率	GSM8K	成绩来源
GPT_4_1106_Preview	83.68	未报告	--
GPT_4	80.50	92.0 (5-shot CoT)	GPT-4 report
文心一言4.0	73.32	未报告	--
GPT_3.5_Turbo	43.94	57.1 (5-shot)	GPT-4 report
ChatGLM_Turbo	42.44	未报告	--
Qwen_14B_Chat	38.54	50.3 (0-shot)	Modelscope 项目
Baichuan2_13B_Chat	25.09	52.77 (base)	Baichuan2 report
ChatGLM3_6B	21.23	72.3 (0-shot CoT)	ChatGLM3-6B Github
讯飞星火_V3.0	20.52	未报告	-
Chinese_Alpaca2_13B	10.23	未报告	-
文心一言3.5	9.51	未报告	-

测评结论

通过我们获得的推理等级数据，我们可以得出以下三个关键结论：

1. 先进模型的卓越表现：

顶级模型（如GPT_4_1106_Preview、GPT_4 和文心一言4.0 ）在推理任务中展现了卓越的性能，特别是在处理高难度的多步推理任务时。
它们在推理能力和准确性方面均达到了较高的标准，证明了当前大模型的先进水平。

2. 性能分层明显：

通过对不同模型的综合评估，我们可以看到性能上的明显分层。高等级模型在复杂任务上的表现远远超过低等级模型，这反映了在大模型领域内技术和能力的多样性和分层。

3. 针对不同需求的模型选择：

不同等级的模型提供了根据具体应用场景和需求选择合适模型的依据。例如，对于需要高精度和复杂推理能力的任务，更适合选择等级较高的模型；
 而对于一些基础应用，则可以考虑使用等级较低但仍具有效率和准确性的模型。

通过分析准确率和指令遵循率得分情况，我们还可以看到：

1. 准确率的递减趋势：

在所有模型中，第二轮准确率普遍低于第一轮准确率，这表明随着任务复杂度的增加（从第一轮到第二轮），模型的性能出现了下降。这种趋势在所有模型中普遍存在，表明在设计和优化模型时，需要特别关注其在持续任务中的稳定性和适应性。

  比如，GPT_4_1106_Preview的第一轮准确率为94.22%，而第二轮准确率为86.10%，准确率下降了8.12%。同样地，ERNIE_35_Turbo_v2的第一轮准确率为43.00%，第二轮准确率为17.26%，下降了25.74%。

2. GPT系列模型的卓越性能：

GPT_4_1106_Preview和GPT_4在各项指标中均表现优异，尤其在全面准确率和平均准确率方面。这反映了GPT系列模型在处理复杂任务时的高效性和可靠性，同时也表明了其在语言理解和生成方面的先进性。 GPT_4_1106_Preview在全面准确率上达到了83.68%，平均准确率为90.16%，而GPT_4的全面准确率为80.50%，平均准确率为87.73%，均高于其他模型。

3. 指令遵循率与准确率的相关性：

高指令遵循率模型（如GPT_4_1106_Preview和GPT_4）通常也展现了较高的准确率，而低指令遵循率模型（如Baichuan2_13B_Chat）则准确率较低。这表明指令遵循率可能是衡量模型整体性能的一个重要指标，尤其在评估模型对任务要求的理解和执行能力时。 GPT_4_1106_Preview的指令遵循率为99.44%，全面准确率为83.68%，而Chinese_Alpaca2_13B的指令遵循率仅为18.15%，全面准确率也较低，仅为10.23%。

4. 准确率与答案长度的潜在关系：

在某些模型（如GPT_4_1106_Preview）中，较高的准确率伴随着较长的平均答案长度，这可能暗示这些模型在生成详尽回答时更为精确。然而，这一趋势并不在所有模型中一致出现，表明答案长度与准确率之间的关系可能受多种因素影响，包括模型的设计和训练数据。 GPT_4_1106_Preview的平均答案长度为173.48，准确率较高，而ChatGLM3_6B的平均答案长度为56.29，准确率相对较低。这暗示在某些情况下，答案长度可能与准确率相关。

5. 性能差异的可能原因：

观察各模型之间的性能差异，可能反映了它们在架构、训练数据集、优化策略等方面的不同。例如，GPT系列模型可能因为更大的模型规模、更广泛的训练数据或更高级的优化技术而表现更佳。对这些差异的深入研究有助于理解和改进现有模型的性能。

示例

示例1：

示例2：

示例3：

讨论交流与申请使用

微信群：联系人：

使用测评集，请发送邮件到contact@superclue.ai，标题：SuperCLUE-Math6申请，具体见Github

SuperCLUE中文大模型排行榜(2023年7月)

总榜单，包括基础能力、中文特性和专业能力

排名	模型	机构	总分	基础能力	中文特性	学术专业	许可证
🧝	人类	CLUE	83.66	85.03	82.29	-	-
-	GPT-4	OpenAI	70.89	70.04	72.67	69.96	专有服务
🏅	文心一言(v2.2.0)	百度	62.00	61.11	71.38	53.50	专有服务
-	Claude-2	Authropic	60.94	62.01	61.18	59.63	专有服务
-	gpt-3.5-turbo	OpenAI	59.79	64.40	63.19	51.78	专有服务
🥈	ChatGLM-130B	清华大学&智谱AI	59.35	53.78	71.39	52.89	专有服务
🥉	讯飞星火(v1.5)	科大讯飞	58.02	63.32	65.72	45.03	专有服务
-	Claude-instant-v1	Authropic	56.31	58.85	55.91	54.16	专有服务
4	360智脑(4.0)	360	55.04	56.68	62.54	45.88	专有服务
5	internlm-chat-7b	上海AI实验室与商汤	53.91	54.85	61.35	45.53	开源-可商用
6	ChatGLM2-6B	清华大学&智谱AI	53.85	55.60	63.59	42.37	开源-可商用
7	MiniMax-abab5.5	MiniMax	53.06	53.61	62.79	42.77	专有服务
8	通义千问(v1.0.3)	阿里巴巴	51.52	52.84	61.73	39.98	专有服务
9	Baichuan-13B-Chat	百川智能	49.35	50.46	55.38	42.21	开源-可商用
10	BELLE-LLaMA-13B-2M-enc	链家	46.60	48.71	52.99	38.10	开源-非商用
11	IDEA-姜子牙-13B-v1.1	深圳IDEA研究院	43.80	47.55	48.61	35.26	开源-非商用
12	phoenix-7B	香港中文大学	41.57	45.39	44.62	34.70	开源-可商用
13	MOSS-16B	复旦大学	35.36	37.01	38.01	31.07	开源-可商用
14	Llama-2-13B-chat	Meta	34.26	35.85	37.37	29.57	开源-可商用
15	Vicuna-13B	UC伯克利	31.70	34.61	33.71	26.80	开源-非商用
16	RWKV-7B-World-CHNtuned	RWKV基金会	27.83	30.71	28.13	24.66	开源-可商用

注：国外代表性非开源模型（GPT4.0/Claude/gpt-3.5）参与榜单，但不参与排名。

2023年7月SuperCLUE基础能力榜单

基础能力，包含10项子能力

排名	模型	平均分	语义理解	闲聊	对话	角色扮演	知识与百科	生成与创作	逻辑与推理	代码	计算	安全
🧝	人类	85.03	90.17	71.53	77.99	82.19	97.44	68.79	90.55	90.45	94.97	86.22
-	gpt-4	70.04	82.91	46.77	66.39	63.46	92.65	66.67	60.33	85.45	61.48	73.02
-	gpt-3.5-turbo	64.40	87.18	45.16	65.57	60.58	85.29	72.36	42.98	72.73	38.52	72.22
🏅️	讯飞星火(v1.5)	63.32	78.26	45.90	59.84	55.88	73.48	54.92	54.70	60.00	76.86	71.54
-	Claude-2	62.01	83.49	49.59	57.14	52.88	78.68	68.07	53.72	66.06	44.26	65.60
🥈	文心一言(v2.2.0)	61.11	81.90	46.34	56.67	59.80	86.76	47.73	36.52	65.79	52.63	70.63
-	Claude-instant-v1	58.85	76.52	50.00	58.20	55.77	77.04	61.48	40.00	66.97	33.61	67.77
🥉	360智脑(4.0)	56.68	76.92	52.46	58.33	54.08	76.80	61.54	37.29	53.64	29.57	67.92
4	ChatGLM2-6B	55.60	74.36	44.35	55.74	56.73	76.47	51.22	40.50	41.82	45.08	66.67
5	internlm-chat-7b	54.85	80.34	48.39	55.74	55.77	77.94	36.59	37.19	51.82	34.43	68.25
6	ChatGLM-130B	53.78	70.94	45.97	56.56	61.54	75.74	55.28	29.75	45.45	31.15	63.49
7	MiniMax-abab5.5	53.61	79.49	45.97	59.84	60.58	85.29	47.97	29.75	30.00	31.97	61.11
8	通义千问	52.84	74.77	45.97	57.98	53.00	76.69	38.89	33.06	46.67	39.67	60.40
9	Baichuan-13B-Chat	50.46	64.10	41.94	50.00	52.88	75.00	57.72	27.27	40.91	31.15	60.32
10	BELLE-13B	48.71	68.38	46.77	51.64	53.85	64.71	25.20	32.23	48.18	31.97	63.49
11	IDEA-姜子牙-13B-v1.1	47.55	70.09	49.19	48.36	48.08	58.82	32.52	34.71	21.82	45.08	63.49
12	Phoenix-7B	45.39	66.67	41.94	43.44	43.27	55.15	44.72	31.41	36.36	33.61	55.56
13	MOSS-16B	37.01	54.70	39.52	40.16	45.19	35.29	34.96	24.79	32.73	27.05	37.30
14	Llama-2-13B-chat	35.85	52.14	41.94	40.98	32.69	33.82	38.21	28.93	23.64	27.05	38.10
15	Vicuna-13B	34.61	49.57	33.06	32.79	37.50	25.74	30.89	27.27	40.91	35.25	35.71
16	RWKV-7B-World-CHNtuned	30.71	31.62	20.16	22.13	26.92	27.21	23.58	22.31	36.36	60.66	36.51

注：国外代表性非开源模型（GPT4.0/Claude/gpt-3.5）参与榜单，但不参与排名

2023年7月SuperCLUE中文特性榜单

中文特性，包含10项子能力

排名	模型	平均分	字形和拼音	字义理解	句法分析	文学	诗词	成语	歇后语	方言	对联	古文
🧝	人类	82.29	96.01	83.15	62.71	91.47	90.79	92.38	83.78	69.21	70.00	83.40
-	gpt-4	72.67	62.83	68.07	85.48	88.08	75.68	95.12	70.15	38.40	71.52	67.31
🏅️	ChatGLM-130B	71.39	48.67	68.07	75.00	83.44	84.68	95.94	67.16	45.60	70.86	72.12
🥈	文心一言(v2.2.0)	71.38	59.34	70.34	73.33	86.58	82.88	95.12	60.31	37.60	71.03	73.79
🥉	讯飞星火(v1.5)	65.72	47.32	68.38	77.42	72.03	69.09	89.43	59.85	35.77	71.23	63.46
4	ChatGLM2-6B	63.59	45.13	60.50	66.13	78.81	63.06	89.43	64.18	33.60	64.24	66.35
-	gpt-3.5-turbo	63.19	46.02	69.75	75.81	75.50	57.66	89.43	55.97	36.00	57.62	66.35
5	MiniMax-abab5.5	62.79	46.90	57.98	63.71	75.50	71.17	86.99	60.45	41.60	58.94	62.50
6	360智脑(4.0)	62.54	45.45	63.83	63.53	71.43	70.73	97.06	60.47	38.46	64.96	73.21
7	通义千问	61.73	41.59	60.87	60.66	73.65	67.89	88.24	51.91	40.68	68.97	57.89
8	internlm-chat-7b	61.35	41.59	58.82	62.10	76.16	68.47	86.18	61.94	32.80	57.62	65.38
-	Claude-2	61.18	48.67	70.94	70.16	67.55	54.05	83.74	58.21	36.00	60.67	59.62
-	Claude-instant-v1	55.91	43.36	62.16	72.13	62.91	50.91	84.87	47.73	31.20	56.38	45.19
9	Baichuan-13B-Chat	55.38	45.13	58.82	50.81	73.51	70.27	75.61	47.01	33.60	44.37	54.81
10	BELLE-13B	52.99	42.48	55.46	67.74	56.29	46.85	78.05	38.06	33.60	59.60	49.04
11	IDEA-姜子牙-13B-v1.1	48.61	28.32	54.62	51.61	56.29	51.35	63.41	42.54	36.00	48.34	51.92
12	Phoenix-7B	44.62	30.09	51.26	43.55	51.66	45.95	65.85	35.07	32.00	45.03	44.23
13	MOSS-16	38.01	32.74	43.70	36.29	40.40	32.43	60.98	32.09	31.20	31.13	40.38
14	Llama-2-13B-chat	37.37	31.86	40.34	49.19	37.75	33.33	43.90	32.09	32.00	33.77	40.38
15	Vicuna-13B	33.71	21.24	34.45	45.16	29.14	22.52	33.33	36.57	22.40	49.67	38.46
16	RWKV-7B-World-CHNtuned	28.13	25.66	26.05	25.00	29.80	26.13	45.53	17.16	20.00	36.42	27.88

注：国外代表性非开源模型（GPT4.0/Claude/gpt-3.5）参与榜单，但不参与排名；歇后语：歇后语和谚语

2023年7月SuperCLUE开源榜单

排名	模型	机构	总分	基础能力	中文特性	学术专业	许可证
🧝	人类	CLUE	83.66	85.03	82.29	-	-
🏅️	internlm-chat-7b	上海AI实验室与商汤	53.91	54.85	61.35	45.53	开源-可商用
🥈	ChatGLM2-6B	清华大学&智谱AI	53.85	55.60	63.59	42.37	开源-可商用
🥉	Baichuan-13B-Chat	百川智能	49.35	50.46	55.38	42.21	开源-可商用
4	BELLE-LLaMA-13B-2M-enc	链家	46.60	48.71	52.99	38.10	开源-非商用
5	IDEA-姜子牙-13B-v1.1	深圳IDEA研究院	43.80	47.55	48.61	35.26	开源-非商用
6	phoenix-7B	香港中文大学	41.57	45.39	44.62	34.70	开源-可商用
7	MOSS-16B	复旦大学	35.36	37.01	38.01	31.07	开源-可商用
8	Llama-2-13B-chat	Meta	34.26	35.85	37.37	29.57	开源-可商用
9	Vicuna-13B	UC伯克利	31.70	34.61	33.71	26.80	开源-非商用
10	RWKV-7B-World-CHNtuned	RWKV基金会	27.83	30.71	28.13	24.66	开源-可商用

SuperCLUE-Math6具有四大特点：