CLUE中文语言理解基准测评

中文语言理解测评基准(CLUE)

内容体系：代表性的数据集、基线(预训练)模型、语料库、论文、工具包、排行榜。

SuperCLUE使命：精准量化AGI进展，定义人类迈向AGI路线图

CLUE定位：为更好的服务中文语言理解、任务和产业界，做为通用语言模型测评的补充，通过搜集整理发布中文任务及标准化测评等方式完善基础设施，最终促进中文NLP的发展。

                                       更新25年10月24日：★ 大模型竞技场 & 大模型分析上线 ★

                                       更新25年10月17日： ★《中文大模型基准测评2025年9月报告》发布！ ★
                                       更新25年10月15日： ★「世界模型」中文测评方案发布！
                                       更新25年10月11日： ★ 「图像编辑」示例集及效果对比出炉！
                                       更新25年10月10日： ★ 中文「软件工程」测评基准方案发布！（SuperCLUE-SWE）
                                       更新25年10年09日： ★ Computer Use Agent（离线）测评方案发布（SuperCLUE-CUA）
                                       更新25年10月09日： ★ 「竞技场」上线！即刻参与“图像编辑”投票
                                       更新25年09月30日： ★ DeepSeek-V3.2-Exp最新测评结果发布！
                                       更新25年09月24日： ★ 手机端侧大模型测评结果发布！（SuperCLUE-OnDevice）
                                       更新25年09月19日： ★ 「图像编辑」测评基准中文方案发布
                                       更新25年09月16日： ★ SuperCLUE新版官网上线(v0.2)：更好用、更智能、更美观，完全重制！
                                       更新25年09月12日： ★ 汽车「智能座舱智能体」测评基准新版方案发布（AgentCLUE-ICabin）！
                                       更新25年08月29日： ★ 手机 GUI Agent（离线）测评方案发布
                                       更新25年08月28日： ★ 8月多模态视觉测评榜单出炉：Gemini-2.5-Pro断层领先，国产头部模型紧追GPT-5
                                       更新25年08月20日： ★ 大模型2025上半年报告之三：智能体·工具调用分析
                                       更新25年08月19日： ★ 通用大模型基准测评「常见问题」解答
                                       更新25年08月18日： ★ 中文「深度搜索」测评基准方案发布！
                                       更新25年08月05日： ★《中文大模型基准测评2025年上半年报告》发布！幻觉中文首测、Web开发加入 |   阅读PDF报告(39页）

                                       更新25年5月29日： ★「视觉推理」中文榜单5月首发: 前后差距达30分，附8个示例
                                       更新25年5月15日： ★中文大模型忠实性幻觉测评：标杆R1幻觉率21%，千问3达29%，豆包1.5仅4%
                                       更新25年5月13日： ★通用智能体中文基准测评-报告解读（附示例）
                                       更新25年5月08日： ★文生图模型中文测评5月榜单发布，GPT-4o仅排第3！
                                       更新25年4月30日： ★Qwen3中文推理成绩出炉！32B夺得金牌，超R1
                                       更新25年4月30日： ★中文通用智能体基准首批成绩发布: Manus领先，总分低于40
                                       更新25年4月28日： ★中文通用大模型5月基准测评报告，5月28日发布！
                                       更新25年4月27日： ★ 中文视觉推理测评基准（方案）发布
                                       更新25年4月23日： ★ 中文大模型幻觉测评系列：忠实性幻觉测评基准方案发布！
                                       更新25年04月22日： ★图生视频首期中文测评榜单发布：6大任务，11款模型对决
                                       更新25年04月18日： ★中文通用AI智能体测评基准方案发布！
                                       更新25年04月17日： ★o4-mini登顶推理总榜，GPT-4.1表现不及预期
                                       更新25年04月14日： ★中文大模型幻觉测评系列：事实性幻觉测评结果发布
                                       更新25年04月08日： ★Llama 4中文能力如何？对比新版DeepSeek-V3
                                       更新25年03月31日： ★DeepSeek-R1第三方平台稳定性测试（网页端） 3月报告
                                       更新25年03月28日： ★QwQ-32B推理总榜接近R1，数学竞赛突破90分
                                       更新25年03月27日： ★我们开源了Math24o: 高中奥林匹克数学竞赛测评集
                                       更新25年03月26日： ★大模型2025年3月报告分析3：推理模型 VS 基础模型
                                       更新25年03月25日： ★最新DeepSeek-V3-0324基准测评出炉！代码、科学推理接近Claude3.7推理版，数学竞赛大幅提升22分
                                       更新25年03月24日： ★大模型2025年3月报告分析2：智能体AI Agent
                                       更新25年03月20日： ★大模型3月报告分析1：DeepSeek系列模型对比
                                       更新25年03月19日： ★25年3月中文AI大模型测评出炉！深度剖析（包括R1、QwQ、o3-mini等16个推理模型）6大任务表现

                                       更新25年03月19日： ★DeepSeek-R1联网搜索能力首测：10家第三方平台真实测评
                                       更新25年02月20日： ★DeepSeek-R1第三方稳定性测试（API端）：首批结果出炉！
                                       更新25年02月19日： ★DeepSeek-R1第三方稳定性测试（App端）：首批结果出炉！
                                       更新25年02月13日： ★DeepSeek-R1第三方稳定性测试（网页端）：18家网页端测评

                                       更新25年03月06日： ★多模态视觉基准测评2月榜单出炉！o3表现不敌国产模型
                                       更新25年02月27日： ★项目级代码生成结果出炉！o3/Claude3.7领跑，R1跻身第一梯队
                                       更新25年02月17日： ★中文多模态视觉语言模型测评基准（方案）发布
                                       更新25年02月14日： ★可执行智能体中文基准首测结果：Claude3.5领先未达50分
                                       更新25年02月08日： ★DeepSeek-R1使用了我们的评测数据CLUEWSC
                                       更新25年01月08日： ★《中文大模型基准测评2024年度报告》发布 |   阅读PDF报告(89页）
                                       更新25年01月26日： ★ 实时音视频中文基准首期测评发布：5大维度30项能力5款应用，ChatGPT领跑但表现不及预期！

                                       更新25年01月22日： ★ 「科学推理」基准榜单出炉！DeepSeek-R1 登顶，推理等级7级，o1紧随其后
                                       更新25年01月21日： ★ 「全国高中数学竞赛」发布：国际领衔，国内紧追
                                       更新25年01月14日： ★ 「项目级代码生成」测评基准SC-Project方案发布
                                       更新25年01月02日： ★ 「科学推理」中文基准测评方案发布

                                       更新25年01月08日： ★ 年度中文AI大模型测评出炉！89页报告深度剖析42个大模型9大任务表现
                                       更新25年01月08日： ★ 《中文大模型基准测评2024年度报告》发布！

                                       24年12月24日： ★实时语音基准12月测评出炉，4大维度15项能力8款应用，讯飞星火领跑，国内产品延时、打断和场景表现出色
                                       24年12月16日： ★ 中文大模型内容安全测评基准(DSPSafeBench)上线，首批模型测评结果揭晓！
                                       24年12月12日： ★ 中文原生「语音合成」测评基准榜单发布！首期声音复刻榜单同步揭晓，豆包模型双榜夺冠！
                                       24年12月11日： ★Sora最新测评结果出炉，表现不及国内头部模型，指令遵循不符预期
                                       24年12月06日： ★ 新o1登顶中文链式推理基准，总分76.12分，速度提升41%
                                       24年12月03日： ★ 推理榜单更新：QwQ国内排名第一，与o1差距缩小
                                       24年12月02日： ★ 中文多模态、文生图大模型基准12月榜单征集公告
                                       24年11月29日： ★新增多轮可执行Agent测评！SuperCLUE基准2024年度报告将于12月26日发布
                                       24年11月28日： ★ 如何测评中文Agent智能体？AgentCLUE基准方案发布！
                                       24年11月08日： ★《中文大模型基准测评2024年10月报告》      阅读报告全文
                                       24年11月27日：「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型
                                       24年11月20日：语音合成大模型测评基准（方案）发布
                                       24年11月12日：文生视频大模型最新基准11月榜单发布！Top3国产大模型表现亮眼，7大维度27大任务10大模型
                                       24年11月04日：「竞赛数学（小学）」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格
                                       24年10月31日：中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格
                                       24年10月16日：「AI搜索」基准测评方案发布
                                       24年10月15日：文生视频大模型「新版」测评基准（方案）发布
                                       24年10月14日：中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察
                                       24年10月10日：奥林匹克数学竞赛-Math6o基准测评方案发布
                                       24年10月08日：新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布
                                       24年09月29日：实时语音交互中文基准首期测评出炉，4大维度15项能力、7款应用，国内产品延时和场景表现出色
                                       24年09月25日：中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80
                                       24年09月11日：长文本大模型中文基准测评-首批测评结果出炉
                                       24年09月02日：《中文大模型基准测评2024年8月报告》      阅读报告全文
                                       24年08月07日：汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异
                                       24年08月06日： SuperCLUE-o: 中文原生多模态实时交互测评基准
                                       24年08月02日：中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分
                                       24年08月01日：《文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型
                                       24年07月25日： GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分
                                       24年07月24日： Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o
                                       24年07月09日：《中文大模型基准测评2024年上半年度报告》      阅读报告全文
                                       24年07月02日： AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3
                                       24年06月19日： AIGVBench：AI视频生成领域的引领性专业测评基准
                                       24年6月18日：「代码助手测评」启动，SuperCLUE-Coder测评方案公布
                                       24年06月12日： SuperCLUE-Image文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分。
                                       24年6月04日：新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级
                                       24年05月30日： SuperCLUE-Long：中文原生长文本测评基准
                                       24年05月24日： ★ 中文领先大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分
                                       24年05月16日： SuperCLUE-V: 中文原生多模态理解测评基准
                                       24年05月14日： GPT-4o登顶中文推理基准，总分81.73，刷新数学和代码最好成绩
                                       24年5月11日：通义千问2.5全面赶超GPT-4 Turbo？定量分析 | 深度求索DeepSeek-V2中文推理任务表现强劲！开源MOE
                                       24年05月07日： SuperCLUE-Image: 中文原生文生图测评基准（视觉盛宴）
                                       24年04月30日：《中文大模型基准测评2024年4月报告》阅读报告全文
                                       24年04月25日： SuperCLUE-ICabin：汽车智能座舱大模型测评基准
                                       24年04月24日：金融大模型基准测评：覆盖六大类二十五项任务，首批2个国内模型获A
                                       24年04月22日： Llama3中文基准测评出炉！性能惊艳，数学推理、代码生成能力解决GPT-4
                                       24年04月15日： SuperCLUE-RAG: 中文原生检索增强生成测评基准-首批结果公布
                                       24年04月01日： SuperCLUE-200K: 超长文本无损能力压测！中文大模型“大海捞针”首批结果公布
                                       24年04月02日： SuperCLUE-Role: 重新定义中文角色大模型测评基准
                                       24年03月04日： SuperCLUE-Industry: 中文原生工业大模型测评基准
                                       24年02月28日：中文大模型基准测评2024年2月报告
                                       24年02月26日： SuperCLUE-Video: 中文原生多层次文生视频测评基准
                                       24年02月21日： SuperCLUE-Code3: 中文原生端到端等级化代码能力测试基准
                                       24年01月15日： SuperCLUE-Math6: 新一代中文原生多轮多步数学推理数据集
                                       23年12月25日： SuperCLUE-Auto即首个汽车行业中文大模型测评基准发布
                                       23年11月28日：《中文大模型测评报告2023》发布
                                       23年11月30日： 11月中文大模型测评基准榜单发布
                                       23年11月14日： SuperCLUE2行业测评基准即将发布，正在征集行业大模型！
                                       23年11月09日： GPT-4 Turbo中文基准评测出炉！总分98.4，八项满分，领先31分｜SuperCLUE
                                       23年10月18日： SuperCLUE-Agent发布！中文原生场景Agent能力测评基准
                                       23年09月12日：为大模型安全护航！中文大模型多轮对抗安全基准SC-Safety发布

立即测评下载数据集联系与反馈