扫码关注
公众号二维码

中文语言理解测评基准(CLUE)

内容体系:代表性的数据集、基线(预训练)模型、语料库、论文、工具包、排行榜。

SuperCLUE使命:精准量化AGI进展,定义人类迈向AGI路线图

CLUE定位:为更好的服务中文语言理解、任务和产业界,做为通用语言模型测评的补充,通过搜集整理发布中文任务及标准化测评等方式完善基础设施,最终促进中文NLP的发展。


                                       更新24年11月08日:
★《中文大模型基准测评2024年10月报告》      阅读报告全文
                                       更新24年11月04日: ★ 「竞赛数学(小学)」基准榜单公布!7大任务,o1得73.50分,其余30个模型未及格
                                       更新24年10月31日: ★ 中文大模型「链式推理」基准测评榜单出炉!o1取得71.84分,推理等级7,其余32个大模型均未及格
                                       更新24年10月16日: ★「AI搜索」基准测评方案发布
                                       更新24年10月15日: ★文生视频大模型「新版」测评基准(方案)发布
                                       更新24年10月14日: ★中文大模型「链式推理」基准测评方案发布,引入思维链和反思能力考察
                                       更新24年10月10日: ★奥林匹克数学竞赛-Math6o基准测评方案发布
                                       更新24年10月08日: ★ 新增Function calling测评!SuperCLUE基准10月报告将于10月28日发布
                                       24年09月29日: 实时语音交互中文基准首期测评出炉,4大维度15项能力、7款应用,国内产品延时和场景表现出色
                                       24年09月25日: 中文原生代码助手基准测评出炉,Cursor取得89分领跑全球,国内2款代码助手得分超80
                                       24年09月11日: 长文本大模型中文基准测评-首批测评结果出炉
                                       24年09月02日: 《中文大模型基准测评2024年8月报告》      阅读报告全文
                                       24年08月07日: 汽车智能座舱大模型榜单8月首发,引入function-call,国内大模型表现优异
                                       24年08月06日: SuperCLUE-o: 中文原生多模态实时交互测评基准
                                       24年08月02日: 中文多模态大模型基准8月榜单发布!8大维度30个测评任务,3个模型超过70分
                                       24年08月01日: 《文生视频大模型测评结果8月首发!AIGV-t2v基准新增4大模型
                                       24年07月25日: GPT-4o mini中文基准评测出炉!超越GPT-4,领先GPT-3.5 Turbo 20分
                                       24年07月24日: Llama 3.1 405B 中文基准评测出炉!推理总分80.44,略超GPT-4 Turbo,不敌GPT-4o
                                       24年07月09日: 《中文大模型基准测评2024年上半年度报告》      阅读报告全文
                                       24年07月02日: AIGVBench文生视频测评首期结果公布,1000个AI视频对比,最高72.9分,Luma仅第3
                                       24年06月19日: AIGVBench:AI视频生成领域的引领性专业测评基准
                                       24年6月18日: 「代码助手测评」启动,SuperCLUE-Coder测评方案公布
                                       24年06月12日: SuperCLUE-Image文生图大模型基准测评首期榜单公布,DALL-E 3取得最高76.94分。
                                       24年6月04日: 新增Hard模式!SuperCLUE通用基准6月发布时间、测评升级
                                       24年05月30日: SuperCLUE-Long:中文原生长文本测评基准
                                       24年05月24日: ★ 中文领先大模型匿名竞技场「琅琊榜」榜单发布! 12000次投票,近20个领先模型,最高1173分
                                       24年05月16日: SuperCLUE-V: 中文原生多模态理解测评基准
                                       24年05月14日: GPT-4o登顶中文推理基准,总分81.73,刷新数学和代码最好成绩
                                       24年5月11日: 通义千问2.5全面赶超GPT-4 Turbo?定量分析  |   深度求索DeepSeek-V2中文推理任务表现强劲!开源MOE
                                       24年05月07日: SuperCLUE-Image: 中文原生文生图测评基准(视觉盛宴)
                                       24年04月30日: 《中文大模型基准测评2024年4月报告》 阅读报告全文
                                       24年04月25日: SuperCLUE-ICabin:汽车智能座舱大模型测评基准
                                       24年04月24日: 金融大模型基准测评:覆盖六大类二十五项任务,首批2个国内模型获A
                                       24年04月22日: Llama3中文基准测评出炉!性能惊艳,数学推理、代码生成能力解决GPT-4
                                       24年04月15日: SuperCLUE-RAG: 中文原生检索增强生成测评基准-首批结果公布
                                       24年04月01日: SuperCLUE-200K: 超长文本无损能力压测!中文大模型“大海捞针”首批结果公布
                                       24年04月02日: SuperCLUE-Role: 重新定义中文角色大模型测评基准
                                       24年03月04日: SuperCLUE-Industry: 中文原生工业大模型测评基准
                                       24年02月28日: 中文大模型基准测评2024年2月报告
                                       24年02月26日: SuperCLUE-Video: 中文原生多层次文生视频测评基准
                                       24年02月21日: SuperCLUE-Code3: 中文原生端到端等级化代码能力测试基准
                                       24年01月15日: SuperCLUE-Math6: 新一代中文原生多轮多步数学推理数据集
                                       23年12月25日: SuperCLUE-Auto即首个汽车行业中文大模型测评基准发布
                                       23年11月28日: 《中文大模型测评报告2023》发布
                                       23年11月30日: 11月中文大模型测评基准榜单发布
                                       23年11月14日: SuperCLUE2行业测评基准即将发布,正在征集行业大模型!
                                       23年11月09日: GPT-4 Turbo中文基准评测出炉!总分98.4,八项满分,领先31分|SuperCLUE
                                       23年10月18日: SuperCLUE-Agent发布!中文原生场景Agent能力测评基准
                                       23年09月12日: 为大模型安全护航!中文大模型多轮对抗安全基准SC-Safety发布


Copyright @2019 - 2023