选项

项目简介

中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。我们会选择一系列有一定代表性的任务对应的数据集,做为我们测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。

项目定位

为更好的服务中文语言理解、任务和产业界,做为通用语言模型测评的补充,通过完善中文语言理解基础设施的方式来促进中文语言模型的发展

建设原因

首先,中文是一个大语种,有其自身的特定、大量的应用。

如中文使用人数近14亿,是联合国官方语言之一,产业界有大量的的朋友在做中文的任务。

中文是象形文字,有文字图形;字与字之间没有分隔符,不同的分词(分字或词)会影响下游任务。

其次,相对于英文的数据集,中文的公开可用的数据集还比较少。

很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。

再次,语言理解发展到当前阶段,预训练模型极大的促进了自然语言理解。

不同的预训练模型相继产生,但不少最先进(state of the art)的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试, 导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。

那么,如果有一个中文任务的基准测试,包含一批大众能广泛使用和测评的数据集、适用中文任务的特点、能紧跟当前世界技术的发展

能缓解当前中文任务的一些问题,并促进相关应用的发展。

内容体系

《汉语语言理解评价基准》(ChineseGLUE)从GLUE中获得了一些想法,它是用于培训、评估和分析自然语言理解系统的资源。中国价值观包括:

1)中文任务的基准测试,覆盖多个不同程度的语言任务

几个句子或句子对语言理解任务的基准。目前,这些任务中使用的数据集来自public。我们将在2019年底前将数据集包括在私有测试集中。

2)公开的排行榜

用于跟踪效果的公共排行榜。您将能够提交有关这些任务的预测文件,将对每个任务进行评估和评分,也将提供最终评分。

3)数值模型,包含开始的代码,预训练模型

ChineseGLUE任务的基准。在TensorFlow,PyTorch,Keras和PaddlePaddle中可以使用基线。

4)语料库,用于语言建模,预训练或生成型任务

用于训练前或语言建模研究的大量原始语料库。它将在2019年包含大约10G的原始语料库;

在2020年上半年,它将包括至少30G的原始语料库;到2020年底,我们将包括足够的原始语料库,例如100G,它足够大,以至于您不再需要用于通用语言建模的原始语料库。您可以将其用于常规用途或域适应,甚至用于文本生成。当用于领域适应时,您将能够选择您感兴趣的语料库。

语料库介绍

可用于语言建模,预训练或生成型任务等,数据量超过10G,主要部分来自于nlp_chinese_corpus项目

当前语料库按照【预训练格式】处理,内部多个多个文件夹;每个文件夹有很多不超过4M大小的小文件,文件格式符合预训练格式:每句话一行,文档间空行替换。

包含如下子语料库(共有14G语料):

1,新闻语料:8G语料,分成两个上下两部分,总共有2000个小文件。

2,社区互动语料:3G语料,包含3G文本,共有900多个小文件。

3,维基百科:1.1G左右文本,包含300左右小文件。

4,评论数据:2.3G左右文本,含有811个小文件,合并ChineseNLPCorpus的多个评论数据,清洗,格式转换,拆分成小文件。

这些语料,你可以通过上面这两个项目,清洗数据并做格式转换获得;

你也可以通过邮件申请(chineseGLUE#163.com)获得单个项目的语料,告知单位或学校、姓名、语料用途;

如需获得ChineseGLUE项目下的所有语料,需成为ChineseGLUE组织成员,并完成一个(小)任务。

Copyright @2019