IFLYTEK' 长文本分类
链接
数据集更新日期:2020-02-28
数据集提供者
科大讯飞
许可
说明
该数据集共有1.7万多条关于app应用描述的长文本标注数据,包含和日常生活相关的各类应用主题,共119个类别
THUCNews中文文本分类
链接
数据集更新日期:2016
数据集提供者
清华大学
许可
说明
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐,共74万篇新闻文档(2.19 GB)
新闻标题短文本分类
链接
数据集更新日期:2019-12
数据集提供者
chenfengshf
许可
CC0 公共领域共享
说明
数据集来源于Kesci平台,为新闻标题领域短文本分类任务。内容大多为短文本标题(length<50),数据包含15个类别,共38w条样本
今日头条中文新闻(文本)分类
链接
数据集更新日期:2018-05
数据集提供者
今日头条
许可
说明
数据集来源于今日头条,为短文本分类任务,数据包含15个类别,共382688条样本
复旦大学中文文本分类
链接
数据集更新日期:2020-02-28
数据集提供者
复旦大学计算机信息与技术系国际数据库中心自然语言处理小组
许可
说明
数据集来源于复旦大学,为短文本分类任务,数据包含20个类别,共9804篇文档
2018“达观杯”文本智能处理挑战赛
链接
数据集更新日期:2018-07
数据集提供者
达观数据
许可
说明
数据集来源于达观数据,为长文本分类任务,其主要包括了id,article,word_seg和class四个字段,数据包含19个类别,共102275条样本
全网新闻分类数据(SogouCA)
链接
数据集更新日期:2012-08-16
数据集提供者
搜狗
许可
说明
该数据来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据
中文短文本摘要数据集
链接
数据集更新日期:2018-06-20
数据集提供者
He Zhengfang
许可
说明
数据来源于新浪微博主流媒体发布的微博,共679898条数据。
景区口碑评价分值预测
链接
数据集更新日期:2018
数据集提供者
congqing he
许可
说明
本数据来源于“景区口碑评价分值预测”比赛,数据来源为互联网上用户对景区的评价以及口碑得分值。具体地,根据网友在某渠道上发布的评论文本内容,以及网友给出的评论分值。
初赛训练集:12w, 测试集:5w
复赛训练集:12w,测试集:5w
2019之江杯-电商评论观点挖掘大赛
链接
数据集更新日期:2019-08
数据集提供者
之江实验室
许可
说明
本次品牌评论观点挖掘的任务是在商品评论中抽取商品属性特征和消费者观点,并确认其情感极性和属性种类。对于商品的某一个属性特征,存在着一系列描述它的观点词,它们代表了消费者对该属性特征的观点。每一组{商品属性特征,消费者观点}具有相应的情感极性(负面、中性、正面),代表了消费者对该属性的满意程度
NLPIR短文本语料库-40万字
链接
数据集更新日期:2017-08
数据集提供者
北京理工大学网络搜索挖掘与安全实验室 (SMS@BIT)
许可
说明
NLPIR短文本语料库说明 1.解压缩后数据量为48万字,大约8704篇短文本内容; 2.整理后的语料库版权属于www.NLPIR.org; 3.可供短文本自然语言处理、搜索、舆情分析等应用提供测试数据场景;
2017 知乎看山杯机器学习挑战赛
链接
数据集更新日期:2017-06
数据集提供者
中国人工智能学会;知乎
许可
说明
数据集来源于知乎,为问题及话题标签的绑定关系的标注数据,每个问题有 1 个或多个标签,累计1999 个标签,共包含 300 万个问题
BDCI2018-汽车行业用户观点主题及情感识别
链接
数据集更新日期:2018
数据集提供者
CCF
许可
说明
汽车论坛中对汽车的评论,标注了汽车的诗歌主题:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。每个主题标注了情感标签,情感分为3类,分别用数字0、1、-1表示中立、正向、负向。
Scientific Summarization DataSets
链接
数据集更新日期:2019-10-26
数据集提供者
Santosh Gupta
许可
说明
数据集取自Semantic Scholar Corpus和ArXiv。来自Semantic Scholar语料库的标题/摘要对,过滤掉生物医学领域的所有论文,包含580万条数据。来自ArXiv的数据,包含了从1991年开始到2019年7月5日的每篇论文的标题/摘要对。数据集包含金融类数据10k,生物学类26k,数学类417k,物理类157万,CS类221k。
LCSTS
链接
数据集更新日期:2015-08-06
数据集提供者
Qingcai Chen
许可
说明
数据集来源于新浪微博,包含两百万左右真实中文短文本,每条数据包括由作者标注的摘要和正文两个字段。另外有10,666条数据由人工标注出短文本与摘要的相关性,从1-5相关性依次增加。
AI Challenger 细粒度用户评论情感分析
链接
数据集更新日期:2020-02-28
数据集提供者
美团
许可
说明
餐饮评论,6个一级属性,20个二级属性,每个属性标注正面、负面、中性、未提及。
WikiHow
链接
数据集更新日期:2018-10-18
数据集提供者
Mahnaz Koupaee
许可
说明
每条数据为一篇文章,每篇文章由多个段落组成,每个段落以一个总结它的句子开头。通过合并段落形成文章和段落大纲形成摘要,数据集的最终版本包含了超过200,000个长序列对。
“技术需求”与“技术成果”项目之间关联度计算模型
链接
数据集更新日期:2020-02-28
数据集提供者
CCF
许可
说明
给定文本形式的技术需求和技术成果,以及需求与成果的关联度标签;其中技术需求与技术成果之间的关联度分为四个层级: 强相关、较强相关、弱相关、无相关
之江杯电商评论观点挖掘大赛
链接
数据集更新日期:2019
数据集提供者
之江实验室
许可
说明
本次品牌评论观点挖掘的任务是在商品评论中抽取商品属性特征和消费者观点,并确认其情感极性和属性种类。对于商品的某一个属性特征,存在着一系列描述它的观点词,它们代表了消费者对该属性特征的观点。每一组{商品属性特征,消费者观点}具有相应的情感极性(负面、中性、正面),代表了消费者对该属性的满意程度。此外,多个属性特征可以归入某一个属性种类,例如外观、盒子等属性特征均可归入包装这个属性种类。参赛队伍最终需提交对测试数据的抽取预测信息,包括属性特征词、观点词、观点极性和属性种类4个字段。
Scientific Document Summarization Corpus and Annotations from the WING NUS group
链接
数据集更新日期:2019-03-19
数据集提供者
Jaidka
许可
说明
数据集包括ACL计算语言学和自然语言处理研究论文,以及各自的引用论文和三个输出摘要:传统作者的论文摘要(摘要)、社区摘要(引用语句“引文”的收集)和由训练有素的注释员撰写的人类摘要,训练集包含40篇文章和引用论文。
DUC/TAC
链接
数据集更新日期:2014-09-09
数据集提供者
NIST
许可
说明
全称Document Understanding Conferences/Text Analysis Conference,数据集来源于每年的TAC KBP(TAC Knowledge Base Population)比赛使用的语料库中的新闻专线和网络文本。
神策杯2018
链接
数据集更新日期:2018-10-11
数据集提供者
DC竞赛主办方
许可
说明
数据来源于新闻文本,由DC竞赛主办方提供,模拟业务场景,以新闻文本的核心词提取为目的,最终结果达到提升推荐和用户画像的效果。
中科大新闻分类语料库
链接
数据集更新日期:2017-11
数据集提供者
刘禹 中国科学院自动化研究所综合信息中心
许可
说明
暂时不能下载,已经联系作者,等待反馈
百科类问答json版(baike2018qa)
链接
数据集更新日期:2018
数据集提供者
徐亮
许可
说明
可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建 更好句子表示的模型、句子相似性任务等。
NLPCC2017 Task3
链接
数据集更新日期:2017-11-08
数据集提供者
NLPCC2017主办方
许可
说明
数据集来源于新闻领域,是NLPCC2017举办提供的任务数据,可用于单文本摘要。
ChineseTextualInference
链接
数据集更新日期:2018-12-15
数据集提供者
刘焕勇,中国科学院软件研究所
许可
说明
中文文本推断项目,包括88万文本蕴含中文文本蕴含数据集的翻译与构建,基于深度学习的文本蕴含判定模型构建
教育培训行业抽象式自动摘要中文语料库
链接
数据集更新日期:2018-06-05
数据集提供者
匿名
许可
说明
语料库收集了教育培训行业主流垂直媒体的历史文章,约24500条数据,每条数据包括由作者标注的摘要和正文两个字段。
2019搜狐校园算法大赛
链接
数据集更新日期:2019
数据集提供者
搜狐
许可
说明
给定若干文章,目标是判断文章的核心实体以及对核心实体的情感态度。每篇文章识别最多三个核心实体,并分别判断文章对上述核心实体的情感倾向(积极、中立、消极三种)。实体:人、物、地区、机构、团体、企业、行业、某一特定事件等固定存在,且可以作为文章主体的实体词。核心实体:文章主要描述、或担任文章主要角色的实体词。
The AQUAINT Corpus of English News Text
链接
数据集更新日期:2002-09-26
数据集提供者
David Graff
许可
说明
数据集由新华社(中华人民共和国)、纽约时报新闻服务和美联社世界新闻服务的英文新闻文本数据组成,包含大约3.75亿字。数据集收费。
搜狐新闻数据(SogouCS)
链接
数据集更新日期:2012-08
数据集提供者
搜狗
许可
说明
数据来源为搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据