网站名称需要注册吗,科技有限公司简介,成都没有做网站的公司,黄页网站大全在线看免费GLUE数据集合 1、 CoLA数据集 CoLA(The Corpus of Linguistic Acceptability#xff0c;语言可接受性语料库)#xff0c;单句子分类任务#xff0c;语料来自语言理论的书籍和期刊#xff0c;每个句子被标注为是否合乎语法的单词序列。本任务是一个二分类任务#xff0c;标…GLUE数据集合 1、 CoLA数据集 CoLA(The Corpus of Linguistic Acceptability语言可接受性语料库)单句子分类任务语料来自语言理论的书籍和期刊每个句子被标注为是否合乎语法的单词序列。本任务是一个二分类任务标签共两个分别是0和1其中0表示不合乎语法1表示合乎语法。
样本个数训练集8, 551个开发集1, 043个测试集1, 063个。任务可接受程度合乎语法与不合乎语法二分类。CoLA数据集的任务类型:
二分类任务 评估指标为: MCC(马修斯相关系数, 在正负样本分布十分不均衡的情况下使用的二分类评估指标) 2、SST-2数据集 SST-2(The Stanford Sentiment Treebank斯坦福情感树库)单句子分类任务包含电影评论中的句子和它们情感的人类注释。这项任务是给定句子的情感类别分为两类正面情感positive样本标签对应为1和负面情感negative样本标签对应为0并且只用句子级别的标签。也就是本任务也是一个二分类任务针对句子级别分为正面和负面情感。
样本个数训练集67, 350个开发集873个测试集1, 821个。
任务情感分类正面情感和负面情感二分类。
评价准则accuracy。
SST-2数据集的任务类型:
二分类任务 评估指标为: ACC 3、MRPC数据集 MRPC(The Microsoft Research Paraphrase Corpus微软研究院释义语料库)相似性和释义任务是从在线新闻源中自动抽取句子对语料库并人工注释句子对中的句子是否在语义上等效。类别并不平衡其中68%的正样本所以遵循常规的做法报告准确率accuracy和F1值。
样本个数训练集3, 668个开发集408个测试集1, 725个。
任务是否释义二分类是释义不是释义两类。
评价准则准确率accuracy和F1值。 4、STS-B数据集 STSB(The Semantic Textual Similarity Benchmark语义文本相似性基准测试)相似性和释义任务是从新闻标题、视频标题、图像标题以及自然语言推断数据中提取的句子对的集合每对都是由人类注释的其相似性评分为0-5(大于等于0且小于等于5的浮点数原始paper里写的是1-5可能是作者失误。任务就是预测这些相似性得分本质上是一个回归问题但是依然可以用分类的方法可以归类为句子对的文本五分类任务。
样本个数训练集5, 749个开发集1, 379个测试集1, 377个。
任务回归任务预测为1-5之间的相似性得分的浮点数。但是依然可以使用分类的方法作为五分类。
评价准则Pearson and Spearman correlation coefficients。 5、QQP数据集 QQP(The Quora Question Pairs, Quora问题对数集)相似性和释义任务是社区问答网站Quora中问题对的集合。任务是确定一对问题在语义上是否等效。与MRPC一样QQP也是正负样本不均衡的不同是的QQP负样本占63%正样本是37%所以我们也是报告准确率和F1值。我们使用标准测试集为此我们从作者那里获得了专用标签。我们观察到测试集与训练集分布不同。
样本个数训练集363, 870个开发集40, 431个测试集390, 965个。
任务判定句子对是否等效等效、不等效两种情况二分类任务。
评价准则准确率accuracy和F1值。 6、(MNLI/SNLI)数据集 MNLI(The Multi-Genre Natural Language Inference Corpus, 多类型自然语言推理数据库)自然语言推断任务是通过众包方式对句子对进行文本蕴含标注的集合。给定前提premise语句和假设hypothesis语句任务是预测前提语句是否包含假设蕴含, entailment与假设矛盾矛盾contradiction或者两者都不中立neutral。前提语句是从数十种不同来源收集的包括转录的语音小说和政府报告。
样本个数训练集392, 702个开发集dev-matched 9, 815个开发集dev-mismatched9, 832个测试集test-matched 9, 796个测试集test-dismatched9, 847个。因为MNLI是集合了许多不同领域风格的文本所以又分为了matched和mismatched两个版本的数据集matched指的是训练集和测试集的数据来源一致mismached指的是训练集和测试集来源不一致。
任务句子对一个前提一个是假设。前提和假设的关系有三种情况蕴含entailment矛盾contradiction中立neutral。句子对三分类问题。
评价准则matched accuracy/mismatched accuracy。 7、(QNLI/RTE/WNLI)数据集 QNLI(Qusetion-answering NLI问答自然语言推断)自然语言推断任务。QNLI是从另一个数据集The Stanford Question Answering Dataset(斯坦福问答数据集, SQuAD 1.0)[3]转换而来的。SQuAD 1.0是有一个问题-段落对组成的问答数据集其中段落来自维基百科段落中的一个句子包含问题的答案。这里可以看到有个要素来自维基百科的段落问题段落中的一个句子包含问题的答案。通过将问题和上下文即维基百科段落中的每一句话进行组合并过滤掉词汇重叠比较低的句子对就得到了QNLI中的句子对。相比原始SQuAD任务消除了模型选择准确答案的要求也消除了简化的假设即答案适中在输入中并且词汇重叠是可靠的提示。
样本个数训练集104, 743个开发集5, 463个测试集5, 461个。
任务判断问题question和句子sentence维基百科段落中的一句是否蕴含蕴含和不蕴含二分类。
评价准则准确率accuracy。
RTE(The Recognizing Textual Entailment datasets识别文本蕴含数据集)自然语言推断任务它是将一系列的年度文本蕴含挑战赛的数据集进行整合合并而来的包含RTE1[4]RTE2RTE3[5]RTE5等这些数据样本都从新闻和维基百科构建而来。将这些所有数据转换为二分类对于三分类的数据为了保持一致性将中立neutral和矛盾contradiction转换为不蕴含not entailment。
样本个数训练集2, 491个开发集277个测试集3, 000个。
任务判断句子对是否蕴含句子1和句子2是否互为蕴含二分类任务。
评价准则准确率accuracy。
WNLI(Winograd NLIWinograd自然语言推断)自然语言推断任务数据集来自于竞赛数据的转换。Winograd Schema Challenge[6]该竞赛是一项阅读理解任务其中系统必须读一个带有代词的句子并从列表中找到代词的指代对象。这些样本都是都是手动创建的以挫败简单的统计方法每个样本都取决于句子中单个单词或短语提供的上下文信息。为了将问题转换成句子对分类方法是通过用每个可能的列表中的每个可能的指代去替换原始句子中的代词。任务是预测两个句子对是否有关蕴含、不蕴含。训练集两个类别是均衡的测试集是不均衡的65%是不蕴含。
样本个数训练集635个开发集71个测试集146个。
任务判断句子对是否相关蕴含和不蕴含二分类任务。
评价准则准确率accuracy。