当前位置: 首页 > news >正文

无锡建设网站找哪家wordpress熊掌号自动推送

无锡建设网站找哪家,wordpress熊掌号自动推送,网站服务器网络,苏州网站开发公司哪里济南兴田德润简介BERT 1.前言 self-supervised learning是一种无监督学习的特殊形式#xff0c;算法从数据本身生成标签或者目标#xff0c;然后利用这些生成的目标来进行学习。#xff08;也就是说数据集的标签是模型自动生成的#xff0c;不是由人为提供的。#xff09;例如#xff0…BERT 1.前言 self-supervised learning是一种无监督学习的特殊形式算法从数据本身生成标签或者目标然后利用这些生成的目标来进行学习。也就是说数据集的标签是模型自动生成的不是由人为提供的。例如可以通过在图像中遮挡一部分内容来创建自监督任务让模型预测被遮挡的内容。self-supervised learning 应用十分广泛不仅用于文字方面还可以用于语音和图像上。 self-supervised Learning 自监督学习的一些模型如下 ELMOEmbeddings from Language Models— 最原始的 BERTBidirectional Encoder Representations from Transformers ERNIEEnhanced Representation through Knowledge Integration Big BirdTransformers for Longer Sequences GPT-3 — 有 175 billion 个参数 2.BERT结构 BERT 是一个非常巨大的模型有340 million 个参数。BERT的架构就是 Transformer 的 Encoder 部分self-attentionresidualnormalization。 训练BERT有俩种方式Masking Input 和 Next Sentence Prediction 1.Masking Input BERT 的输入某些部分被随机的盖住盖住有两种方式随机的选择一种盖住方式 MASK将句中的一些符号换为MASK符号。这个MASK是一个新的符号字典中没有的表示盖住Random随机把某一个字换为另外一个字随机从字典中挑选一个词盖住。 输入通过BERT后就得到了对应的Sequence但是只关注输入被盖住所输出的 vector然后通过Linear transformerLinear transformer的意思就是乘以一个矩阵并进行Softmax就可以得到一个有关所有符号的概率分布。在训练的时候将真实值与预测出来的值进行对比通过minimize cross entropy不断缩小损失进而提升模型的ACU。 2.Next Sentence Prediction 从资料库里面随机选两个句子在句子中间加入一个特殊符号 [SEP] 来代表分割。在最前面加入一个特别的符号 [CLS]。将这个整体送入BERT中在得到的sequence中只关注 [CLS] 对应输出的vector。然后经过一个Linear transformer来进行一个二元的预测Yes or No表示这两个句子是否是相连接的。 3.Downstream Tasks Downstream tasks就是利用BERT真正做的任务。而不是上面的预测某个Masked token或者判断两句话是否是有连接关系的任务。 BERT 分化为各种任务叫做Fine-tune中文叫做微调。产生BERT的过程叫做 Pre-train。 3.1 Sentiment analysis BERT初始化用的参数是pre-train的初始化参数也就是用于填空任务的参数Linear用的参数是Random初始化参数。 3.2 POS tagging词性标注 3.3 NLI自然语言推理 3.4 Extraction-based Question Answering 上面的那两个向量是随机初始化的BERT初始化依旧是利用pre-train的参数。 4.为什么BERT有用 BERT输出的向量代表了输入的意思。具有相似含义的符号输出具有相似的嵌入向量。而且在输出的时候还考虑了上下文因为内部有一个self-attention的结构。 5.Multi-lingual BERT Multi-lingual BERT是一个多语言的BERT模型再训练BERT的时候是通过许多不同的语言训练出来的。尽管是不同语言但是每个词的意思是相近的所以输出的嵌入向量距离就很近因此效果较好。 6.GPT BERT做的是填空题GPT做的就是预测接下来出现的token是什么。 首先给一个开始标记然后通过Linear Transform输出一个embedding向量h1然后经过Softmax得到一个概率分布概率最大的就是下一个token的值。在训练的时候GPT类似于transformer的decoder不看右边的输入下一次将和台输入进去重复上面的过程。 本文是根据台大李宏毅教授的BERT课程所做的笔记有想学习的小伙伴大家直接去看这个课程就可以了。点击跳转 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
http://www.hkea.cn/news/14329196/

相关文章:

  • 无锡网站制作启航好微信公众号怎么创建多少钱
  • 网站建设的资金风险网络营销推广套餐
  • windows2008 iis 网站计算机培训机构排名最新
  • 工业设计网站设计想在网站里添加超链接怎么做
  • 网站参数杭州尚层别墅装饰公司
  • 做的网站空白了使用php做的学校网站吗
  • 百度网站链接wordpress 导航栏
  • 如何建立网站销售平台关键词林俊杰在线听免费
  • 网站产品整合推广广告设计专业可以考什么证
  • 网络文化有限公司网站建设策划书长春公司网站模板建站
  • 怎么做一元抽奖网站网站建设网上接单
  • 生态建设网站建设英文网站费用
  • 开发游戏怎么赚钱济宁网站建设 优化培训
  • 国内10大网站建设公司seo排名点击器原理
  • 高权重网站 内页做跳转给新网站网站地图定位用什么技术做
  • phpmysql网站开发入门与提高西地那非片有延时效果吗
  • 昆明网站建设高端定制做网站的思想体会
  • 开发一套网站价格社区自助建站网
  • 在哪可以找到做网站的东莞网络推广
  • 96个html静态网站模板打包网站建设价格是多少
  • 在线制作网站地图网站建设维护学习
  • 新乡网站建设找哪家网站建设 自学 电子版 pdf下载
  • 渭南定制网站建设公司股票交易系统
  • 无忧网站建设推荐网站建设方案书是什么意思
  • 电商网站 解决方案实力app开发公司
  • wordpress制作分销网站网站毕业设计模板
  • 群晖wordpress站点地址网站建设现在主要做些什么
  • 哪里有营销型网站制作jsp网站开发典型模块与实例精讲
  • 网站服务器慢优化大师win7官方免费下载
  • 杭州网站设计精选柚v米科技做县城门户网站