当前位置: 首页 > news >正文

正在建设中的网站可算违规用php做的网站论文

正在建设中的网站可算违规,用php做的网站论文,租房网站开发需求文档,简述网站建设优劣的评价标准模型输入无标签文本#xff08;Text without annotation#xff09;#xff0c;通过消耗大量计算资源预训练#xff08;Pre-train#xff09;得到一个可以读懂文本的模型#xff0c;在遇到有监督的任务是微调#xff08;Fine-tune#xff09;即可。 最具代表性是BERTText without annotation通过消耗大量计算资源预训练Pre-train得到一个可以读懂文本的模型在遇到有监督的任务是微调Fine-tune即可。 最具代表性是BERT预训练模型现在命名基本上是源自于动画片《芝麻街》。 芝麻街人物 经典的预训练模型 ELMo:Embeddings from Language ModelsBERT:Bidirectional Encoder Representations from Transformers华丽分割线命名逐渐开始离谱ERNIE:Enhanced Representation through Knowledge IntegrationGrover:Generating aRticles by Only Viewing mEtadaya Records 一、pre-train model 是什么 一预训练概念 预训练模型的概念并不是由BERT时才出现。 预训练的任务一般是实现 词语token - 词向量embedding vector, vector中包含token的语义比如我们语文中常学习的近义词语义相近那么要求其词向量也应该近似。 二多语义多语境 存在的问题同一个token就可以指代同一个vector。解决方法Word2vec、Glove... 但是语言有无穷尽的词语咱们现在就一直在创造新词语如 “雪糕刺客”、“栓Q”等等新兴词汇不断迭代更新一个新的词汇就要增加一个向量显然是不太OK的。 那么研究者就想到可以将词语再分英文可以拆分为字符FastText中文可以拆分为单个字或者将一个中文字看作一张图片输入CNN等模型可以让模型学习到字的构成。 但分解为单个character后面临的就是语义多意的问题“养只狗”、“单身狗”其中的“狗”都是狗但是我们知道两个“狗”其实是不同的然鹅他们又不能完全分开毕竟都用了一个字其实咱们是将考虑到其语义的。 考虑上下文后就诞生了语境词向量Contextualized Word Embedding输入模型的是整个句子模型会阅读上下文而不是仅仅考虑单个token考虑语境后得到一个词向量表示。【Encoder行为】 语境词向量的模型一般模型会由多层组成层结构常使用LSTM、Self-attention layers或者一些Tree-based model与文法相关。但Tree-base Model经过检验效果不突出在文法结构严谨解决数学公式时效果突出。 李老师列举了“苹果”在10个句子中的向量表示两两计算相似度得到一个10*10的混淆矩阵。可以明显观察到水果苹果和苹果公司两个苹果语义有所区别。 预训练模型训练参数逐渐增加网络结构逐渐复杂各个公司都争相发布“全球最大预训练模型”。 三穷人的BERT 预训练模型参数量大在训练时会消耗大量计算资源都是一些互联网公司在做像我们这些“穷人”没有那么大的GPU算力就会搞一些丐版BERT。 举例 Distill BERT [1910.01108] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter (arxiv.org)​arxiv.org/abs/1910.01108 Tiny BERT [1909.10351v5] TinyBERT: Distilling BERT for Natural Language Understanding (arxiv.org)​arxiv.org/abs/1909.10351v5 Mobile BERT [2004.02984] MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices (arxiv.org)​arxiv.org/abs/2004.02984 ALBERT(相比于原版BERT, 12层不同参数ALBERT12层参数完全一致效果甚至超过原版BERT一点点) [1909.11942] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations (arxiv.org)​arxiv.org/abs/1909.11942 模型压缩技术网络剪枝Network Pruning、知识蒸馏Knowledge Distillation、参数量化Parameter Quantization、架构设计Architecture Design 四架构设计Architecture Design 在该领域架构设计的目标意在处理长文本语句。 典型代表读者可以自行检索学习 Transformer-XL: Segment-Level Recurrence with State Reuse [1901.02860] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context (arxiv.org)​arxiv.org/abs/1901.02860 Reformer [2001.04451] Reformer: The Efficient Transformer (arxiv.org)​arxiv.org/abs/2001.04451 Longformer [2004.05150] Longformer: The Long-Document Transformer (arxiv.org)​arxiv.org/abs/2004.05150 Reformer和Longformer意在降低Self-attention的复杂度。 二、怎么做 Fine-tune 预训练微调范式是现在的主流形式我们可以拿到大公司训练好的大模型只需要根据自己的下游任务加一些Layer就可以应用某一个具体的下游任务上。 预训练微调效果的实现需要预训练模型针对该问题进行针对性设计。 一Input Output 这里总结了NLP Tasks的常见输入输出。 Input one sentence: 直接丢进去。multiple sentences: Sentence1 SEP Sentence2, 句子分割。Ouput: one class: 加一个 CLS或者直接将所有Embedding表示接下游任务分类class for each tokencopy from input: 可以解决阅读理解问题QA。General Sequence: 用到Seq2Seq Model v1将预训练模型看作Encoder将下游任务模型看作Decoder。v2给出一个特别符号 SEP得到字符再输入到预训练模型让预训练模型encoder-decoder。 二How to fine-tune 如何微调也有两种一种是冻结预训练模型只微调下游任务对应的Task-specific部分另一种是连同预训练模型将整体网络结构进行参数微调预训练模型参数不是随机初始化可以有效避免过拟合。 Adaptor 考虑到模型巨大微调代价太大且消耗存储大。引入Apt只微调Pre-train Model中的一部分Apt。这样只需要存储Apt和Task specific. 此处举一个例子。 现在很多预训练模型中都是使用了Transformer的结构研究者在Transformer结构中插入Adaptor层通过训练微调Adaptor而不去修改其他已经训练好的参数。 三、Why Pre-train Models 研究者提出了GLUE指标用来衡量机器与人在不同语言任务上的表现随着深度学习的发展预训练模型的迭代更新现在预训练模型使得模型效果已经同人类水平相差无几。 四、Why Fine-tune? EMNLP19年刊发的一篇文章做了分析在网络模型上fine-tune与否Training Loss变化是不同的。 在有Fine-tune的情况下Training Loss可以很好的实现收敛而从头训练则会出现较大的波动。 同时考虑泛化能力因为基于预训练模型将Training Loss降低到很低有没有可能是过拟合导致的。海拔图可以表示如果海拔图中变化越陡峭模型泛化能力越差变化越平稳模型泛化能力越强。
http://www.hkea.cn/news/14501141/

相关文章:

  • 做p2p网站 预算多少郓城网站建设
  • 免费发布产品信息网站大企业网站制作及维护
  • 国内响应式网站模板乐清新闻综合频道直播
  • 急求聊城网站建设黑群晖可以做网站吗
  • 网站如何做漂浮窗网站建设工具品牌
  • 吉林省住房和城乡建设厅网站申报福州网站快速排名提升
  • wordpress的网站是php的代码北京知名vi设计公司
  • 网站用什么系统好用企业融资的主要方式
  • 怎么对一个产品进行网络营销站长工具seo综合查询外部链接数量
  • 建设网站哪个公司好品牌网站建设4a小蝌蚪
  • 去年做那些网站能致富手机好看的网站
  • 在线制作wap网站秦皇岛有能做网页的地方吗
  • 东莞企业怎么做网站建设承德公司做网站
  • 网站改版需要注意什么wordpress 显示评论内容
  • 网站建设中倒计时源码wordpress安装好了怎么登陆网站
  • wordpress 展示类主题属于网站seo分析什么软件
  • 外贸五金网站wordpress preg_replace 关键词 alt
  • wordpress网站换主机搜索引擎收录查询
  • wordpress站点网站地图网站如何与域名绑定
  • 做外汇模拟的网站深圳深圳网站建设
  • 网站建设阿华seo4a网站建设公司
  • 做画册好的网站厦门建设局官网
  • 吉林省住房和城乡建设部网站建设银行安徽分行招聘网站
  • ps做网站要求高吗学校做网站需要多少钱
  • 网站建设文化包括哪些个人养老金制度是什么意思
  • 做网站需要拉多大的宽带网站建设 电话营销
  • 淘宝客网站建设网站建设的进度计划书
  • 泉州专业制作网站开发利用数据库修改wordpress密码
  • 律所网站建设建议当前最好用的wordpress主题
  • 百度不收录网站文章中国中建设计网站