当前位置: 首页 > news >正文

网站建设国家和行业标准移动互联网开发的发展历史

网站建设国家和行业标准,移动互联网开发的发展历史,常德网站网站建设,安阳网站自然优化文章目录 LDA主题数困惑度1.概率分布的困惑度2.概率模型的困惑度3.每个分词的困惑度 LDA主题数 LDA作为一种无监督学习方法#xff0c;类似于k-means聚类算法#xff0c;需要给定超参数主题数K#xff0c;但如何评价主题数的优劣并无定论#xff0c;一般采取人为干预、主题… 文章目录 LDA主题数困惑度1.概率分布的困惑度2.概率模型的困惑度3.每个分词的困惑度 LDA主题数 LDA作为一种无监督学习方法类似于k-means聚类算法需要给定超参数主题数K但如何评价主题数的优劣并无定论一般采取人为干预、主题困惑度preplexing和主题一致性得分coherence score本文介绍困惑度。 困惑度 在信息论中perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型。低困惑度的概率分布模型或概率模型能更好地预测样本。 1.概率分布的困惑度 定义离散概率分布的困惑度如下 其中H§是概率分布p的熵x是样本点。因此一个随机变量X的困惑度是定义在X的概率分布上的X所有可能取值为x的部分。译者x不能包含零测集的点不然p(x)logp(x)没定义 一个特殊的例子是k面均匀骰子的概率分布它的困惑度恰好是k。一个拥有k困惑度的随机变量有着和k面均匀骰子一样多的不确定性并且可以说该随机变量有着k个困惑度的取值k-ways perplexed。在有限样本空间离散随机变量的概率分布中均匀分布有着最大的熵 困惑度有时也被用来衡量一个预测问题的难易程度。但这个方法不总是精确的。例如在概率分布B(1,P0.9)中即取得1的概率是0.9取得0的概率是0.1。可以计算困惑度是 同时自然地我们预测下一样本点的策略将是预测其取值为1那么我们预测正确的概率是0.9。而困惑度的倒数是1/1.380.72而不是0.9。但当我们考虑k面骰子上的均匀分布时困惑度是k困惑度的倒数是1/k正好是预测正确的概率 困惑度是信息熵的指数。 2.概率模型的困惑度 用一个概率模型q去估计真实概率分布p那么可以通过测试集中的样本来定义这个概率模型的困惑度。 其中测试样本x1, x2, …, xN是来自于真实概率分布p的观测值b通常取2。因此低的困惑度表示q对p拟合的越好当模型q看到测试样本时它会不会“感到”那么“困惑”。 我们指出指数部分是交叉熵。 ​ 表示我们对真实分布下样本点x出现概率的估计。比如用p(x)n/N 3.每个分词的困惑度 在自然语言处理中困惑度是用来衡量语言概率模型优劣的一个方法。一个语言概率模型可以看成是在整个句子或者文段上的概率分布。 比如i这个句子位置上的概率分布的信息熵可能是190或者说i这个句子位置上出现的句子平均要用190 bits去编码那么这个位置上的概率分布的困惑度就是2(190)。译者相当于投掷一个2(190)面筛子的不确定性通常我们会考虑句子有不同的长度所以我们会计算每个分词上的困惑度。比如一个测试集上共有1000个单词并且可以用7.95个bits给每个单词编码那么我们可以说这个模型上每个词有2^(7.95)247 困惑度。相当于在每个词语位置上都有投掷一个247面骰子的不确定性。 在Brown corpus (1 million words of American English of varying topics and genres) 上报告的最低的困惑度就是247per word使用的是一个trigram model三元语法模型。在一个特定领域的语料中常常可以得到更低的困惑度。 要注意的是这个模型用的是三元语法。直接预测下一个单词是the的正确率是7%。但如果直接应用上面的结果算出来这个预测是正确的概率是1/2470.4%这就错了。译者不是说算出来就一定是0.4%而是说这样算本身是错的因为直接预测下一个词是”the“的话我们是在使用一元语法而247是来源于三元语法的。当我们在使用三元语法的时候会考虑三元语法的统计数据这样做出来的预测会不一样并且通常有更好的正确率。
http://www.hkea.cn/news/14362222/

相关文章:

  • Wordpress网站仿站杭州网站建设及推广
  • 如何在百度里做推广网站wordpress演示数据下载
  • 丹江口网站制作图片制作视频的app
  • 详细描述建设一个网站的具体步骤所谓网页制作三剑客不包括
  • 国内永久免费域名申请网站php做网站视频
  • 做网站从何开始公司注册资金实缴新政策出台2024
  • 百度基木鱼建站郑州最好的男科医院是什么医院
  • 郑州建站推广公司求一个做美食视频的网站
  • 绍兴网站建设哪家专业建立网站目录的时候
  • 爱站网注册人查询模板网站怎么做才美观
  • 城乡和住房建设部网站营销宣传方式有哪些
  • 上海做网站开发的公司有哪些哈尔滨信息网招聘
  • 泰安网站建设找工作网站建设挣钱吗
  • 网站开发联系方式北海市网站建设
  • 污网站公司网站中山网站免费制作
  • 自适应网站的图做多大 怎么切莱芜信息平台
  • 广州网站模板建站公司网站开发费用入什么科目
  • 网络科技公司门户网站建筑人才评价网
  • 网站开发合同 doc免费模板
  • 网站分几类wordpress 漏洞检测
  • 做一个展示型网站多少钱软件公司找项目
  • 网上有兼职做数据网站深圳公司注册地址要求
  • 工会网站建设企业网站seo参考文献
  • 国外做的比较好看的网站企业网上年审营业执照
  • 大腕 网站建设网页动效 wordpress
  • dedecms模板站外包制作app
  • 金融网站开发抖音代运营有效果吗
  • 二级学院网站建设自评报告西安网络推广网站优化
  • 南通网站建设企业wordpress二级菜单添加链接
  • 怎么做徐州市环保局网站备案表深圳龙江网站设计