当前位置：首页 > news >正文

建站seo推广附近电脑平面设计培训班

news 2026/4/16 0:25:47

建站seo推广,附近电脑平面设计培训班,网站源码素材,服装定制价格本文为转载博文#xff0c;原文地址: https://www.jianshu.com/p/09b70253c840 请听题#xff1a;什么是熵#xff1f;什么是交叉熵#xff1f;什么是联合熵#xff1f;什么是条件熵#xff1f;什么是相对熵#xff1f;它们的联系与区别是什么#xff1f; 如果你感到回…本文为转载博文原文地址: https://www.jianshu.com/p/09b70253c840 请听题什么是熵什么是交叉熵什么是联合熵什么是条件熵什么是相对熵它们的联系与区别是什么如果你感到回答这些问题有些吃力对这些概念似乎清楚似乎又没有那么明白那这篇文章就是为你准备的。 1 从随机变量说起假设有一枚硬币将其抛出落下后朝上的面为y。这里的y是对未知量的一个表示。但它的值却是不确定的可能取正面和反面两个值。类似的不确定变量还有好多比如说将人的身高设为z,z中也包含了不确定性因为不同的人身高是不一样的。这类包含不确定性的变量我们称为随机变量。统计学就是研究这类不确定性变量的工具。刻画随机变量最有力的一个工具就是它的概率分布。关于什么是概率分布这里就不多说了可以百度百科。有了概率分布我们可以说对一个随机变量有了完全的掌握因为我们可以知道它可能取哪些值某个值的概率是多少。以上是对基础知识的简单复习下面开始进入正题。2 什么是熵上面我们知道概率分布是对随机变量的刻画不同的随机变量有着相同或不同的概率分布熵就是对不同概率分布的刻画为什么我们还需要对不同的概率分布进行刻画本质上是为了描述不确定的程度并以此对不同的概率分布进行比较。请允许我举个栗子。假如我告诉你我有两枚硬币一个上抛一次正面朝上概率是0.5,另一个是0.8。此时假设两枚硬币上抛一次落下后朝上的面分别是x,y。此时我们可以很容易确定随机变量x,y的概率分布并借此对两个随机变量有准确的掌握。但我们要问这两个随机变量哪个更随机或者说哪个随机变量包含的不确定性更大如果发挥直觉我们可以感觉到正面朝上概率为0.8的概率分布不确定性小于正面朝上概率为0.5的不确定性。进一步思考我们为什么会有这样的直觉因为我们是从“使用”概率分布的角度来思考问题的。也就是说如果我们知道一枚硬币抛出后正面朝上概率为0.8要比知道概率为0.5更容易猜对硬币抛出后哪面朝上。换句话说0.8的概率分布比0.5的概率分布对我们来说具有更大的信息量。现在我们对概率分布中的不确定性有了感性的认识现在需要的是一个定量的指标来衡量这个不确定性。想必你已经猜到了这个指标就是熵。 3 熵的数学表达熵应该是什么样子才能表达出概率分布中的不确定性呢为了解决这个问题我们来考察一下概率分布中的某个取值以抛硬币为例我们看正面这个取值。可以看到取正面的概率越大则不确定性就越小。概率越大不确定性越小请把这句话在心中默念三遍。能够表达出概率越大不确定性越小的表达式就是-logP为了让大家有一个感性的认识我特意画了一个图上图中的纵轴为-logP横轴为P。然后我们继续思考上面的-logP只是衡量了某个概率的不确定性一个概率分布包含多个概率而且概率相加等于1一个概率大必然会有其他的概率小。还是以抛硬币为例0.8概率的正面不确定性固然很小但同时会造成反面的概率为0.2不确定性比较大。这意味着我们猜对一次抛硬币正面朝上的难度比较小但要猜对一次反面朝上的难度就比较大。很显然我们要衡量一个概率的分布的不确定性就要综合衡量所有概率表达的不确定性。也就是求一个概率分布综合的不确定性。当当当当当熵正式出场-∑PlogP这个指标可以理解成概率分布的不确定性的期望值。这个值越大表示该概率分布不确定性越大。它为我们人类提供的“信息”就越小我们越难利用这个概率分布做出一个正确的判断。从这个角度我们可以看到熵是对概率分布信息含量的衡量这与它是不确定性的衡量其实是两种解读方式而已。 4 伯努利分布的熵对于抛硬币判正反面来说它的概率分布是伯努利分布我们假设正面朝上的概率为p则反面朝上的概率为1-p)它的熵就是H(p) -plogp -(1-p)log(1-p)我们把它画出来就是这样。可以看到p0.5时伯努利分布的熵达到最大。这与我们的经验常识一致因为此时硬币朝上还是朝下完全是随机的不确定性最大。当p趋向于0时熵也趋向于0举个极端例子如果硬币以概率1正面朝上概率0反面朝上则完全没有不确定性所以熵就是0因为熵是对不确定性的一个测量。再来思考一个问题我们说熵是描述不确定性的在概率论中不是有一个方差可以用来描述变量变化程度的吗它和熵是什么关系呢直觉上方差越大不确定性就越大熵就应该越大事实上确实如此请看下图 variance_entropy 对我们投硬币的伯努利分布方差pq的最大值在p0.5时取得由上文我们知道这也是熵取得最大值的p值。对于正态分布我们可以看到期望对熵没有影响只有方差才对熵有影响。这于我们的直觉也是相符的。以上我们尽可能从直觉的角度分析出了熵的表达式也查看了几种分布的熵以及它们和该分布的方差的关系发现二者要描述的含义具有内在一致性。至此我们终于可以说一窥熵的庐山真面目了。下面我们开始讨论由熵引出的各种其他熵也就是本文文首提出的那些。 5 联合熵虽然文首提出了那么多熵但它们之间是有内在联系的所以我们尽可能按照它们的内在关系开展学习先从联合熵说起。联合熵与联合概率分布有关对于随机变量X和Y二者的联合概率分布为p(x,y),则这个联合概率分布的熵就叫做联合熵H(x,y) -Σp(x,y)log(p(x,y))我们假设X和Y都服从伯努利分布且相互独立可以把二者想象为上面的抛硬币这样思考可以有所依托不至于太抽象。X正面朝上的概率为p1Y正面朝上的概率为p2那么它们的联合熵是多少呢显然我们需要找出联合概率分布如下图所示 association 上面就是联合分布自然可以据此算出它的熵由于表达式写出来太麻烦这里就省去了感兴趣的可以自己写一下。我们关心的问题是H(x,y)和H(x),H(y)有什么关系呢这里不想进行繁杂的数学证明而是要继续用我们的直觉来帮助思考。查看上图我们和Y的概率分布进行对比。Y原先只有两个概率p2和(1-p2)联合分布却有四个概率这四个概率又可以认为是将Y的每个概率进行了分拆p2 被分成了p2\*p1和p2\*(1-p1)。也就是说对于Y的每个取值本身就具有一个不确定性(p2)由于要与X联合起来就在每个取值的不确定性上又引入了不确定性不确定性显然是增大了。如果你理解了上面关于熵的含义那么不难想出H(x,y)肯定是大于等于H(x)和H(y)的。仅当X没有不确定性时比如永远是正面朝上此时在Y的基础上联合X并没有引入新的不确定性所以H(x,y)H(y)。以上我们没有运用数学仅仅依靠感性直觉的思考就确定了联合熵的一些性质可见善于运用直觉是很重要的。 6 条件熵现在我们知道x,y的联合熵大于等于x和y单独的熵对于y来说引入的x增大了熵那么x的引入增加了多大的熵呢这就是条件熵。H(x|y) H(x,y) - H(y)这里有一个容易搞错的地方H(x|y)叫做条件熵它可不是条件概率p(x|y)的熵。为啥因为p(x|y)压根就不是一个概率分布还是以上面的两枚硬币为例我们来计算一下p(x|y),注意我们的例子中**假设xy是相互独立的**。 condition 可见所有的P(x|y)相加是2根本就不是一个概率分布。有人可能会说那为什么要叫条件熵这不是故意误导人吗这是因为条件熵的计算和条件概率还是有点关系的。如下H(x|y) - Σp(x,y)log(p(x|y))这个公式可以由上面的熵的定义和条件熵的定义推导得出这里就不推导了感兴趣的可以自己推导下并不难。这里我们再分析一下条件熵H(x|y)与H(x)的关系仍然用直觉法。条件熵是在Y上引入X后增加的不确定性从感觉上增加的不确定性无论如何不可能大于X本身自有的不确定性也就是H(x|y) H(x)仅当xy相互独立时等号才成立。这个结论是我们感性认识到的事实上也可以进行证明得到。学习过《统计学习方法》的同学肯定对里面的信息增益概念有所了解其实我们仍然可以用直觉来理解这个概念。不过我们需要换种方式解读H(x|y) H(x)之前我们得出这个结论是说Y上引入的X增加的不确定性不能大于X本身的不确定性。换个角度X原有的不确定性是H(x)现在我们引入Y得到了联合的不确定性H(x,y)从这个不确定性中减去Y自身带来的不确定性H(Y)剩下的就是H(x|y),这个值小于等于H(x)说明什么说明由于Y的引入X的不确定性变小了不确定性变小就是信息含量的增加。不确定性变小的多少就是信息增益gain(X) H(x) - H(x|y)信息增益也叫做互信息。二者完全一样。 Note:这里简单说下我对李航书的看法一句话不适合用来入门只适合用来提高和面试准备。我意见比较大的是对逻辑回归的推导不优雅。回头我会专门写一篇逻辑回归的推导文章。 7 相对熵又叫互熵KL散度把相对熵放到最后来讲是因为它和前面的几个概念联系不大。假设我们有如下5个样本 huxinxi 我们要以此推导出标签的真实分布。假设标签的真实分布是q(x)x取值为1和-1为了确定q(x)在x1和x-1处的值我们当然要运用最大似然法则。最大似然函数是q(x1)\*q(x1)\*q(x-1)\*q(x-1)\*q(x-1)如果你最大似然函数理解上有困难建议补充一下这方面的知识因为这个知识点在机器学习中运用的太多确实无法绕过逻辑回归本质上也是用的最大似然函数。对上面的式子做合并处理得到q(x1)^2\*q(x-1)^3进一步对上面的式子开5次方得到q(x1)^(2/5)\*q(x-1)^(3/5)假设p(x)就是由样本中统计出来的标签分布2/5就是p(x1)3/5就是p(x-1)所以对上面的式子进行规整就得到最大似然函数最终表达式Πq(x)^(p(x))再取对数就是Σp(x)log(q(x))再取负号就是d -Σp(x)log(q(x))最大化似然函数就是最小化d。心急的朋友可能在想说了半天互熵到底是啥现在就给出定义D(q||p) d - H(p)这里的d就是我们上面得到的d。互熵描述的是什么呢如何从直觉上进行理解毕竟上面用最大似然推出互熵还是有点太数学了。这里我们需要观察一下d假设q和p完全相同那么d就是H(p),互熵D也就等于0了。同理q和p越接近越相同则D就越小。互熵D(q||p)实际上就是在衡量我们通过计算得出的真实分布的表达式q究竟与由样本统计得来的分布p有多接近在衡量多接近这个概念时我们运用到了熵的形式。 8 交叉熵交叉熵放到最后因为它最简单它就是上面得出的d我们可以体会一下为什么叫做交叉熵交叉是什么含义d -Σp(x)log(q(x))原本p的熵是-Σp(x)log(p(x))q的熵是-Σq(x)log(q(x))现在把p熵的log成分换成q(x), q熵的log成分换成p(x),这里做了一个“交叉”就是d -Σp(x)log(q(x)) d2 -Σq(x)log(p(x)) d 就是p和q的交叉熵d2就是q和p的交叉熵。从中我们也体会到交叉熵是不满足交换律的也就是说p和q的交叉熵与q和p的交叉熵是不一样的。 9 无总结不进步以上是我对各种熵的概念的一些理解和感悟分享出来希望能够帮助到需要的朋友当然由于是个人理解难免有不到位甚至错误的地方还望各路大神多多批评指正

查看全文

http://www.hkea.cn/news/14281121/