当前位置: 首页 > news >正文

上海手机网站建设电话如何建设一个双语的网站

上海手机网站建设电话,如何建设一个双语的网站,用服务器做网站,wordpress 安全加固机器学习课程学习周报十五 文章目录 机器学习课程学习周报十五摘要Abstract一、机器学习部分1. 统计推断与贝叶斯推断2. GMM和EM算法补充3. 马尔可夫链蒙特卡罗法3.1 蒙特卡罗法3.2 马尔可夫链3.3 Diffusion模型中的马尔可夫链 总结 摘要 本周的学习涵盖了统计推断和贝叶斯推断…机器学习课程学习周报十五 文章目录 机器学习课程学习周报十五摘要Abstract一、机器学习部分1. 统计推断与贝叶斯推断2. GMM和EM算法补充3. 马尔可夫链蒙特卡罗法3.1 蒙特卡罗法3.2 马尔可夫链3.3 Diffusion模型中的马尔可夫链 总结 摘要 本周的学习涵盖了统计推断和贝叶斯推断的基本概念深入探讨了高斯混合模型中的EM算法及其有效性证明。此外还介绍了马尔可夫链蒙特卡罗方法中的蒙特卡罗法及其应用。最后通过Diffusion模型中的马尔可夫链理解了如何实现图像生成的降噪过程。 Abstract This week’s study covered fundamental concepts of statistical and Bayesian inference, with an in-depth exploration of the EM algorithm in Gaussian Mixture Models and its effectiveness. Additionally, the Monte Carlo method within Markov Chain Monte Carlo techniques was introduced and applied. Finally, the denoising process in image generation was understood through the Markov chain in the Diffusion model. 一、机器学习部分 1. 统计推断与贝叶斯推断 统计推断Statistical Inference指的是根据观察样本去推断总体特征即模型/分布的参数它的方法包括参数估计和假设检验等。 贝叶斯推断Bayesian Inference是一种基于贝叶斯定理的统计推断方法它的核心思想是要建立对参数的主观信念“验”并要根据观察去完成从初始信念“先验”到校正信念“后验”的更新。这种主观信念是参数的分布而推断最终还要从后验分布中选择一个确定的参数值。 例如如果取分布最高点的对应参数值通常被称为后验众数就称为极大后验估计MAP, Maximum A Posteriori。 从贝叶斯公式来看 p ( z ∣ x ) p ( z ) ⋅ p ( x ∣ z ) p ( x ) p(z|x) p(z) \cdot \frac{{p(x|z)}}{{p(x)}} p(z∣x)p(z)⋅p(x)p(x∣z)​ z z z是要估计的参数也包括隐变量 p ( z ) p(z) p(z)是先验分布初始信念 p ( z ∣ x ) p(z|x) p(z∣x)是后验分布校正信念。这种校正是通过在先验上乘了一个校正因子 p ( x ∣ z ) p ( x ) \frac{{p(x|z)}}{{p(x)}} p(x)p(x∣z)​得到的。其中分子 p ( x ∣ z ) {p(x|z)} p(x∣z)是条件似然是校正因子的关键部分决定着先验到后验的形状变化而分母 p ( x ) {p(x)} p(x)是边际似然又叫证据因为只跟观察 x x x有关它与我们关心的 z z z无关因此也常被称为归一化因子因为就算我们不去管分母等号左右的函数形状也已经一致只需要把等号右边归一化到积分为1的概率分布即可。不过实际上归一化也并不好计算因为显然我们不知道 x x x的分布而积分 p ( x ) ∫ z p ( x ∣ z ) d z p(x) \int_z {p(x|z)dz} p(x)∫z​p(x∣z)dz又是难以计算的许多方法都试图绕过计算归一化因子这个点如GAN模型。 2. GMM和EM算法补充 为了证明EM算法的迭代是有效的先引入凸函数和琴生不等式的预备知识。 利用GMM中的概率表达式代入EM算法中。 EM算法的第一步E-step求期望 EM算法的第二步M-step求参数的最大条件极值使用拉格朗日乘数法 3. 马尔可夫链蒙特卡罗法 3.1 蒙特卡罗法 蒙特卡罗法Monte Carlo method也称统计模拟方法是通过从概率模型的随机抽样进行近似数值计算的方法。统计学和机器学习的目的是基于数据对概率分布的特征进行推断蒙特卡罗法要解决的问题是假设概率分布的定义已知通过抽样或者概率分布的随机样本并通过得到的随机样本对概率分布的特征进行分析。比如从样本得到经验分布从而估计总体分布或者从样本计算出样本均值从而估计总体期望所以蒙特卡罗法的核心是随机抽样random sampling。 一般的蒙特卡罗法有直接抽样法、接受-拒绝抽样法、重要性抽样法等。接受-拒绝抽样法、重要性抽样法适合于概率密度函数复杂如密度函数含有多个变量各变量相互不独立密度函数形式复杂不能直接抽样的情况。 这里介绍接受-拒绝抽样法accept-reject sampling method随机变量为 x x x其概率密度函数为 p ( x ) p(x) p(x)。目的是得到该概率分布的随机样本以对这个概率分布进行分析。基本思想如下若 p ( x ) p(x) p(x)不可以直接抽样找一个可以直接抽样的分布称为建议分布proposal distribution。假设 q ( x ) q(x) q(x)是建议分布的概率密度函数并且有 q ( x ) q(x) q(x)的 c c c倍一定大于等于 p ( x ) p(x) p(x)其中 c 0 c 0 c0。按照 q ( x ) q(x) q(x)进行抽样假设得到的结果是 x ∗ {x^*} x∗再按照 p ( x ∗ ) c q ( x ∗ ) \frac{{p({x^*})}}{{cq({x^*})}} cq(x∗)p(x∗)​的比例随机决定是否接受 x ∗ {x^*} x∗。 直观上落到 p ( x ∗ ) p({x^*}) p(x∗)范围内的就接受蓝色落到 p ( x ∗ ) p({x^*}) p(x∗)范围外的就决绝红色。接受-拒绝法实际是按照 p ( x ) p(x) p(x)的涵盖面积或涵盖体积占 c q ( x ) {cq({x})} cq(x)的涵盖面积或涵盖体积的比例进行抽样。 接受拒绝法的优点是很容易实现缺点是效率可能不高。如果 p ( x ) p(x) p(x)的涵盖体积占 c q ( x ) {cq({x})} cq(x)的涵盖体积的比例很低就会导致拒绝的比例很高抽样的效率很低。并且落入蓝色范围内的样本不是一定会被接受还要经过随机检验才会被接受。 3.2 马尔可夫链 考虑一个随机变量的序列 X { X 0 , X 1 , ⋯ , X t , ⋯ } X \left\{ {{X_0},{X_1}, \cdots ,{X_t}, \cdots } \right\} X{X0​,X1​,⋯,Xt​,⋯}这里 X t {{X_t}} Xt​表示时刻 t t t的随机变量 t 0 , 1 , 2 , ⋯ t 0,1,2, \cdots t0,1,2,⋯。每个随机变量 X t {{X_t}} Xt​的取值集合相同称为状态空间表示为 S S S。随机变量可以是离散的也可以是连续的。以上随机变量的序列构成随机过程stochastic process。 假设在时刻0的随机变量 X 0 {{X_0}} X0​遵循概率分布 P ( X 0 ) π 0 P\left( {{X_0}} \right) {\pi _0} P(X0​)π0​称为初始状态分布。在某个时刻 t ≥ 1 t \ge 1 t≥1的随机变量 X t {{X_t}} Xt​与前一个时刻的随机变量 X t − 1 {X_{t - 1}} Xt−1​之间有条件分布 P ( X t ∣ X t − 1 ) P({X_t}|{X_{t - 1}}) P(Xt​∣Xt−1​)如果 X t {X_t} Xt​只依赖于 X t − 1 {X_{t - 1}} Xt−1​而不依赖于过去的随机变量 { X 0 , X 1 , ⋯ , X t − 2 } \left\{ {{X_0},{X_1}, \cdots ,{X_{t - 2}}} \right\} {X0​,X1​,⋯,Xt−2​}这一性质称为马尔可夫性即 P ( X t ∣ X 0 , X 1 , ⋯ , X t − 1 ) P ( X t ∣ X t − 1 ) , t 1 , 2 , ⋯ P({X_t}|{X_0},{X_1}, \cdots ,{X_{t - 1}}) P({X_t}|{X_{t - 1}}),t 1,2, \cdots P(Xt​∣X0​,X1​,⋯,Xt−1​)P(Xt​∣Xt−1​),t1,2,⋯ 具有马尔可夫性的随机序列 X { X 0 , X 1 , ⋯ , X t , ⋯ } X \left\{ {{X_0},{X_1}, \cdots ,{X_t}, \cdots } \right\} X{X0​,X1​,⋯,Xt​,⋯}称为马尔可夫链Markov chain或马尔可夫过程Markov process。条件概率分布 P ( X t ∣ X t − 1 ) P({X_t}|{X_{t - 1}}) P(Xt​∣Xt−1​)称为马尔可夫链的转移概率分布。转移概率分布决定了马尔可夫链的特性。 马尔可夫的直观解释是“未来只依赖于现在假设现在已知而与过去无关”。这个假设在许多应用中是合理的。 若转移概率分布 P ( X t ∣ X t − 1 ) P({X_t}|{X_{t - 1}}) P(Xt​∣Xt−1​)与 t t t无关即 P ( X t s ∣ X t − 1 s ) P ( X t ∣ X t − 1 ) , t 1 , 2 , ⋯ , s 1 , 2 , ⋯ P({X_{t s}}|{X_{t - 1 s}}) P({X_t}|{X_{t - 1}}),t 1,2, \cdots ,s 1,2, \cdots P(Xts​∣Xt−1s​)P(Xt​∣Xt−1​),t1,2,⋯,s1,2,⋯ 则称该马尔可夫链为时间齐次的马尔可夫链time homogenous Markov chain 以上定义的是一阶马尔可夫链可以扩展到n阶马尔可夫链满足n阶马尔可夫性 P ( X t ∣ X 0 , X 1 , ⋯ , X t − 2 , X t − 1 ) P ( X t ∣ X t − n , ⋯ , X t − 2 , X t − 1 ) P({X_t}|{X_0},{X_1}, \cdots ,{X_{t - 2}},{X_{t - 1}}) P({X_t}|{X_{t - n}}, \cdots ,{X_{t - 2}},{X_{t - 1}}) P(Xt​∣X0​,X1​,⋯,Xt−2​,Xt−1​)P(Xt​∣Xt−n​,⋯,Xt−2​,Xt−1​) 3.3 Diffusion模型中的马尔可夫链 对于计算机而言实现图像生成一副图像就是一个 H × W × C H \times W \times C H×W×C维的矩阵如何生成这样的一个矩阵Diffusion的做法是先随机创建一个噪点图有没有可能让一幅噪点图变成“米老鼠”呢显然想要做到这点似乎非常困难。 我们换个思路现在假如我们已经有一组噪点图 X T {X_T} XT​和“米老鼠” X 0 {X_0} X0​之间的过渡图片如下 从直觉上来说**将过渡序列中的上一张图片转变成下一张图片显然要比直接从噪点图 变成 “米老鼠”要容易得多。**这个直观的认知其实是Diffusion模型区别于其他生成模型如GAN的特别之处。 由于这个序列当中每一张图都比上一张图要更清晰噪点更少因此我们称这个过程为降噪denoise。 X t → X t − 1 {X_t} \to {X_{t - 1}} Xt​→Xt−1​的降噪过程在概率论中可以通过采样实现。为了从 X t {X_{t}} Xt​采样得到 X t − 1 {X_{t - 1}} Xt−1​我们需要知道条件概率 q ( x t − 1 ∣ x t ) q({x_{t - 1}}|{x_t}) q(xt−1​∣xt​) 假如任意 t 1 , 2 , ⋯ , T t 1,2, \cdots ,T t1,2,⋯,T的 q ( x t − 1 ∣ x t ) q({x_{t - 1}}|{x_t}) q(xt−1​∣xt​)都是已知的。我们记号 ∼ \sim ∼表示“依概率采样”那么将噪点图 X T {X_T} XT​转变为“米老鼠” X 0 {X_0} X0​的整个采样过程可以形式化表示为给定噪点图 X T {X_T} XT​ X T − 1 ∼ q ( x T − 1 ∣ X T ) ⋯ X 2 ∼ q ( x 2 ∣ X 3 ) , X 1 ∼ q ( x 1 ∣ X 2 ) , X 0 ∼ q ( x 0 ∣ X 1 ) {X_{T - 1}} \sim q({x_{T - 1}}|{X_T}) \cdots {X_2} \sim q({x_2}|{X_3}),{X_1} \sim q({x_1}|{X_2}),{X_0} \sim q({x_0}|{X_1}) XT−1​∼q(xT−1​∣XT​)⋯X2​∼q(x2​∣X3​),X1​∼q(x1​∣X2​),X0​∼q(x0​∣X1​) 整个采样过程构成了一个马尔可夫链假如我们有了 q ( x t − 1 ∣ x t ) q({x_{t - 1}}|{x_t}) q(xt−1​∣xt​)这个转移概率就能按步骤将噪点图转化为“米老鼠”所以问题是如何求出 q ( x t − 1 ∣ x t ) q({x_{t - 1}}|{x_t}) q(xt−1​∣xt​)这个函数答案就是机器学习。 机器学习的训练数据是什么虽然“降噪”似乎很难但是添加噪点却挺容易。比如给定一张原始图片 X 0 {X_0} X0​我们总可以通过朝原始图增加噪点生成图片 X 1 {X_1} X1​然后进一步增加噪点直到图片变成一幅完全随机的噪点图 X T {X_{T}} XT​。这个过程也是通过随机过程的采样来实现我们记这个随机过程对应的“转移概率”是 q ( x t ∣ x t − 1 ) q({x_t}|{x_{t - 1}}) q(xt​∣xt−1​)那么整个添加噪点的过程就可以形式化表示为给定米老鼠图 X 0 {X_0} X0​ X 1 ∼ q ( x 1 ∣ X 0 ) , X 2 ∼ q ( x 2 ∣ X 1 ) , X 3 ∼ q ( x 3 ∣ X 2 ) , ⋯ , X T ∼ q ( x T ∣ X T − 1 ) {X_1} \sim q({x_1}|{X_0}),{X_2} \sim q({x_2}|{X_1}),{X_3} \sim q({x_3}|{X_2}), \cdots ,{X_T} \sim q({x_T}|{X_{T - 1}}) X1​∼q(x1​∣X0​),X2​∼q(x2​∣X1​),X3​∼q(x3​∣X2​),⋯,XT​∼q(xT​∣XT−1​) 给定一个图片数据集我们对其中的任一图片进行一次这种采样操作我们就得到了一组连续过渡的图片序列也就是一条训练数据。 总结 本周完善了上周学习的EM算法并且开始学习马尔可夫链蒙特卡罗法马尔可夫链在Diffusion模型中有特别重要的应用。接来的一周将从理论继续学习马尔可夫链蒙特卡罗法并结合着实际应用中的Diffusion模型进行参照。
http://www.hkea.cn/news/14383570/

相关文章:

  • 旅游网站建设的技术可行性上海网络推广
  • wordpress页面关键词seo网站推广如何做
  • 如何选择家居网站建设上海今天新闻发布会直播
  • 根据网站集约化建设要求深圳龙岗房价多少钱一平方米
  • 亚马逊网站类型下载京东网上购物
  • 江苏城乡建设教育网站优化设计
  • php安防企业网站源码推广网站有哪些
  • 无锡网站建设选千客云网络罗村网站制作
  • 大连哪家网站公司好网站建设网点
  • qq怎么做自己的网站中企动力制作的网站
  • 古典网站建设公司推广营销app
  • 青岛 网站维护苏州网站外包
  • 做网站采集内容国内做服装趋势的网站
  • 鞍山制作公司网站的公司做网站制作公司
  • 常州制作网站信息旅游网站建站目的
  • 网站建设制作 企业站开发哪家好wordpress开发软件
  • 网站建设入门教程pdf万州做网站
  • 外贸海外网站推广wordpress会员浏览
  • 昆明建设厅网站企业网站建设要
  • 网站开发主框架一般用什么布局郯城县网站建设
  • 简述制作网站的主要流程做刷单网站犯法吗
  • 天津网站设计制作公司建设网站要注意什么
  • 互动网站设计网站界面ui设计
  • 手机网站设计企业平面设计网站排行榜
  • 怎么管理好自己的网站百度推广优化是什么?
  • 站外推广厦门网页
  • 蓬业东莞网站建设技术支持商丘网站制作与设计
  • 郑州网站建设案例最新热点新闻事件素材
  • 专门做茶叶的网站建设电影网站视频素材
  • 广州网站建设规划网页设计与制作 培训