您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 最大熵 >

关于最大熵的解释

发布时间:2019-07-02 07:51 来源:未知 编辑:admin

  熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为0。

  如果没有外界干扰,随机变量总是趋向于无序,在经过足够时间的稳定演化,它应该能够达到的最大程度的熵。

  为了准确的估计随机变量的状态,我们一般习惯性最大化熵,其原则是承认已知事物(知识),且对未知事物不做任何假设,没有任何偏见。

  换言之,已知“学习”可能是动词,也可能是名词,故“学习”可以被标为主语、谓语、宾语、定语等等。

  令y1表示“学习”被标为主语, y2表示被标为谓语, y3表示宾语, y4表示定语。

  因为没有任何的先验知识,所以这种判断是合理的。如果有了一定的先验知识呢?

  举个例子:若已知:“学习”被标为定语的可能性很小,只有0.05,即,剩下的依然根据无偏原则,可得:

  再进一步,当“学习”被标作名词x1的时候,它被标作谓语y2的概率为0.95,即:

  此时仍然需要坚持无偏见原则,使得概率分布尽量平均。但怎么样才能得到尽量无偏见的分布?

  实践经验和理论计算都告诉我们,在完全无约束状态下,均匀分布等价于熵最大(有约束的情况下,不一定是概率相等的均匀分布。 比如,给定均值和方差,熵最大的分布就变成了正态分布 )。

  于是,问题便转化为了:计算X和Y的分布,使得H(YX)达到最大值,并且满足下述条件:

  因此,也就引出了最大熵模型的本质,它要解决的问题就是已知X,计算Y的概率,且尽可能让Y的概率最大(实践中,X可能是某单词的上下文信息,Y是该单词翻译成me,I,us、we的各自概率),从而根据已有信息,尽可能最准确的推测未知信息,这就是最大熵模型所要解决的问题。

  现回到最大熵模型的表达式上来。注意到p(x,y) = p(x) * p(yx),但因为p(x)不好求,所以一般用样本中x出现的概率p‾(x)\overline{p}(x)p(x)代替x在总体中的分布概率“p(x)”,从而得到最大熵模型的完整表述如下:

  该问题是已知若干条件,要求若干变量的值使得目标函数(熵)最大,其数学本质是最优化问题(Optimization Problem),其约束条件是线性的等式,而目标函数是非线性的,所以该问题属于非线性规划(线性约束)(non-linear programming with linear constraints)问题,故可通过引入Lagrange函数将原约束最优化问题转换为无约束的最优化的对偶问题。

  考虑到机器学习里,不少问题都在围绕着一个“最优化”打转,而最优化中凸优化最为常见,所以为了过渡自然,这里简单阐述下凸优化中的对偶问题。

  其中,subject to导出的是约束条件,f(x)表示不等式约束,h(x)表示等式约束。

  对固定的x,Lagrange函数L(x,λ,v)为关于λ和v的仿射函数。

  针对原问题,首先引入拉格朗日乘子λ0,λ1,λ2, …, λi,定义拉格朗日函数,转换为对偶问题求其极大化:

  注:上面这里是对P(yx)求偏导,即只把P(yx)当做未知数,其他都是常数。因此,求偏导时,只有跟P(y0x0)相等的那个(x0,y0)才会被微分,其他的(x,y)都不是关于P(y0x0)的系数,是常数项。

  可知,最大熵模型属于对数线性模型,因为其包含指数函数,所以几乎不可能有解析解。换言之,即便有了解析解,仍然需要数值解。那么,能不能找到另一种逼近?构造函数f(λ),求其最大/最小值?

  相当于问题转换成了寻找与样本的分布最接近的概率分布模型,如何寻找呢?你可能想到了极大似然估计。

  其中,p(x)是对模型进行估计的概率分布,p‾(x)\overline{p}(x)p(x)是实验结果得到的概率分布。

  因上述式子最后结果的第二项是常数项(因为第二项是关于样本的联合概率和样本自变量的式子,都是定值),所以最终结果为:

  至此,我们发现极大似然估计和条件熵的定义式具有极大的相似性,故可以大胆猜测它们极有可能殊途同归,使得它们建立的目标函数也是相同的。 我们来推导下,验证下这个猜测。

  然后拿这个通过极大似然估计得到的结果跟之前得到的对偶问题的极大化解对比下,发现二者的右端果然具有完全相同的目标函数。换言之,之前最大熵模型的对偶问题的极大化等价于最大熵模型的极大似然估计。

  且根据MLE的正确性,可以断定:最大熵的解(无偏的对待不确定性)同时是最符合样本数据分布的解,进一步证明了最大熵模型的合理性。两相对比,熵是表示不确定性的度量,似然表示的是与知识的吻合程度,进一步,最大熵模型是对不确定度的无偏分配,最大似然估计则是对知识的无偏理解。

  图像的一维熵和二维熵图像的熵是一种特征的统计形式,它反映了图像中平均信息量的多少。图像的一维熵表示图像中灰度分布的聚集特征所包含的信息量,令Pi表示图像中灰度值为i的像素所占的比例,则定义灰度图象的一...博文来自:《好好先生》专栏

  1、信息熵作者:滴水链接:来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载...博文来自:qingkongyeyue的博客

  最大熵模型相关的基础知识[概率论:基本概念CDF、PDF]熵定义为:[信息论:熵与互信息]...博文来自:皮皮blog

  随机事件的信息量为了描述一个随机事件的信息量,定义了自信息。自信息表示不确定性减少的程度。一个事件确定发生,是没有信息量的;而一个事件发生的概率越小,则其信息量越大。未知所带来的不确定性,...博文来自:yujianmin1990的专栏

  最大熵模型介绍Overview统计建模方法是用来modeling随机过程行为的。在构造模型时,通常供我们使用的是随机过程的采样,也就是训练数据。这些样本所具有的知识(较少),事实上,不能完整地反映整个...博文来自:Erli11的专栏

  熵:系统混乱程度的度量,系统越混乱,熵越大。信息熵:信息量的大小的度量,用于描述随机变量的不确定度。事件的不确定性越大,则信息量越大,信息熵越大。定义如下:条件熵:表示在已知随机变量X的条件下随机变量...博文来自:u012991043的博客

  最大熵模型与EM算法最大熵模型与EM算法在机器学习里面尤为重要。接下来我们一步一步的介绍相关细节:先验概率与后验概率后验概率就是通过已有的数据来推断未知的数据,先验概率就是直接对未知的数据进行预测。所...博文来自:老卫带你学

  逻辑回归(logisticregression)是统计学习中的经典分类方法。最大熵是概率模型学习中的一个准则,将其推广到分类问题得到的最大熵模型(maximumentropymodel)。LR和MEM...博文来自:小羊哈利

  基本思想在只掌握了关于未知分布的部分信息的情况下,符合已知知识分布的概率分布可能有多个,但是熵值最大的概率分布最真实低反映了事件的分布情况。最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时...博文来自:xmdxcsj的专栏

  1.前言本文主要涉及最大熵模型中的一些推导,旨在理顺内部之间的逻辑关系求解目的:获取最好的模型2.最大熵原理最大熵原理是概率模型学习的一个准则,最大熵原理认为,学校概率模型时,在所有可能的概率模型中,...博文来自:yaokun2012的博客

  最大熵模型(Maximum Entropy Models, MEMs)是基于最大熵理论的统计模型, 广泛应用于模式识别和统计评估中。最大熵原理有一个很长的历史,其中最大熵理论方面的 先驱E.T.Jay下载

  大家好,最近在入门机器学习的相关知识,最近在看李航的书籍《统计学习方法》,觉得这本书讲的比较系统,所以想和大家一起通过文字来理解讨论书中的知识点,如果觉得下面哪里讲的不好或者不正确,希望大家积极反馈...博文来自:szq34_2008的专栏

  对于取值多的属性,尤其一些连续型数值,比如两条地理数据的距离属性,这个单独的属性就可以划分所有的样本,使得所有分支下的样本集合都是“纯的”(最极端的情况是每个叶子节点只有一个样本)。一个属性的信息增益...博文来自:tansuo17的博客

  最大熵模型与逻辑斯蒂回归模型一样,属于对数线性模型,因为推导出的最大熵模型公式满足输入与输出的对数函数成线性关系,如下:Pw(YX)=1Zw(x)exp(∑ni=1wifi(x,y))P_w(YX...博文来自:Kobe Bryant的专栏

  最大熵模型总结声明:引用请注明出处摘要本文对最大熵模型进行了系统性的学习和总结,从不同的角度来解读熵的概念以及最大熵的内涵。对最大熵...博文来自:ZhangPY的专栏

  中学学的那些立体几何,解析几何很多人看来索然无味却基本上没有掉队的,就算是用背诵的方法,头悬梁锥刺股也要学,为什么?因为高考要考。  大学通信课学的那些排队论,信息论这些,在很多人看来也是索然无味,却...博文来自:Netfilter,iptables/OpenVPN/TCP guard:-(

  李航·统计学习方法笔记·第6章logisticregression与最大熵模型(2)·最大熵模型标签(空格分隔):机器学习教程·李航统计学习方法李航统计学习方法笔记第6章logisticregress...博文来自:tina的博客

  利用图像熵为准则进行图像分割有一定历史了,学者们提出了许多以图像熵为基础进行图像分割的方法。我们介绍一种由Kapuretal提出来,现在仍然使用较广的一种图像熵分割方法。给定一个特定的阈值q(0&a...博文来自:ml_ai_sun的博客

  最大熵模型中的对数似然函数的解释最近在学习最大熵模型,看到极大似然估计这部分,没有看明白条件概率分布p(yx)p(yx)p(yx)的对数似然函数。上网查了很多资料都没有一个合理的解释。基本直接给...博文来自:wkebj的博客

  (1)什么是熵?熵是用来衡量一个分布的均匀程度,熵越大,说明分布越均匀。在信息论中,信息熵可以说明消息的混沌程度,熵越大说明消息越不明了,难以从消息中得到有效信息。举一个超级简单的例子,比如说我假设一...博文来自:鲁班七号

  先推荐两个链接,都是讲最大熵的,强的一批。博文来自:u012225754的博客

  隐马尔科夫模型、最大熵模型、最大熵马尔科夫、条件随机场双端LSTM网络分词https:...博文来自:kawhi849

  机器学习之从极大似然估计到最大熵原理以及EM算法详解博文来自:HuangQinJian

  转载请注明出处,谢谢.图像分割系列的博客连续写了两篇了,这次继续写写利用最大熵模型来进行图像的阈值分割。如果对其他相关博客感兴趣可进入下面的链接查看:1.OpenCV-区域生长算法2.OpenCV-均...博文来自:庄周一梦

  第一次尝试写博客,希望能坚持下去。。。言归正传,下面开始介绍最近在学习的最大熵分割法。最近在做红外小目标检测,用到一个最大熵分割法,之后会把tophat+最大熵分割法贴出来。最大熵分割法现在主要用的熵...博文来自:happygirlliu520的博客

  在这篇博客,我们来谈一谈最大熵马尔科夫模型MEMM关于这部分内容,我看了一晚上,整个公式都都梳理了之后,愣是没明白这个最大熵体现在哪里,当然我最终查阅了很多资料,终于还是弄明白了,我会在这篇博客上详细...博文来自:Call Me Hi Johnny~~

  七月在线月机器学习算法班课程笔记——No.81.统计学习基础回顾1.1先验概率与后验概率先验概率:根据以往经验和分析得到的概率,如全概率公式,它往往作为”由因求果”问题中的”因”出现。后验概...博文来自:会思考的蜗牛

  一、最大熵模型1、熵联合熵和条件熵相对熵交叉熵互信息总结2、最大熵模型二、EM算法(期望最大化算法)三、GMM一、最大熵模型lnxamp;amp;lt;=x−1lnxamp;amp...博文来自:呆呆的猫的博客

  这篇文章的opencv实现代码源于这篇博客,自己稍加改动,再此对博主表示感谢。1.最大熵原理...博文来自:fanhongweifd的专栏

  最大熵模型的理论部分可以参考李航的《统计学习方法》或皮果提的最大熵学习笔记,本次使用的训练算法为GIS(GeneralizedIterativeScaling),这个Python代码主要是作为理解最大...博文来自:littlely_ll的博客

  在序列标注任务中,除了隐马尔可夫模型(HMM),最大熵马尔可夫模型(MEMM)是另一种更好的选择,因为其可以通过特征向量的形式引入更多的上下文特征。假设我们的目标是求概率分布p(s1,...,sm∣x...博文来自:uhauha2929的专栏

  最大熵模型的基本原理是:在只掌握关于未知分布的部分信息的情况下,符合已知知识的概率分布可能有多个,但使熵值最大的概率分布最真实地反映了事件的分布情况,因为熵定义了随机变量的不确定性,当熵最大时,随机变...博文来自:miner_zhu的博客

  一 最大熵原理      最大熵原理指出,对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率...博文来自:lllzy的博客

  对数线性模型loglinearmodel对数线性模型有:最大熵模型和逻辑斯谛回归。特征和指...博文来自:皮皮blog

  功率谱的最大谱熵估计的核心是对未知的过程进行预测的时候,要保持未知过程的不确定性最大。...博文来自:njucp的博客

  1.最大熵模型1.1熵 熵的概念源自于热力学,在热力学中,熵为所有可能状态数的对数值,可以表示分子的混乱程度。将热力学中熵的概念引入到随机变量的分布中,则随机变量的熵度量了其不确定性的程度。数学表达如...博文来自:fight_littleq的博客

  熵这个概念在机器学习中被用到的地方很多,例如决策树、最大熵模型等。最大熵模型利用最大熵原理来选择或构建最佳分类器。最大熵模型(MaxEnt)与多元逻辑回归、Softmax等本质上是统一的,而且在最大熵...博文来自:白马负金羁

  jquery/js实现一个网页同时调用多个倒计时(最新的)nn最近需要网页添加多个倒计时. 查阅网络,基本上都是千遍一律的不好用. 自己按需写了个.希望对大家有用. 有用请赞一个哦!nnnn//jsn...博文来自:Websites

  haogexiaole:同步和异步的区别:是否开启新线程 阻塞和非阻塞的区别:当前线程是否挂起,即是否释放cpu

http://byrdsbrain.com/zuidashang/166.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有