您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 最大熵 >

NLP学习记录(六)最大熵模型MaxEnt

发布时间:2019-07-02 07:51 来源:未知 编辑:admin

  在叧掌握关于未知分布的部分信息的情况下,符合已知知识的概率分布可能有夗个,但使熵值最大的概率分布最真实地反映了事件的的分布情况,因为熵定义了随机变量的不确定性,弼熵值最大时,随机变量最不确定,最难预测其行为。

  我们通过一个简单的例子来介绍最大熵概念。假设我们模拟一个翻译专家的决策过程,关于英文单词in到法语单词的翻译。我们的翻译决策模型p给每一个单词或短语分配一个估计值p(f),即专家选择f作为翻译的概率。为了帮助我们开发模型p,我们收集大量的专家翻译的样本。我们的目标有两个,一是从样本中抽取一组决策过程的事实(规则),二是基于这些事实构建这一翻译过程的模型。

  我们能从样本中得到的一个明显的线索是允许的翻译候选列表。例如,我们可能发现翻译专家总是选择下面这5个法语词汇:{dans, en, à, au cours de, pendant}。一旦有了这些信息,我们可以给模型p施加第一个约束条件:

  这个等式代表了这一翻译过程的第一个统计信息,我们现在可以进行寻找满足这一条件的模型了。显然,有无数满足这个条件的模型可供选择。其中一个模型是p(dans)=1,换句话说这个模型总是预测dans。另外一个满足这一约束的模型是p(pendant)=1/2 and p(à)=1/2。 这两个模型都有违常理:只知道翻译专家总是选择这5个法语词汇,我们哪知道哪个概率分布是对的。两个模型每个都在没有经验支持的情况下,做了大胆的假设。最符合直觉的模型是:

  这个模型将概率均匀分配给5个可能的词汇,是与我们已有知识最一致的模型。我们可能希望从样本中收集更多的关于翻译决策的线%时间in被翻译成dans 或者en. 我们可以运用这些知识更新我们的模型,让其满足两个约束条件:

  同样,还是有很多概率分布满足这两个约束。在没有其他知识的情况下,最合理的模型p是最均匀的模型,也就是在满足约束的条件下,将概率尽可能均匀的分配。

  假设我们又一次检查数据,这次发现了另外一个有趣的事实:有一般的情况,专家会选择翻译成dans 或 à.我们可以将这一信息列为第三个约束:

  我们可以再一次寻找满足这些约束的最均匀分配的模型p,但这一次的结果没有那么明显。由于我们增加了问题的复杂度,我们碰到了两个问题:首先,”uniform(均匀)”究竟是什么意思?我们如何度量一个模型的均匀度(uniformity)?第二,有了这些问题答案之后,我们如何找到满足一组约束且最均匀的模型?就像前面我们看到的模型。

  最大熵的方法回答了这两个问题。直观上讲,很简单,即:对已知的知识建模,对未知的不过任何假设(model all that is known and assume nothing about that which is unknown)。换句话说,在给定一组事实(features+output)的条件下,选择符合所有事实,且在其他方面近可能均匀的模型,这恰恰是我们在上面例子每一步选择模型p所采取的方法。

  我们考虑一个随机过程,它产生一个输出y,y属于一个有穷集合。对于刚才讨论的翻译的例子,该过程输出单词in的翻译,输出值y可以是集合{dans, en, à, au cours de, pendant}中任何一个单词。在输出y时,该过程可能会被上下文信息x影响,x属于有穷的集合X。在目前的例子中,这信息可能包括英文句子中in周围的单词。

  我们的任务是构造一个统计模型,该模型能够准确表示随机过程的行为。该模型任务是预测在给定上下文x的情况下,输出y的概率:p(yx).

  通常,对于一个特定的pair (x, y),它要么不出现在样本中,要么最多出现几次。

  我们的目标是构造一个产生训练样本这一随机过程的统计模型。组成这个模型的模块将是一组训练样本的统计值。在目前的例子中,我们已经采用了几个统计数据:(1)in被翻译成dans 或者en的频率是3/10;(2) in被翻译成dans 或 à的概率是1/2 ;…等。这些统计数据是上下文独立的,但我们也可以考虑依赖上下文信息x的统计数据。例如,我们可能注意到,在训练样本中,如果 April 是一个出现在in之后,那么in翻译成en的频率有9/10.

  为了表示这个事件(event),即当Aprial出现在in之后,in被翻译成en,我们引入了指示函数:

  特征f 关于经验分布的期望值,正是我们感兴趣的统计数据。我们将这个期望值表示为:

  我们可以将任何样本的统计表示成一个适当的二值指示函数的期望值,我们把这个函数叫做特征函数(feature function)或简称特征(feature)。

  当我们发现一个统计量,我们觉得有用时,我们让模型去符合它(拟合),来利用这一重要性。拟合过程通过约束模型p分配给相应特征函数的期望值来实现。特征f关于模型p(yx)的期望值是:

  这里,是x在训练样本中的经验分布。我们约束这一期望值和训练样本中f的期望值相同。那就要求:

  最后,仍我关于特征和约束再罗嗦两句:单词feature andconstraint”在讨论最大熵时经常被混用,我们希望读者注意区分这两者的概念:特征(feature)是(x,y)的二值函数;约束是一个等式:即模型的特征函数期望值等于训练样本中特征函数的期望值。

  假设给我们n个特征函数fi,它们的期望值决定了在建模过程中重要的统计数据。我们想要我们的模型符合这些统计,就是说,我们想要模型p属于的子集C。

  图1是这一限制的几何解释。这里,P是三点上所有可能的概率分布空间。如果我们不施加任何约束(图a),所有概率模型都是允许的。施加一个线定义的区域,如图b示。如果两个约束是可满足的, 施加第二个线性约束后可以准确确定p,如图c所示。另一种情形是,第二个线性约束与第一个不一致,例如,第一个约束可能需要第一个点的概率是1/3,第二个约束需要第三个点的概率是3/4,图d所示。在目前的设置中,线性约束是从训练数据集中抽取的,不可能手工构造,因此不可能不一致。进一步来说,在我们应用中的线性约束甚至不会接近唯一确定的p,就象图c那样。相反,集合C=C1∩C2∩C3∩…∩Cn中的模型是无穷的。

  属于集合C的所有模型p中,最大熵的理念决定我们选择最均匀的分布。但现在,我们面临一个前面遗留的问题:什么是”uniform(均匀)”?

  熵的下界是0, 这时模型没有任何不确定性;熵的上界是logY,即在所有可能(Y个)的y上均匀分布。有了这个定义,我们准备提出最大熵原则。

  为了解决这个问题,我们采用约束优化理论中Lagrange multipliers的方法。这里仅概述相关步骤,请参考进一步阅读以更深入了解约束优化理论如何应用到最大熵模型中的。

  我们将这个称为原始问题(primal)。简单的讲,我们目标是在满足以下约束的情况下,最大化H(p)。

  要算λ,解析解肯定是行不通的。对于最大熵模型对应的最优化问题,GIS,lbfgs,sgd等等最优化算法都能解。相比之下,GIS大概是最好实现的。这里只介绍GIS算法。

  熵的概念在统计学习与机器学习中真是很重要,熵的介绍在这里:信息熵 。今天的主题是最大熵模型(MaximumEntropyModel,以下简称MaxEnt),MaxEnt是概率模型学习中一个准则,其思想...博文来自:这里记录着我一点一滴的进步

  熵这个概念在机器学习中被用到的地方很多,例如决策树、最大熵模型等。最大熵模型利用最大熵原理来选择或构建最佳分类器。最大熵模型(MaxEnt)与多元逻辑回归、Softmax等本质上是统一的,而且在最大熵...博文来自:白马负金羁

  一、最大熵模型1、熵联合熵和条件熵相对熵交叉熵互信息总结2、最大熵模型二、EM算法(期望最大化算法)三、GMM一、最大熵模型lnxamp;amp;lt;=x−1lnxamp;amp...博文来自:呆呆的猫的博客

  一、最大熵原理    最大熵原理是概率模型学习的一个准则。最大熵原理认为,在学习概率模型时,在所有可能的概率分布中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵模型也可以...博文来自:Machine Learning with Peppa

  机器学习最大熵模型最大熵原理最大熵例子最大熵模型定义最大熵模型的学习极大似然估计求解...博文来自:GoWeiXH的小天地

  大家好,最近在入门机器学习的相关知识,最近在看李航的书籍《统计学习方法》,觉得这本书讲的比较系统,所以想和大家一起通过文字来理解讨论书中的知识点,如果觉得下面哪里讲的不好或者不正确,希望大家积极反馈...博文来自:szq34_2008的专栏

  生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(TheMaximumEntropyPrinciple)。本文为一则读...博文来自:peghoty

  最大熵模型(MaximumEntropyModel)是一种很经典的分类算法,理解它有助于加深我们对逻辑回归、支持向量机、决策树等算法的理解。最大熵模型是将最大熵原理应用到分类任务得到的模型。在解释...博文来自:Sual

  最大熵模型与逻辑斯蒂回归模型一样,属于对数线性模型,因为推导出的最大熵模型公式满足输入与输出的对数函数成线性关系,如下:Pw(YX)=1Zw(x)exp(∑ni=1wifi(x,y))P_w(YX...博文来自:Kobe Bryant的专栏

  转自:刚看完HMM,因为有个ME-HMM方法,所以再看看最大熵模型,最后再把CRF模型看看,这一系列理论大体消化...博文来自:daoqinglin的专栏

  这个“熵“并不是指热力学上熵的概念,而是由信息论男神克劳德·艾尔伍德·香农(ClaudeElwoodShannon)在1948年提出的“信息熵“,用来描述信息的不确定程度。信息熵公式:这个听起来很神奇...博文来自:扬子落木

  WelcomeToMyBlog最大熵模型(MaximumEntropyModel)属于对数线性模型,由最大熵原理推导实现.最大熵原理最大熵原理是概率模型学习的一个准则.最大熵原理认为,学习概率模型时,...博文来自:littlehaes的博客

  最大熵模型总结声明:引用请注明出处摘要本文对最大熵模型进行了系统性的学习和总结,从不同的角度来解读熵的概念以及最大熵的内涵。对最大熵...博文来自:ZhangPY的专栏

  作者:星环科技链接:来源:知乎熵熵(entropy)是热力学中的概念,由香浓引入到信息论中。在信息论和概率统计中,熵用来表示随...博文来自:Allen的博客

  逻辑斯蒂回归模型逻辑斯蒂回归是统计学习的经典分类方法.最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型逻辑斯谛模型和最大熵模型都属于对数线性模型逻辑斯蒂分布    分布函数:     ...博文来自:Eloco蔚的博客

  最大熵模型相关的基础知识[概率论:基本概念CDF、PDF]熵定义为:[信息论:熵与互信息]...博文来自:皮皮blog

  1.前言本文主要涉及最大熵模型中的一些推导,旨在理顺内部之间的逻辑关系求解目的:获取最好的模型2.最大熵原理最大熵原理是概率模型学习的一个准则,最大熵原理认为,学校概率模型时,在所有可能的概率模型中,...博文来自:yaokun2012的博客

  (1)什么是熵?熵是用来衡量一个分布的均匀程度,熵越大,说明分布越均匀。在信息论中,信息熵可以说明消息的混沌程度,熵越大说明消息越不明了,难以从消息中得到有效信息。举一个超级简单的例子,比如说我假设一...博文来自:鲁班七号

  最大熵模型的基本原理是:在只掌握关于未知分布的部分信息的情况下,符合已知知识的概率分布可能有多个,但使熵值最大的概率分布最真实地反映了事件的分布情况,因为熵定义了随机变量的不确定性,当熵最大时,随机变...博文来自:miner_zhu的博客

  前言有挺长一段时间没有更新博客了,一方面是学校期末考试,后来又看了一些很基础的编程数学思想的东西(《程序员的数学》第一卷),大多数东西都在之前的学习和使用中都有注意到,所以没有什么特别值得更新的。这次...博文来自:tick_tock97的博客

  最大熵模型(MaximumEntropyModel,以下简称MaxEnt),MaxEnt是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型;若概率模型需要满...博文来自:的博客

  基本思想在只掌握了关于未知分布的部分信息的情况下,符合已知知识分布的概率分布可能有多个,但是熵值最大的概率分布最真实低反映了事件的分布情况。最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时...博文来自:xmdxcsj的专栏

  一个色子,当对其一无所知时,我们会假设色子每个面出现的概率为1/6;如果已知一个面的概率为1/3,则我们会假设其他面概率为2/15。当我们对一个随机事件的概率进行预测时,我们的预测应当满足所有的已知条...博文来自:心之所向

  最大熵原则当根据不完整的信息作为依据进行推断时,应该由满足分布限制条件的具有最大熵的概率分布推得。最大熵问题是一个约束最优化问题。要说明解这个问题的步骤,考虑最大微分熵:h(X)=−∫+∞−∞px(x...博文来自:moge19的专栏

  逻辑回归与最大熵模型MaxEnt的关系?逻辑回归跟最大熵模型到底有啥区别呢?简单粗暴 的回答是:逻辑回归跟最大熵模型没有本质区别。逻辑回归是最大熵对应类别为二类时的特殊情况,也就是当逻辑回归类别扩展到...博文来自:的博客

  刚看完HMM,因为有个ME-HMM方法,所以再看看最大熵模型,最后再把CRF模型看看,这一系列理论大体消化一下,补充一下自己的大脑,方便面试什么的能够应付一些问题。多读书,多思考,肚子里才有东西。==...博文来自:SAN_YUN的专栏

  最大熵模型介绍Overview统计建模方法是用来modeling随机过程行为的。在构造模型时,通常供我们使用的是随机过程的采样,也就是训练数据。这些样本所具有的知识(较少),事实上,不能完整地反映整个...博文来自:Erli11的专栏

  前几节我们详细的阐述了什么是HMM,同时给出了HMM的三个问题,也给出了解决这三个问题的方法最后给出了HMM的简单的应用。其中为了解决第三个问题我们引入了EM算法,这个算法有点麻烦,但是不难理解,而解...博文来自:进击的菜鸟

  文章目录0.前言1.最大熵模型的定义2.求解最优化问题3.改进的迭代尺度法(ImprovedIterativeScaling,IIS)4.最大熵模型的总结5.参考资料0.前言  假设离散随机变量X的概...博文来自:kabuto_hui的博客

  在讨论GBDT前,先来看看什么是GD,BGD和SGDGD(GradientDescent,梯度下降):求损失函数最小值:梯度下降;求损失函数最大值:梯度上升。假设线性模型:其中θ是参数。损失函数为:那...博文来自:机器学习知识点整理

  预剪枝就是在构造决策树的过程中,先对每个结点在划分前进行估计,若果当前结点的划分不能带来决策树模型泛华性能的提升,则不对当前结点进行划分并且将当前结点标记为叶结点。...博文来自:天泽28的专栏

  作者:xg123321123出处:声明:版权所有,转载请联系作者并注明出处熵是随机变量...博文来自:时光杂货店

  摘要:1.信息的度量2.信息不确定性的度量 内容:1.信息的度量直接给出公式,这里的N(x)是随机变量X的取值个数,至于为什么这么表示可以考虑以下两个事实:(1)两个独立事件X,Y的联...博文来自:学海无涯

  最大熵模型和多分类熵可以看做是用来描述信息量的。最大熵模型属于运用最大熵原理的多分类模型。熵是随机变量不确定性的度量,不确定性越大,熵越大。给定一定条件的最大熵:在给定期望和方差的基础上,均匀分布的熵...博文来自:kepengs的博客

  在海康威视的面试中,对方问了这么一道题:有一个容量足够大的栈,n个元素以一定的顺序入栈,出栈顺序有多少种?比如,AB两个元素,入栈顺序为AB,出栈情况有两种:(1)入A,出A,入B,出B,出栈顺序为A...博文来自:凛冬烈焰的博客

  一、最大熵原理概念:对于随机变量X,其概率分布为P(X),一般在约束条件下会有无数P(X)存在。最大熵原理就是在所有符合约束条件的P(X)中,熵最大的模型即为最优模型。二、最大熵模型最大熵模型,就是基...博文来自:ThisWhoIam的博客

  记得刚开始研究最大熵模型时,被它的数学推导搞得云里雾里(汗!数学基础不好啊~~~~快哭了)不过现在补还来得及,借此机会缕了一下MaxEnt的推导一、熵入门理解什么是熵?比如你打碎了一块玻璃,或者洒落了...博文来自:RYP_S 的专栏

  最大熵模型是一种综合模型,即我们知道很多关于一个东西的先验知识,然后用最大熵公式计算出来。很类似机器学习中的组合提升模型。    下面举一个最大熵模型的例子。我们看一个拼音转汉字的简单的例子。假如输入...博文来自:changdejie的专栏

  一、最大熵原理    最大熵原理是概率模型学习的一个准则。最大熵原理认为,在学习概率模型时,在所有可能的概率分布中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵模型也可以...博文来自:chunyun0716的专栏

  最大熵模型中的数学推导0引言  写完SVM之后,一直想继续写机器学习的系列,无奈一直时间不稳定且对各个模型算法的理解尚不够,所以导致迟迟未动笔。无独有偶,重写KMP得益于今年4月个人组织的算法班,而动...博文来自:u014114990的专栏

  引言命名实体识别(NamedEntityRecognition,NER)的主要任务是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语加以归类。命名实体识别技术是信息抽取、信息检索、机器...博文来自:qiqiaiairen的博客

  熵的概念在统计学习与机器学习中真是很重要,熵的介绍在这里:信息熵InformationTheory 。今天的主题是最大熵模型(MaximumEntropyModel,以下简称MaxEnt),MaxEn...博文来自:bbbeoy的专栏

  声明:        1,本篇为个人对《2012.李航.统计学习方法.pdf》的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址)。        2,由于本人在学习初始时有很多数学知识都...博文来自:xueyingxue001的专栏

  说明:此篇是作者对“最大熵模型”的第二次总结,因此可以算作对上次总结的查漏补缺以及更进一步的理解,所以很多在第一次总结中已经整理过的内容在本篇中将不再重复,如果你看的有些吃力,那建议你看下我的第一次总...博文来自:xueyingxue001的专栏

  jquery/js实现一个网页同时调用多个倒计时(最新的)nn最近需要网页添加多个倒计时. 查阅网络,基本上都是千遍一律的不好用. 自己按需写了个.希望对大家有用. 有用请赞一个哦!nnnn//jsn...博文来自:Websites

http://byrdsbrain.com/zuidashang/168.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有