参考文章:https://blog.csdn.net/hgnuxc_1993/article/details/114897839
参考视频:7.3 最大熵模型:拉格朗日乘子法_哔哩哔哩_bilibili
最大熵模型的数学基础
什么是熵?
熵是用来表示随机变量不确定性的度量。
拉格朗日乘子法
原始问题
对偶问题
当满足KKT条件时,原始问题和对偶问题最优解相同
什么是最大熵模型?
MaxEnt (最大熵模型)是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型;若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。最大熵原理指出,对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大
举例
例子1:假设随机变量X有5个取值{A,B,C,D,E},要估计各个值的概率P(A),P(B),…,P(E).
这些概率值满足条件P(A)+P(B)+P(C)+P(D)+P(E)=1
但是满足这个条件的概率分布有无数个。如果没有其他信息,一个可行的办法就是认为他们的概率都相等,均为0.2。
如果再加一个条件P(A) + P(B) = 0.3,那么各个值的概率为多少?
p(A)=P(B)=3/20
p(C)=P(D)=P(E)=7/30
最大熵模型公式
特征函数
最大熵模型的学习
公式
用对偶问题解决原始问题
例题
解说视频:7.3 最大熵模型:例题解说_哔哩哔哩_bilibili
连续分布的最大熵
已知在整个实数轴上取值的连续随机变量的均值为,方差为σ2,求熵最大对应的概率分布。
求解可得 正态分布的概率密度函数