机器学习系列 (5) -最大熵模型

参考文章:https://blog.csdn.net/hgnuxc_1993/article/details/114897839

参考视频:7.3 最大熵模型:拉格朗日乘子法_哔哩哔哩_bilibili

最大熵模型的数学基础

什么是熵?

熵是用来表示随机变量不确定性的度量。

拉格朗日乘子法

原始问题

对偶问题

当满足KKT条件时,原始问题和对偶问题最优解相同

什么是最大熵模型?

MaxEnt (最大熵模型)是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型;若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。最大熵原理指出,对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大

举例

例子1:假设随机变量X有5个取值{A,B,C,D,E},要估计各个值的概率P(A),P(B),…,P(E).

这些概率值满足条件P(A)+P(B)+P(C)+P(D)+P(E)=1

但是满足这个条件的概率分布有无数个。如果没有其他信息,一个可行的办法就是认为他们的概率都相等,均为0.2。

如果再加一个条件P(A) + P(B) = 0.3,那么各个值的概率为多少?

p(A)=P(B)=3/20

p(C)=P(D)=P(E)=7/30

最大熵模型公式

特征函数

最大熵模型的学习

公式

用对偶问题解决原始问题

例题

解说视频:7.3 最大熵模型:例题解说_哔哩哔哩_bilibili

连续分布的最大熵

已知在整个实数轴上取值的连续随机变量的均值为,方差为σ2,求熵最大对应的概率分布。

求解可得 正态分布的概率密度函数

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇