最大熵模型的理解

最近在看一些无监督聚类的文章,发现了很有意思的博客,里面讲了很多关于数学、物理、天文还有信息科学的内容。在看完博主关于最大熵的内容后也写下一点心得。

首先是熵的定义,离散概率和连续概率形式:
$$S(x)=-\sum_{x} p(x) \log p(x)\tag{1}$$
$$S(x)=-\int p(x)\log p(x) dx\tag{2}$$

其实之间看到这个定义是比较疑惑的,为什么会是这个形式?这其实和熵的性质有关,对于熵而言,我们想要这个定义能表示信息,或者说是更直观的不确定性(不确定性越大,表示这个分布所包含的信息量越大)。用更形式化的语言来表示:

1、对于概率密度函数或者概率分布为$p(x)$的一个分布,首先希望熵对应的函数是一个光滑的函数。

2、熵应该具有可加性
$$S(x)=\sum_{x}f(p(x))\tag{3}$$
这样我们变成考虑$f(x)$的形式

3、对于两个独立的随机变量$X$和$Y$,如果概率分布为$p(x)$和$p(y)$,那么由两个变量的独立性知道$p(x,y)=p(x)p(y)$。我们分别观测两个变量得到的信息量应该和同时观测两个变量的信息量相同$S(x+y)=S(x)+S(y)$。

根据性质3可以想到对数函数,为了确定$f(x)$的形式,博客中采用简单的二元分布来推出$f(x)=ax\log (x)$,然后结合性质2可以知道
$$S(x)=\sum_x ap(x)\log p(x)\tag{4}$$

4、当观测到的事件是一个极不可能发生的事情的时候,我们接收的信息应该很大,如果是一个非常正常的事情,那么信息量应该很小,也就是说熵应该是概率的单调函数。所以公式(4)中选择$a=-1$,这样就得到熵的定义
$$S(x)=-\sum_{x} p(x) \log p(x)\tag{5}$$


最大熵模型的理解
http://yoursite.com/2019/11/08/最大熵模型的理解/
Author
John Doe
Posted on
November 8, 2019
Licensed under