假设X是一个离散型随机变量,其取值集合为
信息量
针对事件,它发生的“惊讶程度”或不确定性,也就是信息量,通过下面的公式计算。
熵(信息熵)
对于一个随机变量X而言,它的所有可能取值的信息量的期望就称为熵
离散变量
连续变量
相对熵(Relative Entropy)
相对熵(Eelative Entropy)又称为KL散度(Kullback-Leibler divergence),KL距离,是两个随机分布间距离的度量。记作
上述公式中log = log_2,但是在代码实现中都以为底数
假设为真实概率分布,为我们假设的概率分布
- 当时,显然=0
- 表示对真实分布p所需要的最小编码bit数
- 表示在分布下,使用进行编码所需要的bit数量
- 表示在真实分布的前提下,使用进行编码相对于进行编码(最优编码)多出来的bit数
交叉熵(Cross Entropy)
在为真实概率分布的前提下,可以看作常数,此时交叉熵和相对熵在行为上表现一致,都反映分布和之前的相似程度。所以一般在机器学习中,都直接优化交叉熵。
逻辑回归(Logistic Regression)
- p: 真实样本分布,服从参数为p的0-1分布
- q: 待估计的模型,服从参数为q的0-1分布
定义假设函数(hypothesis function)为
逻辑回归本质就是2分类问题
上述公式可以写为更一般的形式
带入至交叉熵公式中
对于m个样本取均值
验证
1 | import tensorflow as tf |