第五章——胜率和加数
贝叶斯的胜率表达形式
胜率表达式可以由贝叶斯定理的概率公式
\[p(H|)p(D|H)=\frac{p(H)p(D|H)}{p(D)}\]
进行推导。如果A和B是互斥且穷尽的,就意味着\(p(B)=1-p(A)\),将支持A的可能性写为o(A),因此我们可以得到:
\[o(A|D)=o(A)\frac{p(D|A)}{p(D|B)}\]
在字面形式上,这说明后验赔率是先验胜率乘以似然比。
对于“数据是否支持假设”这一类问题,贝叶斯的胜率形式给我们提供了一种比直觉更准确的方法。由上面得到的公式,可以推导出
\[ \frac{o(A|D)}{o(A)}=\frac{p(D|A)}{p(D|B)} \]
等式左边是后验胜率和先验胜率的比值,右边是似然比,也被称为贝叶斯因子。如果贝叶斯因子的值大于1,就意味着数据更可能支持假设A。反之如果它的值小于1,意味着数据更可能支持A的对立假设。
案例
假设命案现场有两种血迹,分别是O型(本市人口占60%)和AB型(1%),其中一名疑犯发现是O型血。请问这两种血型的本市人口概率数据,是否支持奥利佛是罪犯之一的推论。
直觉上我们会觉得是可行的,但是数据往往是违背直觉的。由上文提到的贝叶斯因子,可以得到以下假设:
- 假设奥利佛是罪犯,那么数据可信的概率就是AB型样本来源的概率值1%
- 假设他不是罪犯,那么两个样本来源的概率值可计算得 \(2(0.6)(0.01)=1.2%\)
可以看出这是反直觉的,这些数据更加偏向于奥利佛不是罪犯这一假设。
分布
贝叶斯分析的一切都和分布有关,分布就是可以表示任意一组随机过程的可能结果及其概率的数据结构。
分布有两种形式:PMF和CDF。他们可以互相转换,一般来说,从PMF转为CDF是线性时间度的,但是好处就是CDF的概率值搜索更快,时间复杂度从 \(O(n^2)\) 降为 \(O(lgn)\) 。
本章还引入了一些概率分布运算,如Pmf.__add__,Cdf.Max 和 thinkbayes.MakeMixture。