朴素贝叶斯分类和预测算法的原理及实现

本帖最后由 levycui 于 2016-5-10 11:26 编辑
问题导读：
1、如何理解贝叶斯公式？
2、贝叶斯推断是什么？
3、贝叶斯算法如何应用到实例？

决策树和朴素贝叶斯是最常用的两种分类算法，本篇文章介绍朴素贝叶斯算法。贝叶斯定理是以英国数学家贝叶斯命名，用来解决两个条件概率之间的关系问题。简单的说就是在已知P(A|B)时如何获得P(B|A)的概率。朴素贝叶斯（Naive Bayes）假设特征P(A)在特定结果P(B)下是独立的。

1. 概率基础：

在开始介绍贝叶斯之前，先简单介绍下概率的基础知识。概率是某一结果出现的可能性。例如，抛一枚匀质硬币，正面向上的可能性多大？概率值是一个0-1之间的数字，用来衡量一个事件发生可能性的大小。概率值越接近1，事件发生的可能性越大，概率值越接近0，事件越不可能发生。我们日常生活中听到最多的是天气预报中的降水概率。概率的表示方法叫维恩图。下面我们通过维恩图来说明贝叶斯公式中常见的几个概率。
维恩图.png

在维恩图中：

S：S是样本空间，是所有可能事件的总和。
P(A)：是样本空间S中A事件发生的概率，维恩图中绿色的部分。
P(B)：是样本空间S中B事件发生的概率，维恩图中蓝色的部分。
P(A∩B)：是样本空间S中A事件和B事件同时发生的概率，也就是A和B相交的区域。
P(A|B)：是条件概率，是B事件已经发生时A事件发生的概率。

对于条件概率，还有一种更清晰的表示方式叫概率树。下面的概率树表示了条件概率P(A|B)。与维恩图中的P(A∩B)相比，可以发现两者明显的区别。P(A∩B)是事件A和事件B同时发现的情况，因此是两者相交区域的概率。而事件概率P(A|B)是事件B发生时事件A发生的概率。这里有一个先决条件就是P(B)要首先发生。
概率树B.png

因为条件概率P(A|B)是在事件B已经发生的情况下，事件A发生的概率，因此P(A|B)可以表示为事件A与B的交集与事件B的比率。

该公式还可以转换为以下形式，以便我们下面进行贝叶斯公式计算时使用。

该公式同样可以转化为以下形式：

到这一步，我们只需要证明P(A∩B)= P(B∩A)就可以证明在已知P(A|B)的情况下可以通过计算获得P(B|A)的概率。我们将概率树转化为下面的概率表，分别列出P(A|B),P(B|A),P(A),和P(B)的概率。

通过计算可以证明P(A|B)*P(B)和P(B|A)*P(A)最后求得的结果是概率表中的同一个区域的值，因此：

在贝叶斯推断中，每一种概率都有一个特定的名字：

P(B)是”先验概率”(Prior probability)。
P(A)是”先验概率”(Prior probability)，也作标准化常量(normalized constant)。
P(A|B)是已知B发生后A的条件概率，叫做似然函数(likelihood)。
P(B|A)是已知A发生后B的条件概率，是我们要求的值，叫做后验概率。
P(A|B)/P(A)是调整因子，也被称作标准似然度（standardised likelihood）。

贝叶斯推断中有几个关键的概念需要说明下：

第一个是先验概率，先验概率是指我们主观通过事件发生次数对概率的判断。
第二个是似然函数，似然函数是对某件事发生可能性的判断，与条件概率正好相反。通过事件已经发生的概率推算事件可能性的概率。

维基百科中对似然函数与概率的解释：

概率：是给定某一参数值，求某一结果的可能性。

例如，抛一枚匀质硬币，抛10次，6次正面向上的可能性多大？

似然函数：给定某一结果，求某一参数值的可能性。

例如，抛一枚硬币，抛10次，结果是6次正面向上，其是匀质的可能性多大？

第三个是调整因子：调整因子是似然函数与先验概率的比值，这个比值相当于一个权重，用来调整后验概率的值，使后验概率更接近真实概率。调整因子有三种情况，大于1，等于1和小于1。

调整因子P(A|B)/P(A)>1：说明事件可能发生的概率要大于事件已经发生次数的概率。
调整因子P(A|B)/P(A)=1：说明事件可能发生的概率与事件已经发生次数的概率相等。
调整因子P(A|B)/P(A)<1：说明事件可能发生的概率与事件小于已经发生次数的概率。

因此，贝叶斯推断可以理解为通过先验概率和调整因子来获得后验概率。其中调整因子是根据事件已经发生的概率推断事件可能发生的概率（通过硬币正面出现的次数来推断硬币均匀的可能性），并与已经发生的先验概率（硬币正面出现的概率）的比值。通过这个比值调整先验概率来获得后验概率。
后验概率　＝　先验概率ｘ调整因子

4. 实例1：垃圾邮件分类

贝叶斯分类器比较有名的实验场景是对垃圾邮件进行分类和过滤。这里我们简单介绍下通过贝叶斯算法过滤垃圾邮件的过程。贝叶斯分类器需要依赖历史数据进行学习，假定包含关键词”中奖”的就算作垃圾邮件。我们先经过人工筛选找出10封邮件，并对包含关键词”中奖“的邮件标注为垃圾邮件（Spam）。
垃圾邮件数据表.png