问题导读
1.什么是逻辑回归?
2.如何处理因变量取值离散的情况?
3.如何求解w、b?
4.逻辑回归有哪些用途?
关注最新经典文章,欢迎关注公众号
1.什么是逻辑回归
逻辑回归,有很多的概念。这里从应用角度来介绍逻辑回归?
首先,逻辑回归是一种分类(Classification)算法。比如说:
- 给定一封邮件,判断是不是垃圾邮件
- 给出一个交易明细数据,判断这个交易是否是欺诈交易
- 给出一个肿瘤检查的结果数据,判断这个肿瘤是否为恶性肿瘤
逻辑回归是互联网上最流行也是最有影响力的分类算法,也是深度学习(Deep Learning)的基本组成单元。
设想有这么一种情况,有一组数据,因变量只有0和1两种取值,我们想用一个函数去拟合这组数据,传统的线性回归的因变量取值是连续的,而逻辑回归用于处理因变量取值0-1时的函数拟合的情况,逻辑回归处理的是令人头疼的离散值连续化的问题
2.如何处理因变量取值离散的情况
对于一个事物,在已知自变量的情况下,如果这个事物的取值为1,逻辑回归不是单纯的认为其取值为1,而是认为相对于取值为0,该事物取值为1的概率更大,若使用y表示已知自变量的情况下,该事物取值为1的概率,则1-y表示已知自变量的情况下,该事物取值为0的概率,则使用:
表示已知自变量的情况下,该事物作为取值为1的相对可能性,式1.0又称为几率,通过概率角度,我们将因变量的0-1取值转变为(0,+∞) (0,+\infin)(0,+∞)区间的连续值,但是,线性回归的取值区间是(−∞,+∞) (-\infin,+\infin)(−∞,+∞),所以我们还需要一个手段,将几率的取值范围扩展为(−∞,+∞) (-\infin,+\infin)(−∞,+∞),逻辑回归采用了对数函数,即:
该函数即为sigmoid函数复合
后获得,sigmoid函数长这样:
这个函数因变量取值为(0,1),当自变量大到一定程度时,sigmoid函数的取值将趋近于1。
对于因变量取值为1的数据,逻辑回归只是认为该数据取值为1的相对概率较大,即对数几率比较大,那么,只需让式1.1的输出尽可能大,即y尽可能大,对于取值为0的数据,只需让式1.1的输出尽可能小,即y尽可能小。
说白了,逻辑回归只保证在已知自变量的情况下,对于取值为1的数据,式1.3的取值将会尽可能的趋近于1,对于取值为0的数据,式1.3的取值将会尽可能的趋近于0,但是并没有给出区分取值0-1的区分点,这就需要我们根据自己的实际需要进行确定,但这也给了逻辑回归一定的灵活性
3.如何求解w、b
经过上述分析,我们已经获得了逻辑回归的表达式——式1.3,接下来,该怎么求解
依据线性回归的思想,我们很容易想到通过均方误差作为损失函数,如下:
上图中的
即为sigmoid函数,但是这个函数是非凸函数,给定一组样本,考虑二维的情况,其函数图像如下:
从逻辑回归的角度出发,假设有m个样本,样本与样本间相互独立(即一个样本的出现不会影响其他样本的出现),我们来梳理一下我们现有的条件 - 1、m个样本数据之间互相独立
- 2、已知样本的概率密度函数(式2.2,式2.3)
满足使用极大似然估计的条件,则最大化对数似然:
等等,极大似然估计真的很好的解释逻辑回归的思想么?即对于取值为1的样本,式1.3的输出尽可能靠近1 。取值为0的样本,式1.3的输出尽可能靠近0。
首先注意到式(2.2)分子分母同除以
就可以得到式1.3 。
极大似然法是想令每个样本属于其真实标记的概率越大越好,那么对于取值为1的样本,极大似然法将使式2.2的取值尽可能大,即y的取值尽可能大,即式1.3的取值尽可能趋近于1,对于取值为0的样本,极大似然法将使式2.3的取值尽可能大,即y的取值尽可能小,即式1.3的取值尽可能趋近于0
对式2.2,2.3使用0-1规划,可得:
式2.8的海森矩阵为半正定,故其为凸函数,可以使用最优化理论获得其最小值
这里我们使用梯度下降法,下面给出梯度下降法的推导过程
4.梯度下降法的推导
将上面这一坨式子写成矩阵的形式,则有:
5.逻辑回归的例子
比如有下面一组数据:
一门考试之前学生的复习时间与这个学生最后是否Pass这门考试的数据
数据:学生复习时间与考试通过
通过这些数据,利用逻辑回归算法进行模型训练,可以得到最终的模型结果是这个样子:
logistic equation
这样,给出任何复习时间,就可以预测出是否通过的概率
参考:
https://blog.csdn.net/hanghangaidoudou/article/details/79281638
https://blog.csdn.net/dhaiuda/article/details/84653890
|