搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
AI学习
›
机器学习
›
概念型
›
机器学习知识储备
0
1
1
分享
机器学习知识储备
PeersLee
2017-11-14 12:37:56
发表于
概念型
[显示全部楼层]
只看大图
阅读模式
关闭右栏
1
7239
本帖最后由 PeersLee 于 2017-11-14 14:14 编辑
问题导读:
1. 什么是协方差和相关系数?
2. 什么是高斯分布?
3. 什么事似然函数?
解决方案:
协方差和相关系数
1概率
概率 P 是对随机事件发生的可能性的度量。
例如,小明在期末考试前,统计了下自己在今年的数学考试成绩,结果显示得到80分以下的次数为2次,得80分~90分的次数为10次,得到90分以上次数为3次,那么小明得到 80分以下的概率为:
P( < 80 ) = 2/(2+10+3) = 13.3%
80~90分的概率为:
P( 80 ~ 90) = 10/(2+10+3) = 66.7%
90分以上的概率:
P( > 90) = 3/(2+10+3) = 20%
2期望值
期望值 E,在一个离散性随机变量实验中,重复很多次实验,每次实验的结果乘以其出现的概率的总和。
如上例中,小明在今年的期末考试,我们对他的期望值大约是多少呢?套用上面的公式,80分以下的值取一个代表性的分数:70分,80~90:85分,90分以上:95分,
E = 70 * 0.133 + 85 * 0.667 + 95 * 0.2
计算出的结果为 85,即期末考试我们对小明的合理期望是 85 分左右。
3方差
方差 ,用来度量随机变量取值和其期望值之间的偏离程度,
其中:
X 表示小明的分数这个随机变量
N 表示样本的个数,即在此15个
已经知道小明的15次考试的分数,均值刚才我们也计算出来了为 85分,带入到上面的公式中,便能得出偏离85分的程度大小。
如果方差很大,那么小明在期末考试的分数可能偏离85分的可能性就越大;如果方差很小,那么小明很可能期末考试分数在85分左右。
方差开根号,得到标准差,即为
4协方差
以上几个概念理解了后,下面再阐述什么是协方差,字面上看它比方差多一个协字,那么大体也能猜出,它可能是衡量两个随机变量间是不是存在某种关系的。
那么它的实际定义如下:
其中,
X, Y 是两个随机变量
是对应两个随机变量的均值
如果两个变量是高度同向的,即X变大,Y也变大,那么对应的协方差也就很大;如果每次X变大,Y就变小,那么X和Y的协方差可能就会为负数
例如,经过观察,我们发现小明的数学成绩和物理成绩的分数分布情况高度相符,也是70分以下3次,80~90分居多,21次,90分以上1次,那么我们就说小明的数学和物理成绩的协方差很大。
5相关系数
我们考虑具有一般性的公式,通常相关系数的定义如下:
发现这个相关系数与协方差紧密相关,只不过又除以了X的标准差和Y的标准差,也就是说,是一种剔除了X和Y这两个偏离程度量纲的影响,标准化后的特殊协方差。
同样可以拿协方差来理解相关系数,若相关系数很大,则可以得到X变大,Y也很可能会变大的结论。
6总结
我们阐述了几个重要的概念,最后理解了相关系数,理解它为我们之后理解数据预处理的很多算法,及回归分析都很有帮助,如普通最小二乘法 (OLS)为什么在相关系数大的回归分析上变得误差很大。
高斯分布
1独立同分布
指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布。
先说说独立这个概念。在预测德克萨斯州区域的房屋价值时,房屋样本x1和样本x2之间的预测是相互独立的,它们之间不存在任何关系,这也是接近实际的。
同分布是指预测的房屋都是来自于德克萨斯州这块区域的,你不能拿北京的某个小三居扔到这个模型中去做预测吧,如果非要这样,误差一定会很大。
2高斯分布
高斯分布(Gaussian distribution), 又称为正态分布(Normal distribution),是一个非常重要在各个领域有广泛应用的概率分布。
正态曲线的特点是中间高,两头低,左右对称,人们经常称之为钟形曲线。
若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。
其概率密度函数为正态分布的,期望值μ决定了它的位置,标准差σ^2数据的偏离程度。
当μ = 0,σ = 1时的高斯分布又称为标准正态分布。
3一维正态分布
若随机变量服从如下的概率密度函数,则表明是一维正态分布。
当然,还有多维正态分布,在此不做详述。
似然函数例子解析
1似然函数
似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。
给定输出 x 时,关于参数 θ 的似然函数 L(θ|x),在数值上它等于给定参数 θ 后变量 X 的概率:
这个是非常重要的!
举个例子,我们抛掷一枚硬币,这枚硬币不是理论上的一半一半的出现概率,而是动了手脚的,出现正面的概率是0.2,现在我们预测一下抛掷10次,出现正面的次数是多少,如果用 X 表示出现正面的次数,那么
P(X) = 0.2
E(X) = 0.2 * 10 = 2 次
现在我们抛掷10枚这个硬币,结果显示,有2次出现正面,现在预测下这枚硬币出现正面的概率到底有多大呢?这就是一个似然问题,求解模型本身的一些属性。求解它需要假定误差分布满足高斯分布,然后求出似然函数,因为既然已经发生了,就直接求概率发生的最大值吧,既然求最值,自然就能求出出现正面的概率参数来了。
2似然与概率
概率与似然的不同
概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果。
而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计:似然是在知道输出结果(比如,对应1万个样本结果),求事物的性质的参数,如线性回归的中的权重参数。
转自:算法channel
作者:alg-flody
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(1)人评论
电梯直达
正序浏览
fly2015
发表于 2017-11-15 11:37:32
很好 学习了!!!
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
最佳新人
积极上进,爱好学习
热心会员
经常帮助其他会员答疑
发表新帖
PeersLee
版主
关注
111
主题
139
帖子
27
粉丝
TA的主题
机器学习知识储备
2017-11-14
Kafka副本水位与leader epoch的讨论
2017-10-31
Spark 实时计算整合案例
2017-10-4
Apache Spark 2.2.0 中文文档 - GraphX Programming Guide | ApacheCN
2017-9-27
Elasticsearch大文件检索性能提升20倍实践(干货)
2017-9-20
24小时热文
kafka面试题精选
Nebula Flink Connector 在实时 ETL 的实践
Apache Doris 用户案例集
国家电网公司主数据管理系统技术规范
企业的主数据建设方法论与实践
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈