Head First 深入浅出统计学习
本帖最后由 regan 于 2016-10-8 11:43 编辑static/image/hrline/1.gif
笔记地址:http://note.youdao.com/noteshare?id=3c1d4736ab1a0dab2d539830bf67706c
static/image/hrline/1.gif
第二章:集中趋势的度量——中庸之道
1)数学符号:
读作“西格玛x”,表示将所有x加起来
2)均值的专用符号:
读作“缪,miu”,均值计算公式:
3)处理频数:数据集中重复出现的数字的个数,用f代表频数,考虑频数均值可以表示如下,
4)异常值:与其他数据格格不入的极高或极低的数值
5)偏斜数据:当异常值将数据向左或向右“拉”时产生偏斜数据
6)中位数:位于中间的数字,若数据集个数为奇数,正好是中间值,若为偶数,取中间两个数的平均。
7)众数:是一批数字中最常见的数值,即频数最大的数值。如果一个数据集中有两个众数,那我们说这种数据是双峰数据。众数求解三步法:1。将疏浚中的不同类别或数值全部找出来 2。算出每个数值或类别的频数。3。挑出具有最高频数的一个或几个数值,即为众数。
总数必须存在于数据集中,总数是唯一能用于类别数据的平均数。
第三章:分散性与变异性的度量——强大的“距”
1)“距”用于度量数据的分布情况
2)极差:指数据的扩展范围,有点像测量数据的宽度,计算方法是用数据集中的最大值减去数据集中的最小值,最小值称为下界,最大值称为上界。
3)全距(极差)仅仅描述了数据的宽度,并没有描述数据在上、下界之间的分布形态。
4)四分位数:构建迷你距的一个办法是,仅使用数据中心周边的数值,为此需要按升序排列数据,然后将这些数据分成四个相等的数据块,每一个数据块包含四分之一的原有数据。使用介于两个分隔线之间的数值构成一个距。四分位数之间的距离成为”四分位距“(IQR)=上四分位数-下四分位数。
5)四分位距的有点事较少收到异常值的影响。
6)百分位数:将数据划分为100份,求百分位数的方法与求四分位数的方法类似。1。首先将数据按升序排列 2。为了求出n个数字的第k百分位数的位置,先计算
3。如果结果为整数,则百分位数位于
位和下一位数之间。取这两个位置上的数字的平均值,取得百分位数。
4。如果
不是整数,则将其向上取整,结果即百分位数的位置。
7)用箱线图绘制各种“距”
8)计算每个值与均值的平均距离
距离有正有负,正负距离会相互抵消,那怎么办?
答案是:先求平均!
9)方差:是度量数据分散性的一中方法,是数值与均值的距离的平方数的平均值:
10)标准差:方差开平方。为啥会有标准差,还拿距离说事。x-u平方之后单位变成了平方米,平方米是面积的度量而不是距离的度量,因此想到开方,即求得标准差。
标准差用
表示,读“西格玛”,是小写,其大写表示求和。
11)方差速算法:
12)计算方差是除数为n-1,而不是n,这是什么意思?是不是错了?后文给出答案!
13)标准分(或者叫Z分):使用标准分可以对不同数据集进行比较,而这些不同数据集的均值和标准差各不相同——标准分是对不同环境下的相关数据进行比较的一中方法。标准分通常用字母z表示,为了求出特定数值x的标准分,计算公式为:
14)标准分释义:标准分为我们提供了一中对不同数据集的数据进行比较的方法,这些不同数据集的均值和标准差甚至都各不一样。通过这种方法,我们可以把这些数值视为来自同一个数据集或数据分布,从而进行比较。
15)有时候可以将异常值定义为偏离均值3个标准差的数值。
第四章:概率计算
1)概率的计算:
S被称为概率空间,或称为样本空间,是表示所有可能结果的一中简便表示方法。可能发生的事件都是S的子集。
2)概率的图形表示:维恩图
3)对立事件:
4)条件概率:用它来度量与其他事件的发生情况相关的某个事件的概率。
5)概率树:帮助你以图形方式表示概率,还能帮助你计算条件概率。当你忘记贝叶斯定理时,概率树非常有用,因此你可以使用概率树进行辅助。
6)全概率公式:全概率公式是贝叶斯定理的分母
7)贝叶斯定理:已用在了垃圾邮件检测等方面
8)如果几个事件互不影响,则他们为独立事件。事件A发生并且事件B放生概率为:
第五章:离散概率分布的运用——善用期望
1。期望
2。方差与期望
3)期望的线性变换的通用公式:
页:
[1]