Head First 深入浅出统计学习-数据分析-About云-梭伦科技

regan 发表于 2016-9-29 11:06:32

Head First 深入浅出统计学习

本帖最后由 regan 于 2016-10-8 11:43 编辑

static/image/hrline/1.gif
笔记地址：http://note.youdao.com/noteshare?id=3c1d4736ab1a0dab2d539830bf67706c
static/image/hrline/1.gif

第二章：集中趋势的度量——中庸之道
1）数学符号：

读作“西格玛x”,表示将所有x加起来
2）均值的专用符号：

读作“缪，miu”，均值计算公式：

3）处理频数：数据集中重复出现的数字的个数，用f代表频数，考虑频数均值可以表示如下，

4）异常值：与其他数据格格不入的极高或极低的数值
5）偏斜数据：当异常值将数据向左或向右“拉”时产生偏斜数据
6）中位数：位于中间的数字，若数据集个数为奇数，正好是中间值，若为偶数，取中间两个数的平均。
7）众数：是一批数字中最常见的数值，即频数最大的数值。如果一个数据集中有两个众数，那我们说这种数据是双峰数据。众数求解三步法：1。将疏浚中的不同类别或数值全部找出来 2。算出每个数值或类别的频数。3。挑出具有最高频数的一个或几个数值，即为众数。
总数必须存在于数据集中，总数是唯一能用于类别数据的平均数。
第三章：分散性与变异性的度量——强大的“距”
1）“距”用于度量数据的分布情况
2）极差：指数据的扩展范围，有点像测量数据的宽度，计算方法是用数据集中的最大值减去数据集中的最小值，最小值称为下界，最大值称为上界。
3）全距（极差）仅仅描述了数据的宽度，并没有描述数据在上、下界之间的分布形态。
4）四分位数：构建迷你距的一个办法是，仅使用数据中心周边的数值，为此需要按升序排列数据，然后将这些数据分成四个相等的数据块，每一个数据块包含四分之一的原有数据。使用介于两个分隔线之间的数值构成一个距。四分位数之间的距离成为”四分位距“（IQR）=上四分位数-下四分位数。
5）四分位距的有点事较少收到异常值的影响。
6）百分位数：将数据划分为100份，求百分位数的方法与求四分位数的方法类似。1。首先将数据按升序排列 2。为了求出n个数字的第k百分位数的位置，先计算

3。如果结果为整数，则百分位数位于

位和下一位数之间。取这两个位置上的数字的平均值，取得百分位数。
4。如果

不是整数，则将其向上取整，结果即百分位数的位置。
7）用箱线图绘制各种“距”

8）计算每个值与均值的平均距离

距离有正有负，正负距离会相互抵消，那怎么办？
答案是：先求平均！
9）方差：是度量数据分散性的一中方法，是数值与均值的距离的平方数的平均值：

10）标准差：方差开平方。为啥会有标准差，还拿距离说事。x-u平方之后单位变成了平方米，平方米是面积的度量而不是距离的度量，因此想到开方，即求得标准差。
标准差用

表示，读“西格玛”，是小写，其大写表示求和。

11）方差速算法：

12）计算方差是除数为n-1,而不是n,这是什么意思？是不是错了？后文给出答案！

13）标准分（或者叫Z分）：使用标准分可以对不同数据集进行比较，而这些不同数据集的均值和标准差各不相同——标准分是对不同环境下的相关数据进行比较的一中方法。标准分通常用字母z表示，为了求出特定数值x的标准分，计算公式为：

14）标准分释义：标准分为我们提供了一中对不同数据集的数据进行比较的方法，这些不同数据集的均值和标准差甚至都各不一样。通过这种方法，我们可以把这些数值视为来自同一个数据集或数据分布，从而进行比较。
15）有时候可以将异常值定义为偏离均值3个标准差的数值。
第四章：概率计算
1）概率的计算：

S被称为概率空间，或称为样本空间，是表示所有可能结果的一中简便表示方法。可能发生的事件都是S的子集。
2）概率的图形表示：维恩图
3）对立事件：

4）条件概率：用它来度量与其他事件的发生情况相关的某个事件的概率。

5）概率树：帮助你以图形方式表示概率，还能帮助你计算条件概率。当你忘记贝叶斯定理时，概率树非常有用，因此你可以使用概率树进行辅助。

6）全概率公式：全概率公式是贝叶斯定理的分母

7）贝叶斯定理：已用在了垃圾邮件检测等方面

8）如果几个事件互不影响，则他们为独立事件。事件A发生并且事件B放生概率为：

第五章：离散概率分布的运用——善用期望
1。期望

2。方差与期望

3）期望的线性变换的通用公式：

页: [1]

About云-梭伦科技's Archiver

Head First 深入浅出统计学习