搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
大数据扩展学习
›
数据分析
›
介绍解说
›
统计思维:程序员数学之概率统计
0
1
4
分享
统计思维:程序员数学之概率统计
regan
2016-9-27 13:47:23
发表于
介绍解说
[显示全部楼层]
阅读模式
关闭右栏
1
7589
About云VIP帮助找工作和提升
本帖最后由 regan 于 2016-9-27 13:47 编辑
笔记地址:
http://note.youdao.com/noteshare ... b1fd1d40ba8823ce341
第一章:程序员的统计思维
1)本书网址
www.oreilly.com/catalog/0636920020745
或
www.oreilly.com.cn/index.php?func=book&isnb=978-7-115-31737-7
2)术语
经验之谈:个人随意收集的证据,而不是通过精心设计并经过研究得到的
直观效应:表示发生了某种有意思的事情的度量或汇总统计量
人为:由于偏差、测量错误或其他错误导致的直观效应
队列:一组被调查者
横断面研究:搜集群体在特定时间点的数据的研究
字段:数据库中组成记录的变量名称
纵贯研究:跟踪群体。随着时间推移对同一组人反复采集数据的研究
过采样:为了避免样本量过少,而增加某个子群体数量
总体:要研究的一组事务,通常是一群人,但这个术语也可以用于动物、蔬菜和矿产
原始数据:未经或只经过很少的检查、计算或解读而采集和编码的值
重编吗:通过对原始数据进行计算或其他逻辑处理得到的值
记录:数据库中关于一个人或其他对象的信息的集合
代表性:如果人群中的每一个成员都有同等的机会进入样本,那么这个样本就具有代表性
被调查者:参与调查的人
样本:总体的一个子集,用于搜集数据
统计显著:若一个直观效应不太可能是由随机因素引起的,就是统计显著的
汇总统计量:通过计算将一个数据集归结到一个数字或少量的几个数字,而这个数字能表示数据的某些特点
表:数据库中若干记录的集合
第二章:描述性统计量
第三章:累积分布函数
PMF的不足:如果处理的数据较少,PMF很合适;但随着数据的增加,每个值的概率就会降低,而随机噪声的影响就会增大。
CDF(Cumulative Distribution Function):是值到其在百分等级的映射,cdf是一个越阶函数
条件分布:就是根据某个条件选择的数据子集的分布。
四分差(interquartile range):表示筒体分散情况的值,等于75和25百分等级之间的差。
百分位数(percentile):与百分等级相关联的数值
百分等级(percentile rank):分布中小于或等于给定的值在全部值中所占的百分比
放回(replacement):在抽样过程中,“有放回”表示对于每次抽样,总体都是不变的。“无放回”表示每个元素只能选择一次。
在抽样(resampling):根据由样本计算得到的分布重新生成新的随机样本的过程。
第四章:连续分布
指数分布(exponential distribution):观察一系列事件之间的间隔时间(interarrivel time),若事件在每个时间点发生的概率相同,那么间隔时间的分布
正态分布:也称为高斯分布,因其可以近似描述很多现象而成为最常用的分布。目前对正态分布的CDF还没有一种准确的表达,最常用的方式是误差函数(error function)表示,误差函数是一种特殊的函数,表示为erf(x)。
术语:
连续分布(continuous distribution):由连续函数描述的分布。
语料库(corpus):特定语言中用作样本的征文文本。
经验分布(empirical distribution):样本中值的分布。
误差函数(error function):一种特殊的数学函数,因源自误差度量研究而得名。
一次频词(hapaxlegomenon):表示语料库中只出现一次的词。
间隔时间(interarrival time):两个事件的时间间隔。
模型(model):一种有效的简化。
正态概率图(normal probability plot):一种统计图形,用于表示样本中排序后的值与其服从正态分布时的期望值之间的关系。
秩变换(rankit):元素的期望值,该元素位于服从正态分布的已排序列表中。
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(1)人评论
电梯直达
正序浏览
wx_Mg3sRtQ9
发表于 2016-10-13 01:48:17
非常感谢
回复
使用道具
举报
显身卡
还有一些帖子被系统自动隐藏,点此展开
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
最佳新人
积极上进,爱好学习
热心会员
经常帮助其他会员答疑
发表新帖
regan
新手上路
关注
40
主题
194
帖子
33
粉丝
TA的主题
Spark性能优化(八):Shuffle调优
2019-12-16
Spark性能调优(六):数据本地性
2019-12-9
Spark性能调优(五):缓存与Checkpoint
2019-12-9
Spark性能调优(四):广播大变量
2019-11-28
Spark性能优化(三):序列化与压缩
2019-11-27
24小时热文
Flink CDC:新一代实时数据集成框架
蚂蚁面试就是不一样
如何高效学习
人情世故速查速用大全集
框架思维
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈