经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 其他 » 职业生涯 » 查看文章
《白话统计》——读书笔记_持续补充 - Lu-顺
来源:cnblogs  作者:Lu-顺  时间:2021/5/24 10:42:45  对本文有异议

三、分布

3.1 累计函数和概率密度函数

参考网站:累计函数和概率密度函数
①离散型数据
概率函数(概率分布、分布律):离散随机变量X取不同的值,对应不同的概率值。
概率分布函数(累计概率函数)F(x):概率函数取值的累加结果。

②连续型数据
概率密度函数(连续型数据概率函数)f(x):连续型数据,某点的概率为0。只能用某点数据密集程度表示概率分布情况。

左边是F(x)连续型随机变量分布函数画出的图形,右边是f(x)连续型随机变量的概率密度函数画出的图像,它们之间的关系就是,概率密度函数是分布函数的导函数。

3.4 正态分布(Normal Distribution)

(1)正态分布描述现象

普通分布,描述某些稳定但又受到一些偶然因素影响的现象。

(2)正态分布概率密度函数

(3)正态分布密度函数数学意义

  • f(x)永远大于0,左右对称,当x=μ,即等于均数时,概率密度函数达到最大值;
  • x离均数越远,f(x)值越小,距离无限远时,趋于0;
  • 标准差σ越大,f(x)值越小,分布形状越“矮”,峰度平坦;反之,越’瘦高‘。

正态分布由两个参数决定:均数和标准差。均数是位置参数,决定分布集中的位置;标准差是形状参数,决定分布的分散程度。

(4)正态分布统计规律

  • 1倍标准差面积:68.2%
  • 1.96倍标准差:95%
  • 2倍标准差:95.4%
  • 3倍标准差:99.7%,1000大概会有3次错误发生的概率。
  • 6倍标准差:之外的面积为百万分之2。100万份样品出现2次错误。

(5)小概率事件(P<0.05)

P<0.05,认为差异有统计学意义。对于正态分布来说,两侧面积小于5%。即均数往左往右各1.96倍标准差时,对应的左侧和右侧面积之和就是5%。这个概率很低,一般情况不会发生,认为是小概率事件。

(6)标准正态分布(Standarized Normal Distribution)——μ=0,σ=1

3.5 几个常见分布:t分布、x2分布,F分布

T检验对应t分布,x2检验对应x2分布,方差分析对应F分布。

(1)T分布

(2)x2分布

(3)F分布

四、数据资料分类

五、描述统计

六、中心极限定理和大数定理

七、假设检验

7.2 零假设和备择假设

零假设(无效假设Null Hypothesis):一般从正面做出假设(不具备XXX,没有XXX等)。

八、参数估计

九、置信区间

十、统计方法串讲

10.1 一般线性模型(General Linear Model)——方差分析与线性回归统计

①t检验、方差分析、线性回归用途

  • t检验——两组均值比较
  • 方差分析——多组均值比较
  • 线性回归——自变量对因变量的影响分析
    ②一般线性模型
    t检验、方差分析、线性回归等都属于一般线性模型,一般线性模型基本形式:

    ??y:因变量(反应变量、结局变量),x:自变量(解释变量、预测变量)。β0表示截距,反映自变量x=0时,y的均值。β1、β2表示斜率,反映自变量增加1单位,y值变动的大小。
    ??一般线性模型中,因变量必须是定量的(连续),自变量可以是定量或分类。自变量的不同形式对应不同的统计方法:

十一、正态性和方差齐性

①做正态性检验必要性
??保证样本数据的随机性,因为随机数就是正态分布的。
②正态性和方差齐性含义
??正态性和方差性是经典统计模型应用的两个前提条件,t检验、方差分析、线性回归等都需要满足这两个条件:

  • 正态性(Normality):严格上说是残差要符合正态分布,不过实际中都是对因变量进行正态性检验。
  • 方差齐性(Equality of Variances):即方差相等,自变量x每取一个值,因变量(严格说是残差)的方差基本相等。

11.1 用统计检验方法判断正态性

(1)基于峰度和偏度的SW(Shapiro-Wilk)检验

①峰度和偏度

  • 峰度(Kurtosis):分布形状是平坦还是尖峰,上下维度。
  • 偏度(Skewness):分布形状是否对称,左右维度。
    ②正态分布的峰度和偏度
    ??正态分布的峰度和偏度均为0。峰度>0,尖峰;峰度<0,平坦峰。偏度>0,右偏态(正偏);偏度<0,左偏态(负偏)。

(2)基于拟合优度KS、CVM、AD检验

KS(Kolmogorov-Smirnov)、CVM(Cramer-von Mises)、AD(Anderson-Darling)
①拟合优度思想
??基于理论分布与基于实际数据得到的分布之间的差异。这种思想不仅可以用于正态分布,还可以用于其他分布检验。
②正态分布拟合优度检验思路
??先求出正态分布的累积分布函数(CDF,Cumulative Distribution Function)——>样本数据与该函数差别——>差别不大,接近正态分布——>差别较大,样本数据可能不服从正态分布。
③三种方法对“差别”的定义
三种检验都基于此思想,区别在于对“差别”定义:

  • KS:取绝对值
  • CVM:取平方
  • AD:对CVM的改进

④参考网站
KS:KS
python正态检验方法:python正态检验方法

11.2 用描述的方法判断正态性——图形判断

(1)Q-Q图和P-P图

①Q-Q图含义和检验原理
??Q-Q(Quantile-Quantile),分位数-分位数图。横坐标,理论正态分位数,纵坐标,实际数据分位数。
??比较分位数和实际分位数差别。无差别,点集中在一条直线,正态分布。有差别,偏离直线较远。
②P-P图
??P-P(Probability-Probability),和Q-Q类似,用的是累计概率。

(2)茎叶图

(3)用四分位数间距和标准差进行简易判断

正态分布四分位间距(IQR)和标准差(s)之比大约为1.34。若IQR/s=1.34左右,基本满足正态分布。

11.3 方差分析中方差齐性判断

①方差齐性判断
??就是判断两组或多组的方差是否相等,样本抽样是不是随机的。方差不等会严重影响方差分析的F检验。
②各种检验方法
...................................

十二、T检验

原文链接:http://www.cnblogs.com/xiaoshun-mjj/p/14781327.html

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号