基础统计学总结

对于基础的统计学知识进行总结,包括抽样、相关性分析等

统计基础

  1. 3\(\sigma\)原则

正态分布\(X\sim N(\mu,\sigma^2)\)中,

\[ P(\mu-\sigma\lt X\lt \mu+\sigma)=0.6826 \]

\[ P(\mu-2\sigma\lt X\lt \mu+2\sigma)=0.9545 \]

\[ P(\mu-3\sigma\lt X\lt \mu+3\sigma)=0.9973 \]

关于抽样

  1. 大数定律

如果随机变量总体存在有限的平均数和方差,则对于充分大的抽样数量\(n\),可以以几乎趋近于1的概率来期望抽样平均数与总体平均数的绝对离差.

\[ \lim_{n\to \infty}P(|\overline x-\overline X|\le\epsilon)=1 \]

其中,\(\epsilon\)为任意小的正数.

  1. 中心极限定理

大数定律论证了抽样平均数趋近于总体平均数的趋势,抽样平均数与总体平均数的离差不超过一定范围的概率大小问题则是由中心极限定理确定.

中心极限定理结论是:随机变量之和的分布函数向正态分布收敛

  1. 抽样形式
  • 简单随机抽样

  • 分层抽样 先依据特征将总体划分为多个部分,然后在各个子部分进行抽样.

  • 等距抽样 先将总体按照某一标准排列,然后按照固定的间隔进行抽取.

  • 整群抽样 先将总体(学生)按单位划分为多个群(班级),然后在各个群众进行抽取.

  • 多阶段抽样 先按总体的层次关系进行划分,再随机抽取高层次的群,然后依次按层次抽取.

  1. 抽样平均误差
  • 重复抽样 \[ \mu_x=\sqrt{\frac{\sigma^2}{n}} \]

  • 不重复抽样

\[ \mu_x=\sqrt{\frac{\sigma^2}{n}\frac{N-n}{N-1}} \]

关于相关性分析

  1. 皮尔逊线性相关系数 用于观察两个变量之间的线性关系

要求: - 变量之间是线性关系,都是连续数据 - 变量使正态分布,或者接近正态的单峰分布 - 变量之间的观测值成对,且相互独立

\[ r=\frac{Cov(X,Y)}{\sigma_X\sigma_Y} \]

  • r>0时,两个变量正相关,当\(x\)增大时,\(y\)也有增大的趋势
  • r<0时,两个变量负相关,当\(x\)减小时,\(y\)有增大的趋势

经验解释:

  • \(|r|\ge 0.8\)时,两个变量之间高度相关
  • \(0.5 \le|r| \gt 0.8\)时,两个变量之间中度相关
  • \(0.3 \le|r| \gt 0.5\)时,两个变量之间低度相关
  • \(|r| \gt 0.3\)时,两个变量之间相关程度极弱
  1. 斯皮尔曼等级相关系数 依据两列成对数据的各对等级数之差来计算,又被称为“等级差数法”

要求: 没有皮尔逊相关系数要求严格,不论变量的分布形态.

\[ \rho=\frac{6\sum_{i=1}^{N}d_i^2}{N(N^2-1)} \]

取值也是在\(0\sim 1\)之间

  1. 肯德尔等级相关系数

\[ Tau=\frac{C-D}{\frac{1}{2}N(N-1)} \]

其中,\(C\)表示\(X\)\(Y\)中拥有一致性的元素对数,\(D\)表示\(X\)\(Y\)中不一致的元素对数.同时上述公司只适用于\(X\)\(Y\)中不存在相同元素的情况.取值情况与皮尔逊系数一样.

-------------本文结束感谢您的阅读-------------
Donate comment here