This website requires JavaScript.

统计学基础笔记(一)

一、均值 中位数 众数

找到下列数字中的均值(mean),中位数(median),和众数(mode)

23,29,20,32,23,21,33,25

median: 即选取中间的,先从大到小排序  20,21,23,23,25,29,32,33  因为中间有两位数据,所以我们取这两个数的均值 (23+25)/2

mode:众数是数据集中出现频率最多的数字,题目中23出现两次,是最多的,它就是众数

二、极差 中程数

求出以下数字机的极差(range)和中程数(midrange)

65,81,73,85,94,79,67,83,82

range : 极差指的是这些数字分开得有多远,计算方法是用其中最大的数减去最小的数94-65=29 , 这个数字越大表示最大数和最小数之间的差就越大,该数越小,数字之间就越紧密.这就是极差的概念.

midrange : 中程数则是考虑集中趋势的又一种方式,中程数的计算方式取的是最大数和最小数的平均值,(94+65)/2=79.5

三、茎叶图 (STEM and LEAF plot)

茎叶图能用帮助了解分布情况

一位统计者记录了一个篮球队12名球员中每一名在一场比赛中的得分,然后作出茎叶图(stem plot)来显示数据 。

image

问球队得了多少分 ,初看这张图可能会觉得有些难于理解 。 叶代表每位球员得分的个位数字,而茎表示十位数字,通常叶都表示最右的位或者说个位,而茎显示其他位,这样做的好处在于,列出了球员在分布中的位置。  这里可以看到大多数球员的得分都以0开头。得分以1开头的较小,只有一名球员得分以2开头,他实际的到20分。

茎叶图的好处在于,能够一眼看出0到9分的球员人数,得10到19分的球员人数,以及20分以上的球员人数

四、盒须图(box-and-whiskers)

盒须图用来展示中位数和散布情况较多,盒须图会表示出数据的散布情况,按照四分位进行划分,它能显示出数据的中位数在哪

餐厅的老板想知道顾客都来自何方,一天他决定收集顾客到餐厅的距离数据(以英里计),人们给出的距离数字如下,他想画一张图帮助理解,

14,6,3,2,4,15,11,8,1,7,2,1,3,4,10,22,20

首先我们先要寻找到中位数

image

然后找到小于中位数各数中的中位数,和大于中位数各数中的中位数,的到下四分位数和上四分位数,这相当于将数据集分成四个子集

image

结果如上图,然后我们根据数字实际画盒须图,做盒须图的第一件事情就是显示所有数据的范围

标出最小的1和22的位置(一般不需要这样标注)

image

将中间这一半的数据放到’盒’内,也就是第二个和第三个四分区间,第二个四份区间从2.5开始,然后第三个四分区间以12.5结束,然后绘制出盒,用黄色绘制,另外加上尖头,这样就显示了分布情况

image

最后要显示出来的是实际中位数,就我们粉红色标记的地方

image

image

这是我们的一般的做法

image

 

五、线行图(line)

线形图是随时间的趋势,也可以是一个变量对另一个变量的趋势

六、条形图(bar)

条形图适用于将事物归类,看每一类分别是怎么样的情况

七、饼图(pie)

饼图希望看到各部分的占比

八、统计:集中趋势 (Statistics:Central Tendency)

“集中趋势“是统计学课本上常见的词,一组数字的集中趋势这也叫做”平均数“,比平时更广义一些,我们这里说的“平均数”指的是描述集中趋势的某特定数值,或者说最能代表一组数据的一个数值,先来看几个例子吧,一个是均值Mean(Arithmetic mean 算数平均数) ,计算股票回报率时会学到几何平均数。除了均值还有中位数(median)和众数(mode)。用统计学的话说,这些都可以用来表示一组数据或是总体的集中趋势又或是样本的集中趋势,同时它们都是广义“平均数”的某种形态。 那么为什么不只用一个算数平均来确认我们的结果么。下面举个例子你就能明白。

image

上图中有个数值100是个离群值(outliner),这样的数字,比如平均房价,这个城市的房子大概都是10万美金,但是其中却有一栋房子价值1万亿美金,如果某人告诉你平均房价是1百万美金,你对这个城市可能会有十分错误的印象此时中位数的10万美金,是对城市真实房价的更好理解。类似地,中位数可能是组中更有代表性的数值,因为算术平均数受到离群值的影响有所偏离。离群数没有明确的定义,但离群数通常是一个明显与其他数字不同的数。有时候,离群值的产生来源于测量错误或其他原因。

九、统计:样本和总体(Sample and Population)

在统计中 希腊字母μ(miu)代表总体均值(Population mean),而字母X上面画一横表示样本值(Sample mean) 接着我们要用统计学书里面的数学公式表示出来

image

其中∑(xigema)的意思是求和,   求所有Xn之和(包括x1,x2等) n从1开始,最上面的n是指数量. 看起来非常的高级,其实就是求和然后除以各数

image

上图中计算总体均值用的是大N,之所以这样写因为我们样本比总体小..

让我们分解一下公式

image

十、统计:总体方差(Variance of population)

用一个数表示所有数值这损失了很多信息,我们不知道集合中的数字是接近该集中的趋势还是远离该集中的趋势 ,因此需要引入离中趋势衡量(measures of dispersion ),让我们举例说明:

image

上图中虽然μ都是2.5,但是右边那个数字集合中,每个数字都与均值离的远并不能代表他们,那么如何衡量呢?衡量的方式就算方差。

方差记做希腊字母 σ

这里同样的要进行求和,不过求和内容不再是单个数据点,而是xi减去总体均值然后平方,这个就是每个数到平均值的距离平方后的到正数。即集合中每个数同均值之间距离绝对值的平方之和,然后取这些的平均值,需要除以N

image

分解如下: 所有距离加起来为1

image

image

最后除以4的结果是 0.25。而另外一个计算出来的结果为6.25

十、统计:样本方差(Variance of sample)

样本方差的符号为 S1

其实跟总体方差公式差不多. 每个样本数字减去样本趋势平方之和除以总数量 . 如下图

image

但有个问题,取样时,有可能样本均值很接近总体均值,然后这个公式和实际切合的非常好. 但完全有可能总体均值在样本之外,你所取的数字有可能不包含实际总体均值,此时样本方差就低估了总体方差.因此我们上面一个公式通常会低估总体方差,另外有一个公式,它被证明是更好的公式,被称为总体方差的无偏估计(unbiased estimate of the population variance) 或者无偏差样本方差(unbiased sample variance) ,符号表示为S2

如下图,只是把下面的n代替成n-1

image

十一、统计:标准差(standard deviation)

标准差的符号为σ  (sigma ) 等于方差的平方根,如下图,那么为什么要有标准差呢?一是因为标准差的单位更好,如果数据点的单位是米那么其方差单位将是米^2  这样看起来会有点怪 ,取平方根以后单位回到米,这时候你就可以说标准差是多少多少米.然后我们以后还会学到钟形曲线(bell curve) 或假设分布是钟形曲线时,这可以帮助求得事务落才均值.这里就不展开讲了

image

让我们来做一些练习:

1.  假设有数字 1 2 3 87 ,这些是总体,那么均值是多少?

μ = (1+2+3+8+7)/5 =4.2

σ²  =  ((1-4.2)^2+(2-4.2)^2+(3-4.2)^2+(8-4.2)^2+(7-4.2)^2)/5 =38.8/5 =7.76

如果假设上面的是样本,那么样本方差如下

S²=38.8/(5-1) = 9.7

方差出来了那么标准差就很好计算

σ = √ 7.76 = 2.79

S = √9.7 = 3.11

0条评论
avatar