调查研究中样本量的确定
调查研究中样本量的确定(1)
在社会科学研究中,研究者常常会遇到这样得问题:“要掌握总体(population)情况,到底需要多少样本量(sample)?”,或者说“我要求调查精度达到95%,需要多少样本量?”。对此,我往往感到难以回答,因为要解决这个问题,需要考虑的因素是多方面的:研究的对象,研究的主要目的,抽样方法,调查经费…。本文将根据自己的经验,探讨在调查研究中确定调查所需样本量的一些基本方法,相信这些方法对于其他的社会调查研究也有一定的借鉴意义。
确定样本量的基本公式
在简单随机抽样的条件下,我们在统计教材中可以很容易找到确定调查样本量的公式:
&n
... id="fontzoom" style="word-break:break-all;Width:fixed" zzz="107109"> bsp; Z2 S2n = ------------ (1)
d2
其中:
Z:置信水平的Z统计量,如95%置信水平的Z统计量为1.96,99%的Z为2.68。
S:总体的标准差;
d :置信区间的1/2,在实际应用中就是容许误差,或者调查误差。
对于比例型变量,确定样本量的公式为:
&nb
... id="fontzoom" style="word-break:break-all;Width:fixed" zzz="107109"> sp; Z2 ( p ( 1-p))n = ----------------- (2)
d2
其中:
n :所需样本量
z:置信水平的z统计量,如95%置信水平的Z统计量为1.96,99%的为2.68
... id="fontzoom" style="word-break:break-all;Width:fixed" zzz="107109">
>p:目标总体的比例期望值
d:置信区间的半宽
关于调查精度
通常我们所说的调查精度可能有两种表述方法:绝对误差数与相对误差数。如对某市的居民进行收入调查,要求调查的人均收入误差上下不超过50元,这是绝对数表示法,这个绝对误差也就是公式(1)中置信区间半宽d。
而相对误差则是绝对误差与样本平均值的比值。例如我们可能要求调查收入与真实情况的误差不超过1%。假定调查城市的真实人均收入为10000元,则相对误差的绝对数是100元。
公式的应用方法
对于公式的应用,一些参数是我们可以事先确定的:Z值取决于置信水平,通常我们可以考虑95%的置信水平,那么Z=1.96;或者99%,Z=2.68。然后可以确定容许误差d(或者说精度),即我们可以根据实际情况指定置信区间的半宽度d。因此,公式应用的关键是如何确定总体的标准差S。如果我们可以估计出总体的方差(标准差),那么我们可以根据公式计算出样本量
... id="fontzoom" style="word-break:break-all;Width:fixed" zzz="107109"> :例如:要了解该城市的居民收入,假定我们知道该市居民收入的标准差为1500,要求的调查误差不超过100元,则在95%的置信水平下,所需的样本量为
n=1.962*15002/1002=8,643,600/10,000=864
即需要调查的样本量为864个。
最大样本量
以上公式只是理论上的,在实际调查中确定合理的样本量,必须考虑多方面的因素。
变异系数V=标准差S/平均值X<= 1
因此,我们知道人均收入的标准差应该小于平均值,就是说标准差应该在10000以下。当然,这对于我们确定样本量还不能起太大的作用。然而如果我们采用相对误差表述的精度,对公式(1)变形,我们有:
Z2(S2/X2) Z2V2 Z2
d2/X2 P2 P2
... id="fontzoom" style="word-break:break-all;Width:fixed" zzz="107109"> 其中P表示相对误差
根据上述公式,我们可以计算在相对误差一定的情况下,所需的最大样本量。以下是在置信程度95%的水平下,在不同相对误差下的最高样本量:
相对误差
1%
2%
3%
5%
10%
20%
样本量
38416
