1、离群值按产生原因分为两类:
a)第一类离群值是总体固有变异性的极端表现,这类离群值与样本中其余观测值属于同一总体;
b)第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果,或产生于观测、记录、计算中的失误,这类离群值与样本中其余观测值不属于同一总体。对离群值的判定通常可根据技术上或物理上的理由直接进行,例如当试验者已经知道试验偏离了规定的试验方法,或测试仪器发生问题等。当上述理由不明确时,可用本标准规定的方法。
2、离群值的三种情形:
本标准在下述不同情形下判断样本中的离群值:
a)上侧情形:根据实际情况或以往经验,离群值都为高端值
;b)下侧情形:根据实际情况或以往经验,离群值都为低端值;
c)双侧情形:根据实际情况或以往经验,离群值可为高端值,也可为低端值。
3、检出离群值个数的上限
应规定在样本中检出离群值个数的上限(与样本量相比应较小),当检出离群值个数超过了这个上限时,对此样本应作慎重的研究和处理。
4、单个离群值情形
a)依实际情况或以往经验选定,选定适宜的离群值检验规则(格拉布斯检验、狄克逊检验等);
b)确定适当的显着性水平,
c)根据显着性水平及样本量,确定检验的临界值;d)由观测值计算相应统计量的值,根据所得值与临界值的比较结果作出判断。
5、判定多个离群值的检验规则
在允许检出离群值的个数大于1的情况下,重复使用检验规则进行检验。若没有检出离群值,则整个检验停止;若检出离群值,当检出的离群值总数超过上限时,检验停止,对此样本应慎重处理,否则,采用相同的检出水平和相同的规则,对除去已检出的离群值后余下的观测值继续检验。
离群值处理
1、处理方式
处理离群值的方式有:
a)保留离群值并用于后续数据处理;
b)在找到实际原因时修正离群值,否则予以保留;
c)剔除离群值,不追加观测值;
d)剔除离群值,并追加新的观测值或用适宜的插补值代替。
2、处理规则
对检出的离群值,应尽可能寻找其技术上和物理上的原因,作为处理离群值的依据。应根据实际问题的性质,权衡寻找和判定产生离群值的原因所需代价、正确判定离群值的得益及错误剔除正常观测值的风险,以确定实施下述三个规则之一:
a)若在技术上或物理上找到了产生离群值的原因,则应剔除或修正;若未找到产生它的物理上和技术上的原因,则不得剔除或进行修正。
b)若在技术上或物理上找到产生离群值的原因,则应剔除或修正;否则,保留歧离值,剔除或修正统计离群值;在重复使用同一检验规则检验多个离群值的情形,每次检出离群值后,都要再检验它是否为统计离群值。若某次检出的离群值为统计离群值,则此离群值及在它前面检出的离群值(含歧离值)都应被剔除或修正。
c)检出的离群值(含歧离值)都应被剔除或进行修正。
3、备案
被剔除或修正的观测值及其理由应予记录,以备查询。