Проверка гипотезы о нормальном распределении. Критерий Пирсона для проверки гипотезы о виде закона распределения случайной величины
Задача 1.
Используя критерий Пирсона, при уровне значимости a = 0,05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200.
Решение.
1. Вычислим и выборочное среднее квадратическое отклонение .
2. Вычислим теоретические частоты учитывая, что n
= 200, h
= 2, = 4,695, по формуле
.
Составим расчетную таблицу (значения функции j (x ) приведены в приложении 1).
i |
||||
3. Сравним эмпирические и теоретические частоты. Составим расчетную таблицу, из которой найдем наблюдаемое значение критерия :
i |
|||||
Сумма |
По таблице критических точек распределения (приложение 6), по уровню значимости a
= 0,05 и числу степеней свободы k
= s
– 3 = 9 – 3 = 6 находим критическую точку правосторонней критической области (0,05; 6) = 12,6.
Так как =22,2 > = 12,6, гипотезу о нормальном распределении генеральной совокупности отвергаем. Другими словами, эмпирические и теоретические частоты различаются значимо.
Задача2
Представлены статистические данные.
Результаты измерений диаметров n
= 200 валков после шлифовки обобщены в табл. (мм):
Таблица
Частотный вариационный ряд диаметров валков
i | ||||||||
xi , мм |
||||||||
xi , мм |
||||||||
Требуется:
1) составить дискретный вариационный ряд, при необходимости упорядочив его;
2) определить основные числовые характеристики ряда;
3) дать графическое представление ряда в виде полигона (гистограммы) распределения;
4) построить теоретическую кривую нормального распределения и проверить соответствие эмпирического и теоретического распределений по критерию Пирсона. При проверке статистической гипотезы о виде распределения принять уровень значимости a = 0,05
Решение:
Основные числовые характеристики данного вариационного ряда найдем по определению. Средний диаметр валков равен (мм):
x
ср = = 6,753;
исправленная дисперсия (мм2):
D
= = 0,0009166;
исправленное среднее квадратическое (стандартное) отклонение (мм):
s
= = 0,03028.
Рис.
Частотное распределение диаметров валков
Исходное («сырое») частотное распределение вариационного ряда, т.е. соответствие ni
(xi
), отличается довольное большим разбросом значений ni
относительно некоторой гипотетической «усредняющей» кривой (рис.). В этом случае предпочтительно построить и анализировать интервальный вариационный ряд, объединяя частоты для диаметров, попадающих в соответствующие интервалы.
Число интервальных групп K
определим по формуле Стерджесса:
K
= 1 + log2n
= 1 + 3,322lgn
,
где n
= 200 – объем выборки. В нашем случае
K
= 1 + 3,322×lg200 = 1 + 3,322×2,301 = 8,644 » 8.
Ширина интервала равна (6,83 – 6,68)/8 = 0,01875 » 0,02 мм.
Интервальный вариационный ряд представлен в табл.
Таблица Частотный интервальный вариационный ряд диаметров валков.
k | ||||||||
xk , мм |
||||||||
Интервальный ряд может быть наглядно представлен в виде гистограммы частотного распределения.
Рис
. Частотное распределение диаметров валков. Сплошная линия – сглаживающая нормальная кривая.
Вид гистограммы позволяет сделать предположение о том, что распределение диаметров валков подчиняется нормальному закону, согласно которому теоретические частоты могут быть найдены как
nk
, теор = n
×N
(a
; s; xk
)×Dxk
,
где, в свою очередь, сглаживающая гауссова кривая нормального распределения определяется выражением:
N
(a
; s; xk
) = .
В этих выражениях xk
– центры интервалов в частотном интервальном вариационном ряде.
Например, x
1 = (6,68 + 6,70)/2 = 6,69. В качестве оценок центра a
и параметра s гауссовой кривой можно принять:
a
= x
ср.
Из рис. видно, что гауссова кривая нормального распределения в целом соответствует эмпирическому интервальному распределению. Однако следует удостовериться в статистической значимости этого соответствия. Используем для проверки соответствия эмпирического распределения эмпирическому критерий согласия Пирсона c2 . Для этого следует вычислить эмпирическое значение критерия как сумму
= ,
где nk
и nk
,теор – эмпирические и теоретические (нормальные) частоты, соответственно. Результаты расчетов удобно представить в табличном виде:
Таблица
Вычисления критерия Пирсона
[xk , xk+ 1), мм |
xk , мм |
nk ,теор |
||
Критическое значение критерия найдем по таблице Пирсона для уровня значимости a = 0,05 и числа степеней свободы d .f . = K – 1 – r , где K = 8 – число интервалов интервального вариационного ряда; r = 2 – число параметров теоретического распределения, оцененных на основании данных выборки (в данном случае, – параметры a и s). Таким образом, d .f . = 5. Критическое значение критерия Пирсона есть крит(a; d .f .) = 11,1. Так как c2эмп < c2крит, заключаем, что согласие между эмпирическим и теоретическим нормальным распределением является статистическим значимым. Иными словами, теоретическое нормальное распределение удовлетворительно описывает эмпирические данные.
Задача3
Коробки с шоколадом упаковываются автоматически. По схеме собственно-случайной бесповторной выборки взято 130 из 2000 упаковок, содержащихся в партии, и получены следующие данные об их весе:
Требуется используя критерий Пирсона при уровне значимости a=0,05 проверить гипотезу о том, что случайная величина X – вес упаковок – распределена по нормальному закону. Построить на одном графике гистограмму эмпирического распределения и соответствующую нормальную кривую.
Решение
1012,5
= 615,3846
Примечание:
В принципе в качестве дисперсии нормального закона распределения следует взять исправленную выборочную дисперсию. Но т.к. количество наблюдений – 130 достаточно велико, то подойдет и “обычная” .
Таким образом, теоретическое нормальное распределение имеет вид:
[xi ; xi+1 ]
Эмпирические частоты
niВероятности
pi
Теоретические частоты
npi
(ni-npi)2
Опр Критерий проверки гипотезы о предполагаемом законе неизвестного распределения называется критерием согласия.
Имеется несколько критериев согласия: $\chi ^2$ { хи-квадрат } К. Пирсона, Колмогорова, Смирнова и др.
Обычно теоретические и эмпирические частоты различаются. Случай расхождения может быть не случайным, значит и объясняется тем, что не верно выбрана гипотеза. Критерий Пирсона отвечает на поставленный вопрос, но как любой критерий он ничего не доказывает, а лишь устанавливает на принятом уровне значимости её согласие или несогласие с данными наблюдений.
Опр Достаточно малую вероятность, при которой событие можно считать практически невозможным называют уровнем значимости.
На практике обычно принимают уровни значимости, заключённые между 0,01 и 0,05, $\alpha =0,05$ - это $5 { \% } $ уровень значимости.
В качестве критерия проверки гипотезы примем величину \begin{equation} \label { eq1 } \chi ^2=\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } \qquad (1) \end{equation}
здесь $n_i -$ эмпирические частоты, полученные из выборки, $n_i" -$ теоретические частоты, найденные теоретическим путём.
Доказано, что при $n\to \infty $ закон распределения случайной величины { 1 } независимо от того, по какому закону распределена генеральная совокупность, стремится к закону $\chi ^2$ { хи-квадрат } с $k$ степенями свободы.
Опр Число степеней свободы находят по равенству $k=S-1-r$ где $S-$ число групп интервалов, $r-$ число параметров.
1) равномерное распределение: $r=2, k=S-3 $
2) нормальное распределение: $r=2, k=S-3 $
3) показательное распределение: $r=1, k=S-2$.
Правило . Проверка гипотезы по критерию Пирсона.
- Для проверки гипотезы вычисляют теоретические частоты и находят $\chi _ { набл } ^2 =\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } $
- По таблице критических точек распределения $\chi ^2$ по заданному уровню значимости $\alpha $ и числу степеней свободы $k$ находят $\chi _ { кр } ^2 ({ \alpha ,k })$.
- Если $\chi _ { набл } ^2 <\chi _ { кр } ^2 $ то нет оснований отвергать гипотезу, если не выполняется данное условие - то отвергают.
Замечание Для контроля вычислений применяют формулу для $\chi ^2$ в виде $\chi _ { набл } ^2 =\sum { \frac { n_i^2 } { n_i" } -n } $
Проверка гипотезы о равномерном распределении
Функция плотности равномерного распределения величины $X$ имеет вид $f(x)=\frac { 1 } { b-a } x\in \left[ { a,b }\right]$.
Для того, чтобы при уровне значимости $\alpha $ проверить гипотезу о том, что непрерывная случайная величина распределена по равномерному закону, требуется:
1) Найти по заданному эмпирическому распределению выборочное среднее $\overline { x_b } $ и $\sigma _b =\sqrt { D_b } $. Принять в качестве оценки параметров $a$ и $b$ величины
$a = \overline x _b -\sqrt 3 \sigma _b $, $b = \overline x _b +\sqrt 3 \sigma _b $
2) Найти вероятность попадания случайной величины $X$ в частичные интервалы $({ x_i ,x_ { i+1 } })$ по формуле $ P_i =P({ x_i 3) Найти теоретические { выравнивающие } частоты по формуле $n_i" =np_i $. 4) Приняв число степеней свободы $k=S-3$ и уровень значимости $\alpha =0,05$ по таблицам $\chi ^2$ найдём $\chi _ { кр } ^2 $ по заданным $\alpha $ и $k$, $\chi _ { кр } ^2 ({ \alpha ,k })$. 5) По формуле $\chi _ { набл } ^2 =\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } $ где $n_i -$ эмпирические частоты, находим наблюдаемое значение $\chi _ { набл } ^2 $. 6) Если $\chi _ { набл } ^2 <\chi _ { кр } ^2 -$ нет оснований, отвергать гипотезу. Проверим гипотезу на нашем примере. 1) $\overline x _b =13,00\,\,\sigma _b =\sqrt { D_b } = 6,51$ 2) $a=13,00-\sqrt 3 \cdot 6,51=13,00-1,732\cdot 6,51=1,72468$ $b=13,00+1,732\cdot 6,51=24,27532$ $b-a=24,27532-1,72468=22,55064$ 3) $P_i =P({ x_i $ P_2 =({ 3 $ P_3 =({ 7 $ P_4 =({ 11 $ P_5 =({ 15 $ P_6 =({ 19 В равномерном распределении если одинакова длина интервала, то $P_i -$ одинаковы. 4) Найдём $n_i" =np_i $. 5) Найдём $\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } $ и найдём $\chi _ { набл } ^2 $. Занесём все полученные значения в таблицу \begin{array} { |l|l|l|l|l|l|l| } \hline i& n_i & n_i" =np_i & n_i -n_i" & ({ n_i -n_i" })^2& \frac { ({ n_i -n_i" })^2 } { n_i" } & Контроль~ \frac { n_i^2 } { n_i" } \\ \hline 1& 1& 4,43438& -3.43438& 11,7950& 2,659898& 0,22551 \\ \hline 2& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 3& 3& 4,43438& -1,43438& 2,05744& 0,471463& 2,0296 \\ \hline 4& 3& 4,43438& -1,43438& 2,05744& 0,471463& 2,0296 \\ \hline 5& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 6& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline & & & & & \sum = \chi _ { набл } ^2 =3,261119& \chi _ { набл } ^2 =\sum { \frac { n_i^2 } { n_i" } -n } =3,63985 \\ \hline \end{array} $\chi _ { кр } ^2 ({ 0,05,3 })=7,8$ $\chi _ { набл } ^2 <\chi _ { кр } ^2 =3,26<7,8$ Вывод
отвергать гипотезу нет оснований. Правило, по которому гипотеза Я 0 отвергается или принимается, называется статистическим критерием.
В названии критерия, как правило, содержится буква, которой обозначается специально составленная характеристика из п. 2 алгоритма проверки статистической гипотезы (см. п. 4.1), рассчитываемая в критерии. В условиях данного алгоритма критерий назывался бы «в
-критерий». При проверке статистических гипотез возможны два типа ошибок: Вероятность а
допустить ошибку первого рода называется уровнем значимости критерия.
Если за р
обозначить вероятность допустить ошибку второго рода, то (l - р) -
вероятность не допустить ошибку второго рода, которая называется мощностью критерия.
Существует несколько типов статистических гипотез: Мы будем рассматривать гипотезу о законе распределения на примере критерия согласия х 2 Пирсона. Критерием согласия
называют статистический критерий проверки нулевой гипотезы о предполагаемом законе неизвестного распределения. В основе критерия согласия Пирсона лежит сравнение эмпирических (наблюдаемых) и теоретических частот наблюдений, вычисленных в предположении определенного закона распределения. Гипотеза # 0 здесь формулируется так: по исследуемому признаку генеральная совокупность распределена нормально. Алгоритм проверки статистической гипотезы # 0 для критерия х 1
Пирсона: 3) по имеющейся выборке объема п
рассчитываем специально составленную характеристику
, где: я, - эмпирические частоты,
- теоретические частоты, п -
объем выборки, h
- величина интервала (разность между двумя соседними вариантами), Нормализованные значения наблюдаемого признака, - табличная функция. Также теоретические частоты могут быть вычислены с помощью стандартной функции MS Excel НОРМРАСП по формуле
; 4) по выборочному распределению определяем критическое значение специально составленной характеристики xl P
5) при
гипотеза # 0 отвергается, при
гипотеза # 0 принимается. Пример.
Рассмотрим признак X
- величину показателей тестирования осужденных в одной из исправительных колоний по некоторой психологической характеристике, представленный в виде вариационного ряда: На уровне значимости 0,05 проверить гипотезу о нормальном распределении генеральной совокупности. 1. На основе эмпирического распределения можно выдвинуть гипотезу Н 0
: по исследуемому признаку «величина показателя тестирования по данной психологической характеристике» генеральная совокупность осу- жденных распределена нормально. Альтернативная гипотеза 1: по исследуемому признаку «величина показателя тестирования по данной психологической характеристике» генеральная совокупность осужденных не распределена нормально. 2. Вычислим числовые выборочные характеристики: Интервалы х г щ
х}
щ
3. Вычислим специально составленную характеристику j 2 . Для этого в предпоследнем столбце предыдущей таблицы найдем теоретические частоты по формуле
, а в последнем столбце проведем расчет характеристики % 2 . Получаем х 2
= 0,185. Для наглядности построим полигон эмпирического распределения и нормальную кривую по теоретическим частотам (рис. 6). Рис. 6.
4. Определим число степеней свободы s
: к = 5, т = 2, s = 5-2-1 = 2.
По таблице или с помощью стандартной функции MS Excel «ХИ20БР» для числа степеней свободы 5 = 2 и уровня значимости а =
0,05 найдем критическое значение критерия xl P .
=5,99.
Для уровня значимости а
= 0,01 критическое значение критерия х%.
= 9,2. 5. Наблюдаемое значение критерия х
=0,185 меньше всех найденных значений Хк Р.->
поэтому гипотеза Я 0 принимается на обоих уровнях значимости. Расхождение эмпирических и теоретических частот незначимое. Следовательно, данные наблюдений согласуются с гипотезой о нормальном распределении генеральной совокупности. Таким образом, по исследуемому признаку «величина показателя тестирования по данной психологической характеристике» генеральная совокупность осужденных распределена нормально. Пример 1
. Используя критерий Пирсона, при уровне значимости 0.05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200. Решение
находим с помощью калькулятора .
. Пример 2
. Используя критерий Пирсона, при уровне значимости 0.05 проверить, согласуется ли гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объема n = 200.
Показатели центра распределения
. Сравним эмпирические и теоретические частоты. Составим расчетную таблицу, из которой найдем наблюдаемое значение критерия: Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение K набл, тем сильнее довод против основной гипотезы.
Критерий согласия Пирсона
: Статистический критерий
Критерий согласия х 2 Пирсона
x i
Кол-во, f i
x i * f i
Накопленная частота, S
(x - x ср) * f
(x - x ср) 2 * f
(x - x ср) 3 * f
Частота, f i /n
5
15
75
15
114.45
873.25
-6662.92
0.075
7
26
182
41
146.38
824.12
-4639.79
0.13
9
25
225
66
90.75
329.42
-1195.8
0.13
11
30
330
96
48.9
79.71
-129.92
0.15
13
26
338
122
9.62
3.56
1.32
0.13
15
21
315
143
49.77
117.95
279.55
0.11
17
24
408
167
104.88
458.33
2002.88
0.12
19
20
380
187
127.4
811.54
5169.5
0.1
21
13
273
200
108.81
910.74
7622.89
0.065
200
2526
800.96
4408.62
2447.7
1
Средняя взвешенная
Показатели вариации
.
.
R = X max - X min
R = 21 - 5 = 16
Дисперсия
Несмещенная оценка дисперсии
Среднее квадратическое отклонение .
Каждое значение ряда отличается от среднего значения 12.63 не более, чем на 4.7
.
.
нормальному закону
n = 200, h=2 (ширина интервала), σ = 4.7, x ср = 12.63 i
x i
u i
φ i
n* i
1
5
-1.63
0,1057
9.01
2
7
-1.2
0,1942
16.55
3
9
-0.77
0,2943
25.07
4
11
-0.35
0,3752
31.97
5
13
0.0788
0,3977
33.88
6
15
0.5
0,3503
29.84
7
17
0.93
0,2565
21.85
8
19
1.36
0,1582
13.48
9
21
1.78
0,0804
6.85
i
n i
n* i
n i -n* i
(n i -n* i) 2
(n i -n* i) 2 /n* i
1
15
9.01
-5.99
35.94
3.99
2
26
16.55
-9.45
89.39
5.4
3
25
25.07
0.0734
0.00539
0.000215
4
30
31.97
1.97
3.86
0.12
5
26
33.88
7.88
62.14
1.83
6
21
29.84
8.84
78.22
2.62
7
24
21.85
-2.15
4.61
0.21
8
20
13.48
-6.52
42.53
3.16
9
13
6.85
-6.15
37.82
5.52
∑
200
200
22.86
Её границу K kp = χ 2 (k-r-1;α) находим по таблицам распределения «хи-квадрат» и заданным значениям σ, k = 9, r=2 (параметры x cp и σ оценены по выборке).
Kkp(0.05;6) = 12.59159; Kнабл = 22.86
Наблюдаемое значение статистики Пирсона попадает в критическую область: Кнабл > Kkp, поэтому есть основания отвергать основную гипотезу. Данные выборки распределены не по нормальному закону
. Другими словами, эмпирические и теоретические частоты различаются значимо.
Решение
.
Таблица для расчета показателей. x i
Кол-во, f i
x i * f i
Накопленная частота, S
(x - x ср) * f
(x - x ср) 2 * f
(x - x ср) 3 * f
Частота, f i /n
0.3
6
1.8
6
5.77
5.55
-5.34
0.03
0.5
9
4.5
15
6.86
5.23
-3.98
0.045
0.7
26
18.2
41
14.61
8.21
-4.62
0.13
0.9
25
22.5
66
9.05
3.28
-1.19
0.13
1.1
30
33
96
4.86
0.79
-0.13
0.15
1.3
26
33.8
122
0.99
0.0375
0.00143
0.13
1.5
21
31.5
143
5
1.19
0.28
0.11
1.7
24
40.8
167
10.51
4.6
2.02
0.12
1.9
20
38
187
12.76
8.14
5.19
0.1
2.1
8
16.8
195
6.7
5.62
4.71
0.04
2.3
5
11.5
200
5.19
5.39
5.59
0.025
200
252.4
82.3
48.03
2.54
1
Средняя взвешенная
Показатели вариации
.
Абсолютные показатели вариации
.
Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.
R = X max - X min
R = 2.3 - 0.3 = 2
Дисперсия
- характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).
Несмещенная оценка дисперсии
- состоятельная оценка дисперсии.
Среднее квадратическое отклонение
.
Каждое значение ряда отличается от среднего значения 1.26 не более, чем на 0.49
Оценка среднеквадратического отклонения
.
Проверка гипотез о виде распределения
.
1. Проверим гипотезу о том, что Х распределено по нормальному закону
с помощью критерия согласия Пирсона.
где n* i - теоретические частоты:
Вычислим теоретические частоты, учитывая, что:
n = 200, h=0.2 (ширина интервала), σ = 0.49, x ср = 1.26 i
x i
u i
φ i
n* i
1
0.3
-1.96
0,0573
4.68
2
0.5
-1.55
0,1182
9.65
3
0.7
-1.15
0,2059
16.81
4
0.9
-0.74
0,3034
24.76
5
1.1
-0.33
0,3765
30.73
6
1.3
0.0775
0,3977
32.46
7
1.5
0.49
0,3538
28.88
8
1.7
0.89
0,2661
21.72
9
1.9
1.3
0,1691
13.8
10
2.1
1.71
0,0909
7.42
11
2.3
2.12
0,0422
3.44
21.72
-2.28
5.2
0.24
9
20
13.8
-6.2
38.41
2.78
10
8
7.42
-0.58
0.34
0.0454
11
5
3.44
-1.56
2.42
0.7
∑
200
200
12.67
Поэтому критическая область для этой статистики всегда правосторонняя: }