Понятие вариации в статистике. Вариация и вариационный ряд, размах вариации

Показатели вариации. При изучении варьирующего признака у единиц совокупности нельзя ограничиваться лишь расчетом средней величины из отдельных вариантов, так как одна и та же средняя может относиться далеко не к одинаковым по составу совокупностям.

Вариацией признака называется различие индивидуальных значений признака внутри изучаемой совокупности.

Термин «вариация» произошел от латинского variatio – изменение, колеблемость, различие. Однако не всякие различия принято называть вариацией.

Под вариацией в статистике понимают такие количественные изменения величины исследуемого признака в пределах однородной совокупности, которые обусловлены перекрещивающимся влиянием действия различных факторов. Колеблемость отдельных значений характеризуют показатели вариации. Чем больше вариация, тем дальше в среднем отдельные значения лежат друг от друга.

Различают вариацию признака в абсолютных и относительных величинах.

К абсолютным показателям относятся: размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, дисперсия. Все абсолютные показатели имеют ту же размерность, что и изучаемые величины.

К относительным показателям относятся коэффициенты осцилляции, линейного отклонения и вариации.

Показатели абсолютные. Рассчитаем абсолютные показатели, характеризующие вариацию признака.

Размах вариации, представляет собой разность между максимальным и минимальным значением признака.

R = Xmax – Xmin.

Показатель размаха вариации не всегда применим, так как он учитывает только крайние значения признака, которые могут сильно отличаться от всех других единиц.

Более точно можно определить вариацию в ряду при помощи показателей, учитывающих отклонения всех вариантов от средней арифметической.

Таких показателей в статистике два: среднее линейное и среднее квадратическое отклонение.

Среднее линейное отклонение (L) представляет собой среднее арифметическое из абсолютных значений отклонений отдельных вариантов от средней.

Практическое использование среднего линейного отклонения заключается в следующем, с помощью этого показателя анализируется состав работающих, ритмичность производства, равномерность поставок материалов.

Недостаток этого показателя заключается в том, что он усложняет расчеты вероятного типа, затрудняет применение методов математической статистики.

Среднее квадратическое отклонение () является наиболее распространенным и общепринятым показателем вариации. Оно несколько больше среднего линейного отклонения. Для умеренно асимметричных распределений установлено следующее соотношение между ними

Для его исчисления каждое отклонение от средней возводится в квадрат, все квадраты суммируются (с учетом весом), после чего сумма квадратов делится на число членов ряда и из частного извлекается корень квадратный.

Все эти действия выражает следующая формула

т.е. среднее квадратическое отклонение представляет собой корень квадратный из средней арифметической квадратов отклонений от средней.

Среднее квадратическое отклонение является мерилом надежности средней. Чем меньше σ, тем лучше среднее арифметическое отражает собой всю представляемую совокупность.

Средняя арифметическая из квадратов отклонений вариантов значений признака от средней величины носит название дисперсии (), которая рассчитывается по формулам

Отличительной особенностью данного показатели является то, что при возведении в квадрат () удельный вес малых отклонений уменьшается, а больших увеличивается в общей сумме отклонений.

Дисперсия обладает рядом свойств, некоторые из них позволяют упростить её вычисление:

1. Дисперсия постоянной величины равна 0.

Если , то и .

Тогда .

2. Если все варианты значений признака (x) уменьшить на одно и то же число, то дисперсия не уменьшится.

Пусть , но тогда в соответствии со свойствами средней арифметической и .

Дисперсия в новом ряду будет равна

Т.е. дисперсия в ряду равна дисперсии первоначального ряда .

3. Если все варианты значений признака уменьшить в одно и то же число раз (k раз), то дисперсия уменьшится в k2 раз.

Пусть , тогда и .

Дисперсия же нового ряда будет равна

4. Дисперсия, рассчитанная по отношению к средней арифметической, является минимальной. Средний квадрат отклонений, рассчитанный относительно произвольного числа , больше дисперсии, рассчитанной по отношению к средней арифметической, на квадрат разности между средней арифметической и числом , т.е. . Дисперсия от средней имеет свойство минимальности, т.е. она всегда меньше дисперсий, исчисленных от любых других величин. В этом случае, когда приравниваем к 0 и, следовательно, не вычисляем отклонения, формула принимает такой вид:

Выше был рассмотрен расчет показателей вариации для количественных признаков, но в экономических расчетах может ставиться задача оценки вариации качественных признаков. Например, при изучении качества изготовленной продукции, продукцию можно разделить на качественную и бракованную.

В таком случае речь идет об альтернативных признаках.

Альтернативными признаками называются такие, которыми одни единицы совокупности обладают, а другие нет. Например, наличие производственного стажа у абитуриентов, ученая степень у преподавателей ВУЗов и т.д. Наличие признака у единиц совокупности условно обозначаем через 1, а отсутствие – 0. Тогда, если долю единиц, обладающих признаком (в общей численности единиц совокупности), обозначить через р, а долю единиц, не обладающих признаком, через q, дисперсию альтернативного признака можно рассчитать по общему правилу. При этом p + q = 1 и, значит, q = 1– p.

Сначала рассчитываем среднее значение альтернативного признака:

Рассчитаем среднее значение альтернативного признака

,

т.е. среднее значение альтернативного признака равно доле единиц, обладающих данным признаком.

Дисперсия же альтернативного признака будет равна:

Таким образом, дисперсия альтернативного признака равняется произведению доли единиц, обладающих данным признаком, на долю единиц, не обладающих данным признаком.

А среднее квадратическое отклонение будет равно =.

Показатели относительные. Для целей сравнения колеблемости различных признаков в одной и той же совокупности или же при сравнении колеблемости одного и того же признака в нескольких совокупностях представляют интерес показатели вариации, выраженные в относительных величинах. Базой для сравнения служит средняя арифметическая. Эти показатели вычисляются как отношение размаха вариации, среднего линейного отклонения или среднего квадратического отклонения к средней арифметической или медиане.

Чаще всего они выражаются в процентах и определяют не только сравнительную оценку вариации, но и дают характеристику однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33%. Различают следующие относительные показатели вариации:

1. Коэффициент осцилляции отражает относительную колеблемость крайних значений признака вокруг средней.

3. Коэффициент вариации оценивает типичность средних величин.

.

Чем меньше , тем однороднее совокупность по изучаемому признаку и типичнее средняя. Если ≤33%, то распределение близко к нормальному, а совокупность считается однородной. Из приведенного примера вторая совокупность однородна.

Виды дисперсий и правило сложения дисперсий. Наряду с изучением вариации признака по всей совокупности в целом часто бывает необходимо проследить количественные изменения признака по группам, на которые разделяется совокупность, а также и между группами. Такое изучение вариации достигается посредством вычисления и анализа различных видов дисперсии.

При этом можно определить три показателя колеблемости признака в совокупности:

1. Общую вариацию совокупности, которая является результатом действия всех причин. Эта вариация может быть измерена общей дисперсией (), характеризующей отклонения индивидуальных значений признака совокупности от общей средней

.

2. Вариацию групповых средних, выражающих отклонения групповых средних от общей средней и отражающих влияние того фактора, по которому произведена группировка. Эта вариация может быть измерена так называемой межгрупповой дисперсией (δ2)

,

где - групповые средние, а -общая средняя для всей совокупности, и - численность отдельных групп.

3. Остаточную (или внутригрупповую) вариацию, которая выражается в отклонении отдельных значений признака в каждой группе от их групповой средней и, следовательно, отражает влияние всех прочих факторов кроме положенного в основу группировки. Поскольку вариацию в каждой группе отражает групповая дисперсия

,

то для всей совокупности остаточную вариацию будет отражать средняя из групповых дисперсий. Эту дисперсию называют средней из внутригрупповых дисперсий () и рассчитывается она по формуле

Это равенство, имеющее строго математическое доказательство, известно, как правило сложения дисперсий.

Правило сложения дисперсий позволяет находить общую дисперсию по её компонентам, когда индивидуальные значения признака неизвестны, а в распоряжении имеются только групповые показатели.

Коэффициент детерминации. Правило сложения дисперсии позволяет выявить зависимость результатов от определенных факторов при помощи коэффициента детерминации.

Оно характеризует влияние признака, положенного в основание группировки, на вариацию результативного признака. Корреляционное отношение изменяется в пределах от 0 до 1. Если , то группировочный признак не оказывает влияния на результативный. Если , то результативный признак изменяется только в зависимости от признака, положенного в основание группировки, а влияние прочих факторных признаков равно нулю.

Показатели асимметрии и эксцесса. В области экономических явлений строго симметричные ряды встречаются крайне редко, чаще приходится иметь дело с асимметричными рядами.

В статистике для характеристики асимметрии пользуются несколькими показателями. Если учесть, что в симметричном ряду средняя арифметическая совпадает по значению с модой и медианой, то наиболее простым показателем асимметрии () будет разность между средней арифметической и модой, т.е.

Величину эксцесса рассчитывают по формуле

Если >0, то эксцесс считают положительным (распределение островершинно), если <0, то эксцесс считается отрицательным (распределение низковершинно).

Вариация – это различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени. К показателям вариации относятся: размах вариации, среднее линейное отклонение, дисперсия и среднее квадратическое отклонение, коэффициент вариации.

Абсолютные показатели:
размах вариации R, представляющий собой разность между максимальным и минимальным значениями признака: .

Размах вариации показывает лишь крайние отклонения признака и не отражает отклонений всех вариантов в ряду. При изучении вариации нельзя ограничиваться только определением ее размаха. Для анализа вариации необходим показатель, который отражает все колебания варьирующего признака и дает обобщенную характеристику. Простейшим показателем такого типа является среднее линейное отклонение.

Среднее линейное отклонение представляет собой среднюю арифметическую абсолютных значений отклонений отдельных вариантов от их средней арифметической (при этом всегда предполагают, что среднюю вычитают из варианта: ()).

Среднее линейное отклонение для несгруппированных данных:

,

где n – число членов ряда; для сгруппированных данных:

,

где — сумма частот вариационного ряда.

Дисперсия признака представляет собой средний квадрат отклонений вариантов от их средней величины, она вычисляется по формулам простой и взвешенной дисперсий (в зависимости от исходных данных).

Простая дисперсия для несгруппированных данных:

;

взвешенная дисперсия для вариационного ряда:

.

Дисперсия обладает определенными свойствами, два из которых:

1) если все значения признака уменьшить или увеличить на одну и ту же постоянную величину А, то дисперсия от этого не изменится;

2) если все значения признака уменьшить или увеличить в одно и то же число раз (i раз).

То дисперсия соответственно уменьшится или увеличится в раз. Используя второе свойство дисперсии, разделив все варианты на величину интервала, можно получить формулу вычисления дисперсии в вариационных рядах с равными интервалами по способу моментов:

,

где -дисперсия, исчисленная по способу моментов;

i – величина интервала;

– новые (преобразованные) значения вариантов (А – условный ноль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой);

— момент второго порядка;

— квадрат момента первого порядка.

Среднее квадратическое отклонение равно корню квадратному из дисперсии: для несгруппированных данных:


,

для вариационного ряда:


.

Среднее квадратическое отклонение – это обобщающая характеристика размеров вариации признака в совокупности; оно показывает, на сколько в среднем отклоняются конкретные варианты от их среднего значения; является абсолютной мерой колеблемости признака и выражается в тех же единицах, что и варианты, поэтому экономически хорошо интерпретируется.

Относительные показатели:
Коэффициент вариации представляет собой выраженное в процентах отношение среднего квадратического отклонения к средней арифметической:

.

Также коэффициент вариации используется как характеристика однородности совокупности. Если , то колеблемость незначительная, если , то колеблемость умеренная-средняя, если , то колеблемость значительная, если , то совокупность однородная.

Коэффициент осцилляции:

.

Относительное линейное отклонение:

.

Вариация признаков обусловлена различными факторами, некоторые из этих факторов можно выделить, если статистическую совокупность разбить на группы по какому-либо признаку. Тогда, наряду с изучением вариации признака по всей совокупности в целом, становится возможным изучить вариацию для каждой из составляющих ее группы, а также и между этими группами. В простейшем случае, когда совокупность расчленена на группы по одному фактору, изучение вариации достигается посредством исчисления и анализа трех видов дисперсий: общей, межгрупповой и внутригрупповой.

Общая дисперсия измеряет вариацию признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Она равна среднему квадрату отклонений отдельных значение признака х от общей средней величины и может быть вычислена как простая дисперсия или взвешенная дисперсия.

Межгрупповая дисперсия характеризует систематическую вариацию результативного признака, обусловленную влиянием признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений групповых (частных) средних от общей средней :

,

где f – численность единиц в группе.

Внутригрупповая (частная) дисперсия отражает случайную вариацию, т.е. часть вариации, обусловленную влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировка. Она равна среднему квадрату отклонений отдельных значений признака внутри группы х от средней арифметической этой группы x i (групповой средней) и может быть исчислена как простая дисперсия

или как взвешенная дисперсия .

На основании внутригрупповой дисперсии по каждой группе, т.е. на основании можно определить общую среднюю из внутригрупповых дисперсий: .

Согласно правилу сложения дисперсий общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсий:

.

Пользуясь правилом сложения дисперсий, можно всегда по двум известным дисперсиям определить третью – неизвестную. Чем больше доля межгрупповой дисперсии в общей дисперсии, тем сильнее влияние группировочного признака на изучаемый признак.

Поэтому в статистическом анализе широко используется эмпирический коэффициент детерминации — показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии результативного признака и характеризующий силу влияния группировочного признака на образование общей вариации:

.

Эмпирический коэффициент детерминации показывает долю вариации результативного признака у под влиянием факторного признака х (остальная часть общей вариации у обуславливается вариацией прочих факторов). При отсутствии связи эмпирический коэффициент детерминации равен нулю, а при функциональной связи – единице.

Эмпирическое корреляционное отношение – это корень квадратный из эмпирического коэффициента детерминации: .

Он показывает тесноту связи между группировочным и результативным признаками. Эмпирическое корреляционное отношение может принимать значения от 0 до 1. Если связь отсутствует, то корреляционное отношение равно нулю, т.е. все групповые средние будут равны между собой, межгрупповой вариации не будет. Значит, группировочный признак никак не влияет на образование общей вариации. Если связь функциональная, то корреляционное отношение будет равно единице. В этом случае дисперсия групповых средних равна общей дисперсии , т.е. внутригрупповой вариации не будет. Это означает, что группировочный признак целиком определяет вариацию изучаемого результативного признака. Чем значение корреляционного отношения ближе к единице, тем теснее, ближе к функциональной зависимости связь между признаками.

Задание 2. Относительные показатели

Вариант 10. Имеются следующие данные о численности населения за 1999 г. и территории по двум странам:

Страна

Численность населения (млн. чел.)

Территория (тыс. км 2)

Молдова

64.6

Украина

49.7

603.7

Определить:

    Плотность населения по обеим странам.

    Относительный показатель сравнения по численности населения.

    Решение

    Плотность населения рассчитывается как относительный показатель интенсивности (ОПИ), характеризующий степень распространения или уровень развития того или иного явления в определенной среде. Он рассчитывается как отношение показателя, характеризующего явление, к показателю, характеризующему среду распространения явления.

    ОПИ Молдова =чел/км 2 . Т.е. плотность населения Молдавы 31,15 человека на 1 км 2 .

    ОПИ Азербайджан =чел/км 2 . Т.е. плотность населения Украины 82,33 человека на 1 км 2 .

    ОПСр=. Т.е. территория Украины в 20,708 раза (или на 1970%) больше территории Молдавии.

    Задание 3. Средние показатели

    Вариант 10. Имеются следующие данные о распределении численности безработных женщин, зарегистрированных службами занятости, по возрастным группам на конец 1999 г. (тыс.чел.):

    Возраст

    менее 20

    20-25

    25-30

    30-35

    35-40

    40-45

    45-50

    50 и старше

    Численность безработных

    12,7

    11,3

    Найти среднее значение возраста зарегистрированной безработной.

    Решение

    Для того, чтобы рассчитать среднюю арифметическую интервального ряда, надо сначала перейти к условному дискретному ряду из средних значений интервалов. Если имеются интервалы без указания нижней границы или верхней границы (50 и старше), то соответствующее значение устанавливают таким образом, чтобы получился ряд с равновеликими интервалами. В данном случае условный дискретный ряд имеет вид:

    Возраст

    17,5

    22,5

    27,5

    32,5

    37,5

    42,5

    47,5

    52,5

    Численность населения

    12,7

    11,3


    ,

    где x i i -тое значение признака,

    n i – частота x i , k – число различных значений признака в совокупности.

    . Т.е. среднее значение возраста 35,0 лет.

    Задание 4. Ряды динамики

    Вариант 10. Имеются следующие данные о динамике среднегодовой численности населения Украины (млн. чел.):

    Годы

    1995

    1996

    1997

    1998

    1999

    Численность населения

    51,3

    50,9

    50,4

    50,0

    49,7

    Определить:

    Абсолютные приросты (цепные и базисные).

    Средний абсолютный прирост.

    Темпы роста (цепные и базисные).

    Темпы прироста (цепные и базисные).

    Абсолютное значение 1% прироста.

  1. Среднегодовой темп роста.

    Решение

    Абсолютный прирост характеризует размер увеличения или уменьшения изучаемого явления за определенный период времени. Он определяется как разность между данным уровнем и предыдущим (цепной) или первоначальным (базисный).

    Для динамического ряда , состоящего из n+1 уровней, абсолютный прирост определяется таким образом:

    цепной , где – текущий уровень ряда, –уровень, предшествующий .

    базисный , где – текущий уровень ряда, – начальный уровень ряда.

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    Средний абсолютный прирост рассчитывается по формуле

    ,

    где – конечный уровень ряда.

    Т. е. среднегодовая численность населения Украины за данный период времени снижалась в среднем на 0,4 млн. человек в год.

    Темпом роста называется отношение данного уровня явления к предыдущему (цепной) или начальному (базисный) уровню, выраженное в процентах. Темпы роста вычисляются по формулам:

    цепной .

    базисный .

    Темпом прироста называется отношение абсолютного прироста к предыдущему (цепной) или начальному (базисный) уровню, выраженное в процентах. Темпы прироста вычисляются по формулам:

    цепной .

Информация о средних уровнях исследуемых совокупностей обычно бывает недостаточной для глубокого анализа изучаемого процесса или явления. Необходимо учитывать разброс или вариацию отдельных значений изучаемого признака, которая является важной характеристикой исследуемой совокупности.

Вариацией называется колеблемость, многообразие, изменчивость значения признака у единиц совокупности.

Вариация порождается комплексом условий, действующих на совокупность и ее единицы. Например, вариация оценок на экзамене в вузе порождается, в частности, различными способностями студентов, неодинаковым временем, затрачиваемым ими на самостоятельную работу, различием социально-бытовых условий. Именно вариация и предопределяет необходимость статистики. Если бы все студенты получали одинаковые оценки или, например, семьи имели одинаковые доходы, то необходимость в статистическом исследовании отпала бы.

Измерение вариаций дает возможность оценить степень воздействия на данный признак других варьирующих признаков, установить, какие факторы и в какой степени влияют на смертность населения, финансовое положение предприятий, урожайность зерновых культур и т.п. Определение вариации необходимо при организации выборочного наблюдения, построении статистических моделей, разработке материалов экспертных опросов и во многих других случаях.

Каким же образом статистика дает количественную оценку степени колеблемости признака в совокупности, измеряет вариацию? Для этой цели используют такие показатели, как размах вариации, среднее линейное отклонение, дисперсия, среднее квадратическое отклонение, коэффициент вариации. Все эти показатели находят широкое применение в социально-экономической статистике, поэтому рассмотрим их сущностную и логическую основы.

Показатели вариации и способы их расчета

Показатели вариации делятся на две группы: абсолютные и относительные.

К абсолютным показателям относятся размах вариации, среднее линейное отклонение, дисперсия и среднее квадратическое отклонение.

В число относительных показателей вариации входят коэффициент вариации, относительное линейное отклонение и др.

Размах вариации

Этот показатель вычисляется как разность между наибольшим и наименьшим значениями варьирующего признака:

Он показывает, насколько велико различие между единицами совокупности, имеющими самое маленькое (А"т(п) и самое большое значение признака (Хтах). Например, различие между максимальной и минимальной пенсией разных групп населения, уровнем дохода различных категорий работающих или нормами выработки у рабочих определенной специальности или квалификации.

Размах является важной характеристикой вариации, он дает первое общее представление о различии единиц внутри совокупности. Этот показатель выражается в тех именованных числах, в каких выражены значения признака.

Особенность размаха вариации заключается в том, что он зависит лишь от двух крайних значений признака. По этой причине его целесообразно применять в тех случаях, когда особое значение имеет либо минимальный, либо максимальный вариант, т.е. когда размах вариации имеет большое смысловое значение. Например, им определяются пределы, в которых могут колебаться размеры тех или иных параметров деталей; его используют при оценке различного рода рисков. Другая сторона этой особенности заключается в том, что на величину размаха вариации большое влияние оказывает случайность. Так как из статистического ряда берутся только два значения признака, причем крайние в ряду, на размах этих значений могут оказывать влияние причины случайного характера, то и размах вариации может быть зависимым от причин случайного характера.

С отмеченной особенностью связано и то обстоятельство, что показатель размаха вариации не учитывает частот в вариационном ряду распределения.

По данным выборочного обследования произведена группировка вкладчиков по размеру вклада в Сбербанке города:

Определите:

1) размах вариации;

2) средний размер вклада;

3) среднее линейное отклонение;

4) дисперсию;

5) среднее квадратическое отклонение;

6) коэффициент вариации вкладов.

Решение:

Данный ряд распределения содержит открытые интервалы. В таких рядах условно принимается величина интервала первой группы равна величине интервала последующей, а величина интервала последней группы равна величине интервала предыдущей.

Величина интервала второй группы равна 200, следовательно, и величина первой группы также равна 200. Величина интервала предпоследней группы равна 200, значит и последний интервал будет иметь величину, равную 200.

1) Определим размах вариации как разность между наибольшим и наименьшим значением признака:

Размах вариации размера вклада равен 1000 рублей.

2) Средний размер вклада определим по формуле средней арифметической взвешенной.

Предварительно определим дискретную величину признака в каждом интервале. Для этого по формуле средней арифметической простой найдём середины интервалов.

Среднее значение первого интервала будет равно:

второго - 500 и т. д.

Занесём результаты вычислений в таблицу:

Размер вклада, руб. Число вкладчиков, f Середина интервала, х xf
200-400 32 300 9600
400-600 56 500 28000
600-800 120 700 84000
800-1000 104 900 93600
1000-1200 88 1100 96800
Итого 400 - 312000

Средний размер вклада в Сбербанке города будет равен 780 рублей:

3) Среднее линейное отклонение есть средняя арифметическая из абсолютных отклонений отдельных значений признака от общей средней:

Порядок расчёта среднего линейонго отклонения в интервальном ряду распределения следующий:

1. Вычисляется средняя арифметическая взвешенная, как показано в п. 2).

2. Определяются абсолютные отклонения вариант от средней:

3. Полученные отклонения умножаются на частоты:

4. Находится сумма взвешенных отклонений без учёта знака:

5. Сумма взвешенных отклонений делится на сумму частот:

Удобно пользоваться таблицей расчётных данных:

Размер вклада, руб. Число вкладчиков, f Середина интервала, х
200-400 32 300 -480 480 15360
400-600 56 500 -280 280 15680
600-800 120 700 -80 80 9600
800-1000 104 900 120 120 12480
1000-1200 88 1100 320 320 28160
Итого 400 - - - 81280

Среднее линейное отклонение размера вклада клиентов Сбербанка составляет 203,2 рубля.

4) Дисперсия - это средняя арифметическая квадратов отклонений каждого значения признака от средней арифметической.

Расчёт дисперсии в интервальных рядах распределения производится по формуле:

Порядок расчёта дисперсии в этом случае следующий:

1. Определяют среднюю арифметическую взвешенную, как показано в п. 2).

2. Находят отклонения вариант от средней:

3. Возводят в квадрат отклонения каждой варианты от средней:

4. Умножают квадраты отклонений на веса (частоты):

5. Суммируют полученные произведения:

6. Полученная сумма делится на сумму весов (частот):

Расчёты оформим в таблицу:

Размер вклада, руб. Число вкладчиков, f Середина интервала, х
200-400 32 300 -480 230400 7372800
400-600 56 500 -280 78400 4390400
600-800 120 700 -80 6400 768000
800-1000 104 900 120 14400 1497600
1000-1200 88 1100 320 102400 9011200
Итого 400 - - - 23040000

Вариация – это изменение (колеблемость) значений признака в пределах изучаемой совокупности при переходе от одного объекта (группы объектов), или от одного случая к другому. Абсолютные и относительные показатели вариации, характеризующие колеблемость значений варьирующего признака, позволяют, в частности, измерить степень связи и взаимозависимости между признаками, определить степень однородности совокупности, типичности и устойчивости средней, определить величину погрешности выборочного наблюдения, статистически оценить закон распределения совокупности и т. п.

В этой теме необходимо уяснить сущность (смысл), назначение и способы вычисления каждого показателя вариации, рассматриваемого в курсе теории статистики: размах вариации, среднее линейное отклонение, средний квадрат отклонений (дисперсию), среднее квадратическое отклонение, относительные коэффициенты вариации (коэффициент осцилляции, коэффициент среднего линейного отклонения, коэффициент вариации).

Размах вариации (R ) представляет собой разность между максимальным (х max) и минимальным (х min) значениями признака в совокупности (в ряду распределения):

R = х max - х min. (5.1)

Мерой других показателей вариации является разность не между крайними значениями признака, а средняя разность между каждым значением признака и средней величиной этих признаков. Разность между отдельным значением признака и средней называют отклонением.

Среднее линейное отклонение вычисляется по следующим формулам:

по индивидуальным (несгруппированным) данным

; (5.2)

по вариационным рядам (сгруппированным данным)

. (5.3)

Так как алгебраическая сумма отклонений индивидуальных значений признака от средней (согласно нулевому свойству) всегда равна нулю, то при расчете среднего линейного отклонения используется арифметическая сумма отклонений, взятая по модулю, т.е.
.

Среднее линейное отклонение имеет ту же размерность, что и признак, для которого оно исчисляется.

Дисперсия и среднее квадратическое отклонение. Среднее линейное отклонение относительно редко применяется для оценки вариации признака. Поэтому обычно вычисляются дисперсия ( 2) и среднее квадратическое отклонение (). Эти показатели применяются не только для оценки вариации признака, но и для измерения связи между ними, для оценки величины ошибки выборочного наблюдения и других целей.

Дисперсия признака рассчитывается по формулам:

по первичным данным

; (5.4)

по вариационным рядам

. (5.5)

Среднее квадратическое отклонение представляет собой корень квадратный из дисперсии:

по первичным данным

; (5.6)

по вариационным рядам

. (5.7)

Среднее квадратическое отклонение так же, как и среднее линейное отклонение, имеет ту же размерность, что и сам исходный признак.

Дисперсию можно определить и как разность между средним квадратом вариантов и квадратом их средней величины, т. е.
. (5.8)

В этом случае по первичным данным дисперсия равна:

(5.9)

Применительно к сгруппированным данным, расчет дисперсии этим способом в развернутом виде представим в таком виде:

. (5.10)

Для рядов распределения с равными интервалами значение дисперсии можно вычислить, применяя способ условных моментов, т. е.

, (5.11)

где
- первый условный момент; (5.12)

- второй условный момент. (5.13)

Среднее квадратическое отклонение по способу условных моментов определяется по формуле:

(5.14)

Преобразуя выражение расчета дисперсии по способу условных моментов, получим формулу вида:
(5.15)

На основе одних и тех же исходных данных получим одинаковое значение дисперсии.

Относительные показатели вариации вычисляются как отношение ряда абсолютных показателей вариации к их средней арифметической и выражаются в процентах:

коэффициент осцилляции -
; (5.16)

коэффициент относительного линейного отклонения -
; (5.17)

коэффициент вариации -
. (5.18)

Задача 1 . Рассмотрим способы расчета показателей вариации на основе данных табл. 5.1.

Таблица 5.1. Исходные данные для расчета показателей вариации

Затраты времени на производство деталей мин

Количество деталей, шт. (f)

Середина интервала (х)

; к = 2

Приведенный ряд распределения ранжированный, поэтому здесь легко найти минимальное значение признака, оно равно 8 мин. (10 - 2), и максимальное, равное 18 мин. (16 + 2). Значит, размах вариации признака в этом ряду составит 10 мин., т. е.

R = x max – x min = 18 – 8 = 10 мин.

Вычислим среднее линейное отклонение. Прежде всего необходимо вычислить среднюю величину . Все вычисления будем вести в табличной форме (табл. 5.1.), отводя для каждой вычислительной операции графу в таблице.

Поскольку исходные данные представлены рядом распределения, то

мин.

мин.

Покажем способы расчета дисперсии:

а) обычным способом (по определению):

;

б) как разность между средним квадратом и квадратом средней величины:

Для определения величины дисперсии по этой формуле необходимо вычислить средний квадрат вариантов признака по формуле:

;

 2 =178,6 – (13,2) 2 =4,36;

в) по способу условных моментов:

;

;

г) на основе преобразования формулы расчета дисперсии по способу условных моментов имеем:

Дисперсия – число отвлеченное, не имеющее единиц измерения.

Среднее квадратическое отклонение вычислим путем извлечения корня квадратного из дисперсии:

мин.

По способу условных моментов величину среднего квадратического отклонения определим так:

Вычислим относительные показатели вариации:

%;

%;

%.

Основным относительным показателем вариации является коэффициент вариации (V). Он используется для сравнительной оценки меры колеблемости признаков, выраженных в различных единицах измерения.

Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков (в частности альтернативной изменчивости качественных признаков). В этом случае каждая единица изучаемой совокупности либо обладает каким-то свойством, либо нет (например, каждый взрослый человек либо работает, либо нет). Наличие признака у единиц совокупности обозначают 1, а отсутствие –0; долю же единиц совокупности, обладающих изучаемым признаком, обозначают p, а не обладающих им – q. Дисперсия альтернативного признака определяется по формуле:

; (5.19)

p + q = 1 (5.20)

Если, например, доля поступивших в университет равна 30%, а не поступивших – 70%, то дисперсия равна 0,21(0,3 · 0,7). максимальное значение произведения pq равно 0,25 (при условии, когда одна половина единиц обладает данным признаком, а другая половина нет: (0,5 · 0,5 = 0,25).

Способ разложения общей дисперсии. Для оценки влияния различных факторов, определяющих колеблемость индивидуальных значений признака, воспользуемся разложением общей дисперсии на составляющие: на так называемую групповую дисперсию и среднюю из внутригрупповых дисперсий:

, (5.21)

где
– общая дисперсия, характеризующая вариацию признака как результат влияния всех факторов, определяющих индивидуальные различия единиц совокупности.

Вариацию признака, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия  2 , которая является мерой колеблемости частных средних по группам
вокруг общей средней и исчисляется по формуле:

, (5.22)

где n j – число единиц совокупности в каждой группе;

j – порядковый номер группы.

Вариацию признака, обусловленную влиянием всех прочих факторов, кроме группировочного (факторного), характеризует в каждой группе внутригрупповая дисперсия:

, (5.23)

где i – порядковый номер x и f в пределах каждой группы.

По совокупности в целом средняя из внутригрупповых дисперсий определяется по формуле:

(5.24)

Отношение межгрупповой дисперсии  2 к общей
даст коэффициент детерминации:

(5.25)

который характеризует долю вариации результативного признака, обусловленную вариацией факторного признака, положенного в основание группировки.

Показатель, полученный как корень квадратный из коэффициента детерминации, называется коэффициентом эмпирического корреляционного отношения, т.е.:

(5.26)

Он характеризует тесноту связи между результативным и факторным (положенным в основу группировки) признаками. Численное значение коэффициента эмпирического корреляционного отношения имеет два знака: . При решении вопроса о том, с каким знаком его следует брать, необходимо иметь ввиду: если вариация факторного и результативного признаков идет синхронно в одном и том же направлении (возрастает или убывает), то корреляционные отношение берется со знаком плюс; если же изменение этих признаков идет в противоположных направлениях, то оно берется со знаком минус.

Для вычисления групповых и межгрупповых дисперсий можно применять любой из описанных выше способов исчисления среднего квадрата отклонений.

Задача 2. Вычислим все названные дисперсии по исходным данным табл. 5.2.

Таблица 5.2. Распределение посевной площади озимой пшеницы по урожайности

Номер участка

Урожайность, ц/га

Посевная площадь, га

Вычислим среднюю урожайность озимой пшеницы по всем участкам (общая средняя):

ц/га.

Общую дисперсию найдем по формуле:

В гр. 6 табл. 5.2. вычислим значения для расчета среднего квадрата вариантов признака:

.

Находим общую дисперсию:

Урожайность зависит от многих факторов (качество почвы, размер внесения органических и минеральных удобрений, качество семян, сроки сева, уход за посевами и др.) Общая дисперсия в данном случае измеряет колеблемость урожайности за счет всех факторов.

Задача 3. Разобьем совокупность участков на две группы: I группа – посевные площади, на которых не вносились органические удобрения; II – площади, на которых они вносились. К первой группе отнесем участки 1-4, а ко второй – 4-8. По данным этих групп рассчитаем остальные из необходимых нам дисперсий, используя уже произведенные в табл. 5.2. вычисления.

Таблица 5.3. Расчетные данные для вычисления межгрупповой и групповых дисперсий

Номер участка

Урожайность, ц/га (х)

Посевная площадь, га (f)

Номер участка

Урожайность, ц/га (х)

Посевная площадь, га (f)

Определяем:

для I группы:

для II группы:

а) групповую среднюю

а) групповую среднюю

ц/га;

ц/га;

б) средний квадрат вариантов признака

;

;

в) групповую дисперсию

в) групповую дисперсию

Определяем среднюю из групповых дисперсий:

.

Находим межгрупповую дисперсию:

Средняя из групповых дисперсий измеряет колеблемость признака за счет всех прочих факторов, кроме положенного в основание группировки (разграничения на группы), а межгрупповая – за счет именно этого фактора. Сумма этих дисперсий должна дать общую дисперсию, а именно:

Отношение межгрупповой дисперсии к общей в нашем примере даст следующее значение коэффициента детерминации:

, или 71,8%,

т. е. вариация урожайности озимой пшеницы на 71,8% зависит от вариации размеров внесения органических удобрений. Остальные же 28,2% вариации урожайности зависит от влияния всех остальных факторов, кроме размеров внесения органических удобрений.

Коэффициент эмпирического корреляционного отношения составит:

.

Это говорит о том, что внесение органических удобрений оказывает весьма существенное влияние на урожайность.