Коэффициент парной корреляции в Excel. Построить матрицу парных коэффициентов корреляции

Контрольная работа №2

Вариант№5

Задание1. Используя компьютерные технологии, провести корреляционно-регрессионный анализ исследуемых экономических показателей и построить регрессионную модель………………………..…..3

1.1 Построение корреляционного поля ………………………………………4

1.2 Построение матрицы коэффициентов парной корреляции……………6

1.3 Построение и анализ однофакторных регрессионных моделей линейного и экспонентного вида средствами встроенных функций ТП MS Excel…………………………………………………………………………...6

1.4 Построение линейной однофакторной регрессионной модели……….10

1.5 Выводы………………………………………………………………………15

Задание 2. Используя компьютерные технологии, решить задачи линейного программирования……………………………………………….18

а) Задача оптимального планирования производства……………….19

1. Математическую постановку задачи……………………………………..19

2. Размещение на рабочем листе ТП MS Excel исходных данных, расчёт значений ограничений, расчёт значений целевой функции……………...19

3. Формулировка математической модели задачи в терминах ячеек рабочего листа ТП MS Excel…………………………………………………..20

4. Поиск оптимального решения поставленной задачи средствами надстройки «Поиск решения»………………………………………………..20

5. Анализ результатов………………………………………………………….21

б) Задача оптимизации плана перевозок (транспортная задача)…23

1. Математическую постановку задачи……………………………………..23

2. Размещение данных на рабочем листе ТП MS Excel …………………...24

3. Постановка задачи в терминах рабочего листа Excel для использования утилиты «Поиск решения»….…………………………25

4. Анализ результатов………………………………………………………….26

Список использованной литературы………………………………………..28

Задание 1. Используя компьютерные технологии, провести корреляционно-регрессионный анализ исследуемых экономических показателей и построить регрессионную модель.

В качестве инструментария исследования использовать:



Инструменты надстройки Пакет Анализа ТП MS Excel;

Встроенные функции библиотеки Stats (Statistics) CKM Maple.

Условия задания 1:

По выборочным данным исследовать влияние факторов X1, X2 и Х3 на результативный признак Y.

Построить корреляционное поле и сделать предположение о наличии и типе связи между исследуемыми факторами;

Оценив тесноту связи между исследуемыми факторами, построить многофакторную (однофакторную) линейную регрессионную модель вида Y=f(X1,X2 Х3)или вида Y=f(X).

Оценить:

Адекватность уравнения регрессии по значению коэффициента детерминированности R 2 ;

Значимость коэффициентов уравнения регрессии по t- критерию Стьюдента при заданном уровне доверительной вероятности р=0,05;

Степень случайности связи между каждым факторам Х и признаком Y (критерий Фишера);

Зависимость между показателями Х 1 , Х 2 , Х 3 основных фондов и объемом валовой продукции У предприятия одной из отраслей промышленности характеризуется следующими данными:

Вариант 5

X 1 1.5 2.6 3.5 4.8 5.9 6.3 7.2 8.9 9.5 11.1 15.0
X 2 10.2 15.3 18.4 20.5 24.7 25.6 27.3 28.3 29.6 30.1 31.0
X 3 1.1 2.3 3.5 4.1 5.7 6.6 7.3 8.5 9.8 10.1 12.0
Y

Решение задания 1.

Решение задания 1 предполагает.

1. Построение корреляционного поля.

2. Построение матрицы коэффициентов парной корреляции.

3. Построение и анализ однофакторных регрессионных моделей линейного и экспонентного вида средствами встроенных функций ТП MS Excel.

4. Построение линейных однофакторных регрессионных моделей средствами надстройки «Пакет анализа».

5. Выводы.

Построение корреляционного поля.

Разместим таблицу с исходными данными в ячейках A3:D15 рабочего листа Excel.

Приложение1.1
Y X1 X2 X3
1,5 10,2 1,1
2,6 15,3 2,3
3,5 18,4 3,5
4,8 20,5 4,1
5,9 24,7 5,7
6,3 25,6 6,6
7,2 27,3 7,3
8,9 28,3 8,5
9,5 29,6 9,8
11,1 30,1 10,1
?

Используя возможности мастера диаграмм ТП MS Excel, построим корреляционное поле, то есть представим графически связь между результирующим признаком Y и каждым из факторов X. Из графиков видно, что между результирующим признаком Y и каждым из факторов X существует прямо пропорциональная зависимость, приближающаяся к линейной.

.

.

Исследуем тесноту и характер связи между факторами.

Построение матрицы коэффициентов парной корреляции.

Используя надстройку «Пакет анализа» ТП MS Excel (Сервис – Анализ данных – Корреляция), построим матрицу коэффициентов парной корреляции. Окно инструмента «Корреляция» представлено на рисунке 1. Матрица коэффициентов парной корреляции представлена на рисунке 2.

Рис.1. –Окно «Корреляция»

Рис.2. – Матрица коэффициентов парной корреляции.

Из этой матрицы видно, что все рассматриваемые факторы X1 – X3 имеют тесную связь с результативным признаком Y. Кроме того, все факторы Х между собой мультиколлинеарны. Поэтому построение многофакторной модели вида Y=f(Х1,Х2,Х3) невозможно.

1. Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х ; оценить статистическую значимость коэффициентов корреляции r (Y , X i); выбрать наиболее информативный фактор.

2. Построить модель парной регрессии с наиболее информативным фактором; дать экономическую интерпретацию коэффициента регрессии.

3. Оценить качество модели с помощью средней относительной ошибки аппроксимации, коэффициента детерминации и F – критерия Фишера (принять уровень значимости α=0,05).

4. С доверительной вероятностью γ=80% осуществить прогнозирование среднего значения показателя Y (прогнозные значения факторов приведены в Приложении 6). Представить графически фактические и модельные значения Y , результаты прогнозирования.

5. Методом включения построить двухфакторные модели, сохраняя в них наиболее информативный фактор; построить трехфакторную модель с полным перечнем факторов.

6. Выбрать лучшую из построенных множественных моделей. Дать экономическую интерпретацию ее коэффициентов.

7. Проверить значимость коэффициентов множественной регрессии с помощью t –критерия Стьюдента (принять уровень значимости α=0,05). Улучшилось ли качество множественной модели по сравнению с парной?

8. Дать оценку влияния факторов на результат с помощью коэффициентов эластичности, бета– и дельта– коэффициентов.

Задача 2. Моделирование одномерного временного ряда

В Приложении 7 приведены временные ряды Y(t) социально-экономических показателей по Алтайскому краю за период с 2000 г. по 2011 г. Требуется исследовать динамику показателя, соответствующего варианту задания.

Вариант Обозначение, наименование, единица измерения показателя
Y1 Потребительские расходы в среднем на душу населения (в месяц), руб.
Y2 Выбросы загрязняющих веществ в атмосферный воздух, тыс. тонн
Y3 Средние цены на вторичном рынке жилья (на конец года, за квадратный метр общей площади), руб
Y4 Объем платных услуг на душу населения, руб
Y5 Среднегодовая численность занятых в экономике, тыс. человек
Y6 Число собственных легковых автомобилей на 1000 человек населения (на конец года), штук
Y7 Среднедушевые денежные доходы (в месяц), руб
Y8 Индекс потребительских цен (декабрь к декабрю предыдущего года), %
Y9 Инвестиции в основной капитал (в фактически действовавших ценах), млн. руб
Y10 Оборот розничной торговли на душу населения (в фактически действовавших ценах), руб


Порядок выполнения работы

1. Построить линейную модель временного ряда , параметры которой оценить МНК. Пояснить смысл коэффициента регрессии.

2. Оценить адекватность построенной модели, используя свойства случайности, независимости и соответствия остаточной компоненты нормальному закону распределения.

3. Оценить точность модели на основе использования средней относительной ошибки аппроксимации.

4. Осуществить прогнозирование рассматриваемого показателя на год вперед (прогнозный интервал рассчитать при доверительной вероятности 70%).

5. Представить графически фактические значения показателя, результаты моделирования и прогнозирования.

6. Провести расчет параметров логарифмического, полиномиального (полином 2-й степени), степенного, экспоненциального и гиперболического трендов. На основании графического изображения и значения индекса детерминации выбрать наиболее подходящий вид тренда.

7. С помощью лучшей нелинейной модели осуществить точечное прогнозирование рассматриваемого показателя на год вперед. Сопоставить полученный результат с доверительным прогнозным интервалом, построенным при использовании линейной модели.

ПРИМЕР

Выполнения контрольной работы

Задача 1

Фирма занимается реализацией подержанных автомобилей. Наименования показателей и исходные данные для эконометрического моделирования представлены в таблице:

Цена реализации, тыс.у.е. (Y ) Цена нового авт., тыс.у.е. (Х1 ) Срок эксплуатации, годы (Х2 ) Левый руль - 1, правый руль - 0, (Х3 )
8,33 13,99 3,8
10,40 19,05 2,4
10,60 17,36 4,5
16,58 25,00 3,5
20,94 25,45 3,0
19,13 31,81 3,5
13,88 22,53 3,0
8,80 16,24 5,0
13,89 16,54 2,0
11,03 19,04 4,5
14,88 22,61 4,6
20,43 27,56 4,0
14,80 22,51 3,3
26,05 31,75 2,3

Требуется:

1. Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х; оценить статистическую значимость коэффициентов корреляции r(Y, X i); выбрать наиболее информативный фактор.

Используем Excel (Данные / Анализ данных / КОРРЕЛЯЦИЯ):

Получим матрицу коэффициентов парной корреляции между всеми имеющимися переменными:

У Х1 Х2 Х3
У
Х1 0,910987
Х2 -0,4156 -0,2603
Х3 0,190785 0,221927 -0,30308

Проанализируем коэффициенты корреляции между результирующим признаком Y и каждым из факторов X j:

> 0, следовательно, между переменными Y и Х 1 наблюдается прямая корреляционная зависимость: чем выше цена нового автомобиля, тем выше цена реализации.

> 0,7 – эта зависимость является тесной.

< 0, значит, между переменными Y и Х 2 наблюдается

обратная корреляционная зависимость: цена реализации ниже для авто-

мобилей с большим сроком эксплуатации.

– эта зависимость умеренная, ближе к слабой.

> 0, значит, между переменными Y и Х 3 наблюдается прямая корреляционная зависимость: цена реализации выше для автомобилей с левым рулем.

< 0,4 – эта зависимость слабая.

Для проверки значимости найденных коэффициентов корреляции используем критерий Стьюдента.

Для каждого коэффициента корреляции вычислим t -статистику по формуле и занесем результаты расчетов в дополнительный столбец корреляционной таблицы:

У Х1 Х2 Х3 t-статистики
У
Х1 0,910987 7,651524603
Х2 -0,4156 -0,2603 1,582847988
Х3 0,190785 0,221927 -0,30308 0,673265587

По таблице критических точек распределения Стъюдента при уровне значимости и числе степеней свободы определим критическое значение (Приложение 1, или функция СТЬЮДРАСПОБР).Y и сроком эксплуатации Х 2 достоверна.

< , следовательно, коэффициент не является значимым. На основании выборочных данных нет оснований утверждать, что зависимость между ценой реализации Y и расположением руля Х 3 достоверна.

Таким образом, наиболее тесная и значимая зависимость наблюдается между ценой реализации Y и ценой нового автомобиля Х 1 ; фактор Х 1 является наиболее информативным.

Матрица парных коэффициентов корреляции

Y X1 X2 X3 X4 X5
Y
X1 0,732705
X2 0,785156 0,706287
X3 0,179211 -0,29849 0,208514
X4 0,667343 0,924333 0,70069 0,299583
X5 0,709204 0,940488 0,691809 0,326602 0,992945

В узлах матрицы находятся парные коэффициенты корреляции, характеризующие тесноту взаимосвязи между факторными признаками. Анализируя эти коэффициенты, отметим, что чем больше их абсолютная величина, тем большее влияние оказывает соответствующий факторный признак на результативный. Анализ полученной матрицы осуществляется в два этапа:

1. Если в первом столбце матрицы есть коэффициенты корреляции, для которых /r / < 0,5, то соответствующие признаки из модели исключаются. В данном случае в первом столбце матрицы коэффициентов корреляции исключается фактор или коэффициент роста уровня инфляции. Данный фактор оказывает меньшее влияние на результативный признак, нежели оставшиеся четыре признака.

2. Анализируя парные коэффициенты корреляции факторных признаков друг с другом, (r XiXj), характеризующие тесноту их взаимосвязи, необходимо оценить их независимость друг от друга, поскольку это необходимое условие для дальнейшего проведения регрессионного анализа. В виду того, что в экономике абсолютно независимых признаков нет, необходимо выделить, по возможности, максимально независимые. Факторные признаки, находящиеся в тесной корреляционной зависимости друг с другом, называются мультиколлинеарными. Включение в модель мультиколлинеарных признаков делает невозможным экономическую интерпретацию регрессионной модели, так как изменение одного фактора влечет за собой изменение факторов с ним связанных, что может привести к «поломке» модели в целом.

Критерий мультиколлениарности факторов выглядит следующим образом:

/r XiXj / > 0,8

В полученной матрице парных коэффициентов корреляции этому критерию отвечают два показателя, находящиеся на пересечении строк и . Из каждой пары этих признаков в модели необходимо оставить один, он должен оказывать большее влияние на результативный признак. В итоге из модели исключаются факторы и , т.е. коэффициент роста себестоимости реализованной продукции и коэффициент роста объёма её реализации.

Итак, в регрессионную модель вводим факторы Х1 и Х2.

Далее осуществляется регрессионный анализ (сервис, анализ данных, регрессия). Вновь составляет таблица исходных данных с факторами Х1 и Х2. Регрессия в целом используется для анализа воздействия на отдельную зависимую переменную значений независимых переменных (факторов) и позволяет корреляционную связь между признаками представить в виде некоторой функциональной зависимости называемой уравнением регрессии или корреляционно-регрессионной моделью.

В результате регрессионного анализа получаем результаты расчета многомерной регрессии. Проанализируем полученные результаты.

Все коэффициенты регрессии значимы по критерию Стьюдента. Коэффициент множественной корреляции R составил 0,925, квадрат этой величины (коэффициент детерминации) означает, что вариация результативного признака в среднем на 85,5% объясняется за счет вариации факторных признаков, включенных в модель. Коэффициент детерминированности характеризует тесноту взаимосвязи между совокупностью факторных признаков и результативным показателем. Чем ближе значение R-квадрат к 1, тем теснее взаимосвязь. В нашем случае показатель, равный 0,855, указывает на правильный подбор факторов и на наличие взаимосвязи факторов с результативным показателем.

Рассматриваемая модель адекватна, поскольку расчетное значение F-критерия Фишера существенно превышает его табличное значение (F набл =52,401; F табл =1,53).

В качестве общего результата проведенного корреляционно-регрессионного анализа выступает множественное уравнение регрессии, которое имеет вид:

Полученное уравнение регрессии отвечает цели корреляционно-регрессионного анализа и является линейной моделью зависимости балансовой прибыли предприятия от двух факторов: коэффициента роста производительности труда и коэффициента имущества производственного назначения.

На основании полученной модели можно сделать вывод о том, что при увеличении уровня производительности труда на 1% к уровню предыдущего периода величина балансовой прибыли возрастет на 0,95 п.п.; увеличение же коэффициента имущества производственного назначения на 1% приведет к росту результативного показателя на 27,9 п.п. Слелдовательно, доминирующее влияние на рост балансовой прибыли оказывает увеличение стоимости имущества производственного назначения (обновление и рост основных средств предприятия).

По множественной регрессионной модели выполняется многофакторный прогноз результативного признака. Пусть известно, что Х1 = 3,0, а Х3 = 0,7. Подставим значения факторных признаков в модель, получим Упр = 0,95*3,0 + 27,9*0,7 – 19,4 = 2,98. Таким образом, при увеличении производительности труда и модернизации основных средств на предприятии балансовая прибыль в 1 квартале 2005 г. по отношению к предыдущему периоду (IV квартал 2004 г.) возрастет на 2,98%.


Y X 1 X 2 X 3 X 4 X 5 X 6
Y
X 1 0,519
X 2 -0,273 0,030
X 3 0,610 0,813 -0,116
X 4 -0,572 -0,013 -0,022 -0,091
X 5 0,297 0,043 -0,461 0,120 -0,359
X 6 0,118 -0,366 -0,061 -0,329 -0,100 -0,290

Анализ межфакторных (между «иксами»!) коэффициентов корреляции показывает, что значение 0,8 превышает по абсолютной величине только коэффициент корреляции между парой факторов Х 1 –Х 3 (выделен жирным шрифтом). Факторы Х 1 –Х 3 , таким образом, признаются коллинеарными.

2. Как было показано в пункте 1, факторы Х 1 –Х 3 являются коллинеарными, а это означает, что они фактически дублируют друг друга, и их одновременное включение в модель приведет к неправильной интерпретации соответствующих коэффициентов регрессии. Видно, что фактор Х 3 имеет больший по модулю коэффициент корреляции с результатом Y , чем фактор Х 1: r y , x 1 =0,519; r y , x 3 =0,610; (см. табл. 1 ). Это свидетельствует о более сильном влиянии фактора Х 3 на изменение Y . Фактор Х 1 , таким образом, исключается из рассмотрения.

Для построения уравнения регрессии значения используемых переменных (Y , X 2 , X 3 , X 4 , X 5 , X 6) скопируем на чистый рабочий лист (прил. 3) . Уравнение регрессии строим с помощью надстройки «Анализ данных… Регрессия » (меню «Сервис» ® «Анализ данных… » ® «Регрессия »). Панель регрессионного анализа с заполненными полями изображена на рис. 2 .

Результаты регрессионного анализа приведены в прил. 4 и перенесены в табл. 2 . Уравнение регрессии имеет вид (см. «Коэффициенты» втабл. 2 ):

Уравнение регрессии признается статистически значимым, так как вероятность его случайного формирования в том виде, в котором оно получено, составляет 8,80×10 -6 (см. «Значимость F» втабл. 2 ), что существенно ниже принятого уровня значимости a=0,05.

Х 3 , Х 4 , Х 6 ниже принятого уровня значимости a=0,05 (см. «P-Значение» втабл. 2 ), что свидетельствует о статистической значимости коэффициентов и существенном влиянии этих факторов на изменение годовой прибыли Y .

Вероятность случайного формирования коэффициентов при факторах Х 2 и Х 5 превышает принятый уровень значимости a=0,05 (см. «P-Значение» втабл. 2 ), и эти коэффициенты не признаются статистически значимыми.

рис. 2. Панель регрессионного анализа модели Y (X 2 , X 3 , X 4 , X 5 , X 6)

Таблица 2

Y (X 2 , X 3 , X 4 , X 5 , X 6)

Регрессионная статистика
Множественный R 0,868
R-квадрат 0,753
Нормированный R-квадрат 0,694
Стандартная ошибка 242,3
Наблюдения
Дисперсионный анализ
df SS MS F Значимость F
Регрессия 3749838,2 749967,6 12,78 8,80E-06
Остаток 1232466,8 58688,9
Итого 4982305,0
Уравнение регрессии
Коэффициенты Стандартная ошибка t-статистика P-Значение
Y-пересечение 487,5 641,4 0,760 0,456
X2 -0,0456 0,0373 -1,224 0,235
X3 0,1043 0,0194 5,375 0,00002
X4 -0,0965 0,0263 -3,674 0,001
X5 2,528 6,323 0,400 0,693
X6 248,2 113,0 2,197 0,039

3. По результатам проверки статистической значимости коэффициентов уравнения регрессии, проведенной в предыдущем пункте, строим новую регрессионную модель, содержащую только информативные факторы, к которым относятся:

· факторы, коэффициенты при которых статистически значимы;

· факторы, у коэффициентов которых t ‑статистика превышает по модулю единицу (другими словами, абсолютная величина коэффициента больше его стандартной ошибки).

К первой группе относятся факторы Х 3 , Х 4 , Х 6 , ко второй - фактор X 2 . Фактор X 5 исключается из рассмотрения как неинформативный, и окончательно регрессионная модель будет содержать факторы X 2 , X 3 , X 4 , X 6 .

Для построения уравнения регрессии скопируем на чистый рабочий лист значения используемых переменных (прил. 5) и проведем регрессионный анализ (рис. 3 ). Его результаты приведены в прил. 6 и перенесены в табл. 3 . Уравнение регрессии имеет вид:

(см. «Коэффициенты» втабл. 3 ).

рис. 3. Панель регрессионного анализа модели Y (X 2 , X 3 , X 4 , X 6)

Таблица 3

Результаты регрессионного анализа модели Y (X 2 , X 3 , X 4 , X 6)

Регрессионная статистика
Множественный R 0,866
R-квадрат 0,751
Нормированный R-квадрат 0,705
Стандартная ошибка 237,6
Наблюдения
Дисперсионный анализ
df SS MS F Значимость F
Регрессия 3740456,2 935114,1 16,57 2,14E-06
Остаток 1241848,7 56447,7
Итого 4982305,0
Уравнение регрессии
Коэффициенты Стандартная ошибка t-статистика P-Значение
Y-пересечение 712,2 303,0 2,351 0,028
X2 -0,0541 0,0300 -1,806 0,085
X3 0,1032 0,0188 5,476 0,00002
X4 -0,1017 0,0223 -4,560 0,00015
X6 227,5 98,5 2,310 0,031

Уравнение регрессии статистически значимо: вероятность его случайного формирования ниже допустимого уровня значимости a=0,05 (см. «Значимость F» втабл. 3 ).

Статистически значимыми признаются и коэффициенты при факторах Х 3 , Х 4 , Х 6: вероятность их случайного формирования ниже допустимого уровня значимости a=0,05 (см. «P-Значение» втабл. 3 ). Это свидетельствует о существенном влиянии годового размера страховых сборов X 3 , годового размера страховых выплат X 4 и формы собственности X 6 на изменение годовой прибыли Y .

Коэффициент при факторе Х 2 (годовой размер страховых резервов) не является статистически значимым. Однако этот фактор все же можно считать информативным, так как t ‑статистика его коэффициента превышает по модулю единицу, хотя к дальнейшим выводам относительно фактора Х 2 следует относиться с некоторой долей осторожности.

4. Оценим качество и точность последнего уравнения регрессии, используя некоторые статистические характеристики, полученные в ходе регрессионного анализа (см. «Регрессионную статистику » в табл. 3 ):

· множественный коэффициент детерминации

показывает, что регрессионная модель объясняет 75,1 % вариации годовой прибыли Y , причем эта вариация обусловлена изменением включенных в модель регрессии факторов X 2 , X 3 , X 4 и X 6 ;

· стандартная ошибка регрессии

тыс. руб.

показывает, что предсказанные уравнением регрессии значения годовой прибыли Y отличаются от фактических значений в среднем на 237,6 тыс. руб.

Средняя относительная ошибка аппроксимации определяется по приближенной формуле:

где тыс. руб. - среднее значение годовой прибыли (определено с помощью встроенной функции «СРЗНАЧ »; прил. 1 ).

Е отн показывает, что предсказанные уравнением регрессии значения годовой прибыли Y отличаются от фактических значений в среднем на 26,7 %. Модель имеет неудовлетворительную точность (при - точность модели высокая, при - хорошая, при - удовлетворительная, при - неудовлетворительная).

5. Для экономической интерпретации коэффициентов уравнения регрессии сведем в таблицу средние значения и стандартные отклонения переменных в исходных данных (табл. 4 ) . Средние значения были определены с помощью встроенной функции «СРЗНАЧ », стандартные отклонения - с помощью встроенной функции «СТАНДОТКЛОН » (см. прил. 1 ).

Матрица парных коэффициентов корреляции представляет собой матрицу, элементами которой являются парные коэффициенты корреляции. Например, для трех переменных эта матрица имеет вид:
- y x 1 x 2 x 3
y 1 r yx1 r yx2 r yx3
x 1 r x1y 1 r x1x2 r x1x3
x 2 r x2y r x2x1 1 r x2x3
x 3 r x3y r x3x1 r x3x2 1

Вставьте в поле матрицу парных коэффициентов.

Пример . По данным 154 сельскохозяйственных предприятий Кемеровской области 2003 г. изучить эффективность производства зерновых (табл. 13).

  1. Определите факторы, формирующие рентабельность зерновых в сельскохозяйственных предприятий в 2003 г.
  2. Постройте матрицу парных коэффициентов корреляции. Установите, какие факторы мультиколлинеарны.
  3. Постройте уравнение регрессии, характеризующее зависимость рентабельности зерновых от всех факторов.
  4. Оцените значимость полученного уравнения регрессии. Какие факторы значимо воздействуют на формирование рентабельности зерновых в этой модели?
  5. Оцените значение рентабельности производства зерновых в сельскохозяйственном предприятии № 3.

Решение получаем с помощью калькулятора Уравнение множественной регрессии :

1. Оценка уравнения регрессии.
Определим вектор оценок коэффициентов регрессии. Согласно методу наименьших квадратов, вектор получается из выражения:
s = (X T X) -1 X T Y
Матрица X

1 0.43 2.02 0.29
1 0.87 1.29 0.55
1 1.01 1.09 0.7
1 0.63 1.68 0.41
1 0.52 0.3 0.37
1 0.44 1.98 0.3
1 1.52 0.87 1.03
1 2.19 0.8 1.3
1 1.8 0.81 1.17
1 1.57 0.84 1.06
1 0.94 1.16 0.64
1 0.72 1.52 0.44
1 0.73 1.47 0.46
1 0.77 1.41 0.49
1 1.21 0.97 0.88
1 1.25 0.93 0.91
1 1.31 0.91 0.94
1 0.38 2.08 0.27
1 0.41 2.05 0.28
1 0.48 1.9 0.32
1 0.58 1.73 0.38
1 0 0 0

Матрица Y
0.22
0.67
0.79
0.42
0.32
0.24
0.95
1.05
0.99
0.96
0.73
0.52
2.1
0.58
0.87
0.89
0.91
0.14
0.18
0.27
0.37
0

Матрица X T
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.43 0.87 1.01 0.63 0.52 0.44 1.52 2.19 1.8 1.57 0.94 0.72 0.73 0.77 1.21 1.25 1.31 0.38 0.41 0.48 0.58 0
2.02 1.29 1.09 1.68 0.3 1.98 0.87 0.8 0.81 0.84 1.16 1.52 1.47 1.41 0.97 0.93 0.91 2.08 2.05 1.9 1.73 0
0.29 0.55 0.7 0.41 0.37 0.3 1.03 1.3 1.17 1.06 0.64 0.44 0.46 0.49 0.88 0.91 0.94 0.27 0.28 0.32 0.38 0

Умножаем матрицы, (X T X)
Находим определитель det(X T X) T = 34.35
Находим обратную матрицу (X T X) -1
0.6821 0.3795 -0.2934 -1.0118
0.3795 9.4402 -0.133 -14.4949
-0.2934 -0.133 0.1746 0.3204
-1.0118 -14.4949 0.3204 22.7272

Вектор оценок коэффициентов регрессии равен
s = (X T X) -1 X T Y =
0.1565
0.3375
0.0043
0.2986

Уравнение регрессии (оценка уравнения регрессии)
Y = 0.1565 + 0.3375X 1 + 0.0043X 2 + 0.2986X 3

Матрица парных коэффициентов корреляции

Число наблюдений n = 22. Число независимых переменных в модели ровно 3, а число регрессоров с учетом единичного вектора равно числу неизвестных коэффициентов. С учетом признака Y, размерность матрицы становится равным 5. Матрица, независимых переменных Х имеет размерность (22 х 5). Матрица Х T Х определяется непосредственным умножением или по следующим предварительно вычисленным суммам.
Матрица составленная из Y и X
1 0.22 0.43 2.02 0.29
1 0.67 0.87 1.29 0.55
1 0.79 1.01 1.09 0.7
1 0.42 0.63 1.68 0.41
1 0.32 0.52 0.3 0.37
1 0.24 0.44 1.98 0.3
1 0.95 1.52 0.87 1.03
1 1.05 2.19 0.8 1.3
1 0.99 1.8 0.81 1.17
1 0.96 1.57 0.84 1.06
1 0.73 0.94 1.16 0.64
1 0.52 0.72 1.52 0.44
1 2.1 0.73 1.47 0.46
1 0.58 0.77 1.41 0.49
1 0.87 1.21 0.97 0.88
1 0.89 1.25 0.93 0.91
1 0.91 1.31 0.91 0.94
1 0.14 0.38 2.08 0.27
1 0.18 0.41 2.05 0.28
1 0.27 0.48 1.9 0.32
1 0.37 0.58 1.73 0.38
1 0 0 0 0

Транспонированная матрица.
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0.22 0.67 0.79 0.42 0.32 0.24 0.95 1.05 0.99 0.96 0.73 0.52 2.1 0.58 0.87 0.89 0.91 0.14 0.18 0.27 0.37 0
0.43 0.87 1.01 0.63 0.52 0.44 1.52 2.19 1.8 1.57 0.94 0.72 0.73 0.77 1.21 1.25 1.31 0.38 0.41 0.48 0.58 0
2.02 1.29 1.09 1.68 0.3 1.98 0.87 0.8 0.81 0.84 1.16 1.52 1.47 1.41 0.97 0.93 0.91 2.08 2.05 1.9 1.73 0
0.29 0.55 0.7 0.41 0.37 0.3 1.03 1.3 1.17 1.06 0.64 0.44 0.46 0.49 0.88 0.91 0.94 0.27 0.28 0.32 0.38 0

Матрица A T A.
22 14.17 19.76 27.81 13.19
14.17 13.55 15.91 16.58 10.56
19.76 15.91 23.78 22.45 15.73
27.81 16.58 22.45 42.09 14.96
13.19 10.56 15.73 14.96 10.45

Полученная матрица имеет следующее соответствие:

Найдем парные коэффициенты корреляции.
Для y и x 1

Средние значения



Дисперсия





Коэффициент корреляции

Для y и x 2
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для y и x 3
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для x 1 и x 2
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для x 1 и x 3
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Для x 2 и x 3
Уравнение имеет вид y = ax + b
Средние значения



Дисперсия


Среднеквадратическое отклонение


Коэффициент корреляции

Матрица парных коэффициентов корреляции.
- y x 1 x 2 x 3
y 1 0.62 -0.24 0.61
x 1 0.62 1 -0.39 0.99
x 2 -0.24 -0.39 1 -0.41
x 3 0.61 0.99 -0.41 1

Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых r yxi < 0.5 исключают из модели.
Коллинеарность – зависимость между факторами. В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:
r(x j y) > r(x k x j) ; r(x k y) > r(x k x j).
Если одно из неравенств не соблюдается, то исключается тот параметр x k или x j , связь которого с результативным показателем Y оказывается наименее тесной.
3. Анализ параметров уравнения регрессии.
Перейдем к статистическому анализу полученного уравнения регрессии: проверке значимости уравнения и его коэффициентов, исследованию абсолютных и относительных ошибок аппроксимации
Для несмещенной оценки дисперсии проделаем следующие вычисления:
Несмещенная ошибка e = Y - X*s (абсолютная ошибка аппроксимации)
-0.18
0.05
0.08
-0.08
-0.12
-0.16
-0.03
-0.24
-0.13
-0.05
0.06
-0.02
1.55
0.01
0.04
0.04
0.03
-0.23
-0.21
-0.15
-0.1
-0.16

s e 2 = (Y - X*s) T (Y - X*s)
Несмещенная оценка дисперсии равна

Оценка среднеквадратичного отклонения равна

Найдем оценку ковариационной матрицы вектора k = a*(X T X) -1
0.26 0.15 -0.11 -0.39
0.15 3.66 -0.05 -5.61
-0.11 -0.05 0.07 0.12
-0.39 -5.61 0.12 8.8

Дисперсии параметров модели определяются соотношением S 2 i = K ii , т.е. это элементы, лежащие на главной диагонали
С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности , которые определяются по формуле:


Частные коэффициент эластичности E 1 < 1. Следовательно, его влияние на результативный признак Y незначительно.

Частные коэффициент эластичности E 2 < 1. Следовательно, его влияние на результативный признак Y незначительно.

Частные коэффициент эластичности E 3 < 1. Следовательно, его влияние на результативный признак Y незначительно.
Тесноту совместного влияния факторов на результат оценивает индекс множественной корреляции (от 0 до 1)

Связь между признаком Y факторами X умеренная
Коэффициент детерминации
R 2 = 0.62 2 = 0.38
т.е. в 38.0855 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - средняя
Значимость коэффициента корреляции

По таблице Стьюдента находим Tтабл
T табл (n-m-1;a) = (18;0.05) = 1.734
Поскольку Tнабл > Tтабл, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически - значим
Интервальная оценка для коэффициента корреляции (доверительный интервал)

Доверительный интервал для коэффициента корреляции
r(0.3882;0.846)
5. Проверка гипотез относительно коэффициентов уравнения регрессии (проверка значимости параметров множественного уравнения регрессии).
1) t-статистика


Статистическая значимость коэффициента регрессии b 0 не подтверждается

Статистическая значимость коэффициента регрессии b 1 не подтверждается

Статистическая значимость коэффициента регрессии b 2 не подтверждается

Статистическая значимость коэффициента регрессии b 3 не подтверждается
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b i - t i S i ; b i + t i S i)
b 0: (-0.7348;1.0478)
b 1: (-2.9781;3.6531)
b 2: (-0.4466;0.4553)
b 3: (-4.8459;5.4431)

2) F-статистика. Критерий Фишера


Fkp = 2.93
Поскольку F < Fkp, то коэффициент детерминации статистически не значим и уравнение регрессии статистически ненадежно.
6. Проверка на наличие гетероскедастичности методом графического анализа остатков.
В этом случае по оси абсцисс откладываются значения объясняющей переменной X i , а по оси ординат квадраты отклонения e i 2 .

y y(x) e=y-y(x) e 2
0.22 0.4 -0.18 0.03
0.67 0.62 0.05 0
0.79 0.71 0.08 0.01
0.42 0.5 -0.08 0.01
0.32 0.44 -0.12 0.02
0.24 0.4 -0.16 0.03
0.95 0.98 -0.03 0
1.05 1.29 -0.24 0.06
0.99 1.12 -0.13 0.02
0.96 1.01 -0.05 0
0.73 0.67 0.06 0
0.52 0.54 -0.02 0
2.1 0.55 1.55 2.41
0.58 0.57 0.01 0
0.87 0.83 0.04 0
0.89 0.85 0.04 0
0.91 0.88 0.03 0
0.14 0.37 -0.23 0.05
0.18 0.39 -0.21 0.04
0.27 0.42 -0.15 0.02
0.37 0.47 -0.1 0.01
0.16 -0.16 0.02