НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ ДПС УКРАЇНИ
КАФЕДРА СТАТИСТИКИ ТА МАТЕМАТИЧНИХ МЕТОДІВ В ЕКОНОМІЦІ
ЗВІТ
про результати виконання
комп'ютерної лабораторної роботи № 2
Кореляційно-регресійний аналіз взаємозв'язку статистичних даних у середовищі MS Excel
Варіант № __9__
Виконав: ст. гр.___________________
_____________________________
ПІБ
Перевірив:_________________________
ПІБ
Ірпінь 2013
1. Постановка завдання статистичного дослідження
Кореляційно-регресійний аналіз взаємозв'язку ознак є складовою частиною статистичного дослідження діяльності 30-ти банків і частково використовує результати ЛР-1.
У ЛР-2 вивчається взаємозв'язок між факторною ознакою Вартість активів (ознака Х) і результативною ознакою Фінансовий результат (ознака Y), значеннями яких є початкові дані ЛР-1 після виключення з них аномальних спостережень.
|
Початкові дані
|
|
Номер та назва банку
|
Вартість активів, млн.грн.
|
Фінансовий результат, млн. грн.
|
ЄВРОПРОМБАНК
|
578,19
|
2,079
|
IНТЕРБАНК
|
524,91
|
0,249
|
УНIКОМБАНК
|
523,22
|
1,234
|
АКСIОМА
|
500,93
|
1,825
|
ЛЕГБАНК
|
455,60
|
0,231
|
АСВIО БАНК
|
449,06
|
1,718
|
Д-М Банк
|
446,51
|
0,674
|
Банк ТРАСТ
|
439,78
|
0,111
|
ТРАСТ-КАПIТАЛ
|
410,87
|
1,172
|
ПОЛIКОМБАНК
|
397,01
|
0,134
|
РЕГIОН-БАНК
|
389,50
|
1,350
|
СТОЛИЧНИЙ
|
369,79
|
0,748
|
ОКСI БАНК
|
330,38
|
1,617
|
АРТЕМ-БАНК
|
323,87
|
1,903
|
УКООПСПIЛКА
|
307,26
|
0,004
|
IнтерКредитБанк
|
306,26
|
0,026
|
АКСIОМА
|
500,93
|
1,825
|
ЛЕГБАНК
|
455,60
|
0,231
|
АСВIО БАНК
|
449,06
|
1,718
|
Д-М Банк
|
446,51
|
0,674
|
Банк ТРАСТ
|
439,78
|
0,111
|
ТРАСТ-КАПIТАЛ
|
410,87
|
1,172
|
ПОЛIКОМБАНК
|
397,01
|
0,134
|
У процесі статистичного дослідження необхідно вирішити ряд завдань.
Встановити наявність статистичного зв'язку між факторною ознакою Х і результативною ознакою Y графічним методом.
Встановити наявність кореляційного зв'язку між ознаками Х і Y методом аналітичного групування.
Оцінити щільність зв'язку ознак Х і Y на основі емпіричного кореляційного відношення η.
Побудувати однофакторну лінійну регресійну модель зв'язку ознак Х і Y, використовуючи інструмент Регресія надбудови Пакет аналізу, і оцінити щільність зв'язку ознак Х і Y на основі лінійного коефіцієнта кореляції r.
Визначити адекватність і практичну придатність побудованої лінійної регресійної моделі, оцінивши:
а) значущість і довірчі інтервали коефіцієнтів а0, а1;
б) індекс детермінації R2 і його значущість;
в) точність регресійної моделі.
Дати економічну інтерпретацію:
а) коефіцієнта регресії а1;
б) коефіцієнта еластичності КЕ;
в) залишкових величин еi.
Знайти найбільш адекватне нелінійне рівняння регресії за допомогою засобів інструменту Майстер діаграм.
2. Висновки за наслідками виконання лабораторної роботи1
Завдання 1. Встановлення наявності статистичного зв'язку між факторною ознакою Х і результативною ознакою Y графічним методом.
Статистичний зв'язок є різновидом стохастичного (випадкового) зв'язку, при якому із зміною факторної ознаки X закономірним чином змінюється який-небудь з узагальнюючих статистичних показників розподілу результативної ознаки Y.
Висновок:
Точковий графік зв'язку ознак (діаграма розсіювання, отримана в ЛР-1 після видалення аномальних спостережень) дозволяє зробити висновок, що має місце статистичний зв'язок. Очікуваний вид зв'язку – нелінійний прямий .
Завдання 2. Встановлення наявності кореляційного зв'язку між ознаками Х і Y методом аналітичного групування.
Кореляційний зв'язок – найважливіший окремий випадок стохастичного статистичного зв'язку, коли під впливом варіації факторної ознаки Х закономірно змінюються від групи до групи середні групові значення результативної ознаки Y (усереднюються результативні значення отримані під впливом чинника ). Для виявлення наявності кореляційного зв'язку використовується метод аналітичного групування.
Висновок:
Результати виконання аналітичного групування банків за факторною ознакою Вартість активів наведено в таблиці 2.2 Робочого файлу, яка показує, що із збільшенням значень факторної ознаки Х незакономірно змінюються середні групові значення результативної ознаки . Отже, між ознаками Х і Y відсутній кореляційний зв’язок.
Завдання 3.Оцінка щільності зв'язку ознак Х і Y на основі емпіричного кореляційного відношення.
Для аналізу щільності зв'язку між факторною і результативною ознаками розраховується показник η – емпіричне кореляційне відношення, що задається формулою
,
де і - відповідно міжгрупова і загальна дисперсії результативної ознаки Y - Фінансовий результат (індекс х дисперсії означає, що оцінюється міра впливу ознаки Х на Y).
Для якісної оцінки щільності зв'язку на основі емпіричного кореляційного відношення служить шкала Чеддока:
Значення η
|
0,1 – 0,3
|
0,3 – 0,5
|
0,5 – 0,7
|
0,7 – 0,9
|
0,9 – 0,99
|
Сила зв'язку
|
слабка
|
помірна
|
помітна
|
тісна
|
дуже тісна
|
Результати виконаних розрахунків подані в таблиці 2.4 Робочого файлу.
Висновок:
Значення коефіцієнта η = 0,325, що відповідно до оцінної шкали Чеддока говорить про помірний ступінь зв'язку ознак, що вивчаються.
Завдання 4. Побудова однофакторної лінійної регресійної моделі зв'язку ознак, що вивчаються, за допомогою інструменту Регресія надбудови Пакет аналізу і оцінка щільності зв'язку на основі лінійного коефіцієнта кореляції r.
4.1. Побудова регресійної моделі полягає в знаходженні аналітичного виразу зв'язку між факторною ознакою X і результативною ознакою Y.
Інструмент Регресія на основі фактичних даних (xi, yi), здійснює розрахунок параметрів а0і а1рівняння однофакторної лінійної регресії , а також обчислення ряду показників, необхідних для перевірки адекватності побудованого рівняння фактичним даним.
Примітка. У результаті роботи інструменту Регресія отримано чотири результативні таблиці (починаючи із заданої комірки А75). Ці таблиці виводяться в Робочий файл без нумерації, тому необхідно привласнити їм номери табл. 2.5 – табл. 2.8 відповідно до їх порядку.
Висновок:
Розраховані в табл. 2.7 (комірки В88 і В89) коефіцієнти а0і а1дозволяють побудувати лінійну регресійну модель зв'язку ознак, що вивчаються, у вигляді рівняння -0,31506 + 0,00286 Х
4.2. У разі лінійної функції зв'язку для оцінки щільності зв'язку ознак X і Y, що встановлюється за побудованою моделлю, використовується лінійний коефіцієнт кореляції r.
Значення коефіцієнта кореляції r наводиться в табл. 2.5 в комірці В75 (термін "Множинний R").
Висновок:
Значення коефіцієнта кореляції r =0,2784, що відповідно до оцінної шкали Чеддока говорить про слабкий ступінь зв'язку ознак, що вивчаються.
Завдання 5. Аналіз адекватності і практичної придатності побудованої лінійної регресійної моделі.
Аналіз адекватності регресійної моделі має за мету оцінити, наскільки побудована теоретична модель взаємозв'язку ознак відображає фактичну залежність між цими ознаками, і тим самим оцінити практичну придатність синтезованої моделі зв'язку.
Оцінка відповідності побудованої регресійної моделі початковим (фактичним) значенням ознак X і Y виконується в 4 етапи:
оцінка статистичної значущості коефіцієнтів рівняння а0, а1і визначення їх довірчих інтервалів для заданого рівня надійності;
визначення практичної придатності побудованої моделі на основі оцінок лінійного коефіцієнта кореляції r і індексу детермінації R2;
перевірка значущості рівняння регресії в цілому за F-критерієм Фішера;
оцінка погрішності регресійної моделі.
Оцінка статистичної значущості коефіцієнтів рівняння а0, а1 і визначення їх довірчих інтервалів
Оскільки коефіцієнти рівняння а0 , а1 розраховувалися, виходячи із значень ознак тільки для 30-ти пар (xi, yi), то значення коефіцієнтів є лише наближеними оцінками фактичних параметрів зв'язку а0, а1. Тому необхідно:
перевірити значення коефіцієнтів на невипадковість (тобто впевнитись, наскільки вони типові для всієї генеральної сукупності комерційних банків);
визначити (із заданою довірчою ймовірністю 0,95 і 0,683) межі, в яких можуть знаходитися значення а0, а1для генеральної сукупності банків.
Для аналізу коефіцієнтів а0, а1лінійного рівняння регресії використовується табл. 2.7, в якій:
– значення коефіцієнтів а0, а1наведені в комірках В88 і В89 відповідно;
– розрахований рівень значущості коефіцієнтів рівняння наведений в комірках Е88 і Е89;
– довірчі інтервали коефіцієнтів з рівнем надійності Р=0,95 і Р=0,683 вказані в діапазоні комірок F88:I89.
5.1.1. Визначення значущості коефіцієнтів рівняння
Рівень значущості – це величина α =1–Р, де Р – заданий рівень надійності (довірча ймовірність).
Режим роботи інструменту Регресія використовує за умовчанням рівень надійності Р=0,95. Для цього рівня надійності рівень значущості рівний α = 1 – 0,95 = 0,05. Цей рівень значущості вважається за заданий.
У інструменті Регресія надбудови Пакет аналізу для кожного з коефіцієнтів а0 і а1обчислюється рівень його значущості αр, який вказаний у результативній таблиці (табл. 2.7 термін "Р-значення"). Якщо розрахований для коефіцієнтів а0, а1рівень значущості αр, менше заданого рівня значущості α= 0,05, то цей коефіцієнт визнається невипадковим (тобто типовим для генеральної сукупності), інакше – випадковим.
Примітка. У випадку, якщо визнається випадковим вільний член а0, то рівняння регресії доцільно побудувати наново без вільного члена а0. У цьому випадку в діалоговому вікні Регресія необхідно задати ті ж самі параметри лише того, що слід активізувати прапорець Константа-нуль (це означає, що модель будуватиметься за умови а0=0). У лабораторній роботі такий крок не передбачений.
Якщо незначущим (випадковим) є коефіцієнт регресії а1, то взаємозв'язок між ознаками X і Y в принципі не може апроксимуватися лінійною моделлю.
Висновок:
Для вільного члена а0рівняння регресії розрахований рівень значущості становить αр= 0,7993. Оскільки він більше заданого рівня значущості α=0,05, то коефіцієнт а0визнається випадковим.
Для коефіцієнта регресії а1 розрахований рівень значущості становить αр=0,1984. Оскільки він більше заданого рівня значущості α=0,05, то коефіцієнт а1визнається випадковим.
5.1.2. Залежність довірчих інтервалів коефіцієнтів рівняння від заданого рівня надійності
Довірчі інтервали коефіцієнтів а0, а1побудованого рівняння регресії при рівнях надійності Р=0,95 і Р=0,683 представлені в табл. 2.7, на основі якої формується табл. 2.9.
Таблиця 2.9
Межі довірчих інтервалів коефіцієнтів рівняння
Коефіцієнти
|
Межі довірчих інтервалів
|
Для рівня надійності Р=0,95
|
Для рівня надійності Р=0,683
|
нижня
|
Верхня
|
нижня
|
верхня
|
а0
|
-2,2591
|
1,6289
|
-1,2733
|
0,64315
|
а1
|
-0,0016
|
0,0073
|
0,00065
|
0,00506
|
Висновок:
У генеральній сукупності банків значення коефіцієнта а0слід чекати з ймовірністю Р=0,95 у межах -2,2591а0 1,6289, значення коефіцієнта а1у межах -0,0016а1 0,0073 Зменшення рівня ймовірності веде до звуження довірчих інтервалів коефіцієнтів рівняння.
Визначення практичної придатності побудованої ої регресійної моделі.
Практичну придатність побудованої моделі можна охарактеризувати за величиною лінійного коефіцієнта кореляції r:
близькість до одиниці свідчить про хорошу апроксимацію фактичних даних за допомогою побудованої лінійної функції зв'язку ;
-
близькість до нуля означає, що зв'язок між фактичними даними Х і Y не можна апроксимувати як за побудованою, так і будь-якою іншою лінійною моделлю, і, отже, для моделювання зв'язку слід використовувати яку-небудь відповідну нелінійну модель.
Придатність побудованої регресійної моделі для практичного використання можна оцінити і за величиною індексу детермінації R2, який показує, яка частина загальної варіації ознаки Y пояснюється в побудованій моделі варіацією чинника X.
У основі такої оцінки лежить рівність R = , а також шкала Чеддока, що встановлює якісну характеристику щільності зв'язку залежно від величини .
Згідно шкали Чеддока високий ступінь щільності зв'язку ознак досягається лише при >0,7, тобто при >0,7. Для індексу детермінації R2 це означає виконання нерівності R2 >0,5.
При недостатньо щільному зв'язку ознак X, Y (слабка, помірна, помітна) має місце нерівність 0,7, а отже, і нерівність .
З урахуванням вищесказаного, практична придатність побудованої моделі зв'язку оцінюється за величиною R2 таким чином:
-
нерівність R2 >0,5 дозволяє вважати, що побудована модель придатна для практичного застосування, оскільки в ній досягається високий ступінь щільності зв'язку ознак X і Y, при якій більше 50% варіації ознаки Y пояснюється впливом чинника Х;
нерівність означає, що побудована модель зв'язку практичного значення не має, зважаючи на недостатню щільність зв'язку між ознаками X і Y, при якій менше 50% варіації ознаки Y пояснюється впливом чинника Х, і, отже, чинник Х впливає на варіацію Y в значно меншій мірі, ніж інші (невраховані в моделі) чинники.
Значення індексу детермінації R2 наводиться в табл. 2.5 в комірці В79 (термін "R - квадрат").
Висновок:
Значення лінійного коефіцієнта кореляції r і значення індексу детермінації R2 згідно таблиці. 2.5 рівні: r = 0,27836, R2 =0,07749. Оскільки і , то побудована лінійна регресійна модель зв'язку не придатна для практичного використання.
Загальна оцінка адекватності регресійної моделі за F-критерієм Фішера
Адекватність побудованої регресійної моделі фактичним даним (xi, yi) встановлюється за критерієм Р.Фішера, що оцінює статистичну значущість (невипадковість) індексу детермінації R2.
Розрахована для рівняння регресії оцінка значущості R2 наведена в табл. 2.6 у комірці F83 (термін "Значущість F"). Якщо вона менше заданого рівня значущості α=0,05, то величина R2 визнається невипадковою і, отже, побудоване рівняння регресії може бути використано як модель зв'язку між ознаками Х і Y для генеральної сукупності комерційних банків.
Висновок:
Розрахований рівень значущості αріндексу детермінації R2 становить αр=0,19835. Оскільки він більше заданого рівня значущості α=0,05, то значення R2 визнається випадковим і модель зв'язку між ознаками Х і Y -0,31506 + 0,00286 Х непридатна для генеральної сукупності банків у цілому.
Оцінка погрішності регресійної моделі
Погрішність регресійної моделі можна оцінити за величиною стандартної похибки побудованого лінійного рівняння регресії . Величина похибки оцінюється як середнє квадратичне відхилення по сукупності відхилень початкових (фактичних) значень yiознаки Y від його теоретичних значень , розрахованих за побудованою моделлю.
Погрішність регресійної моделі виражається у відсотках і розраховується як величина .100.
У адекватних моделях погрішність не повинна перевищувати 12%-15%.
Значення приводиться у вихідній таблиці "Регресійна статистика" (табл. 2.5) у комірці В78 (термін "Стандартна помилка"), значення – у таблиці описових статистик (ЛР-1, Лист 1, табл.3, стовпець 2).
Висновок:
Погрішність лінійної регресійної моделі складає .100= (0,7213/0,91)*100% = 79,23%, що не підтверджує адекватність побудованої моделі 0,31506+0,00286Х.
Завдання 6. Дати економічну інтерпретацію:
1) коефіцієнта регресії а1;
3) залишкових величин i.
2) коефіцієнта еластичності КЕ;
6.1. Економічна інтерпретація коефіцієнта регресії а1
У разі лінійного рівняння регресії =a0+a1x величина коефіцієнта регресії a1показує, на скільки в середньому (у абсолютному виразі) змінюється значення результативної ознаки Y при зміні чинника Х на одиницю його вимірювання. Знак при a1показує напрям цієї зміни.
Висновок:
Коефіцієнт регресії а1= 0,00286 показує, що при збільшенні факторної ознаки Вартість активів на 1 млн. грн. значення результативної ознаки Фінансовий результат збільшується в середньому на 0,00286 млн. грн., тобто на 2860 грн..
6.2. Економічна інтерпретація коефіцієнта еластичності.
З метою розширення можливостей економічного аналізу явища використовується коефіцієнт еластичності , який вимірюється у відсотках і показує, на скільки відсотків змінюється в середньому результативна ознака при зміні факторної ознаки на 1%.
Середні значення і наведені в таблиці описових статистик (ЛР-1, Лист 1, табл.3).
Розрахунок коефіцієнта еластичності:
= 0,00286 * (428,3874/0,91)= 1,3464
Висновок:
Значення коефіцієнта еластичності КЕ =1,3464 показує, що при збільшенні факторної ознаки Вартість активів на 1% значення результативної ознаки Фінансовий результат збільшується в середньому на 1,35%.
6.3. Економічна інтерпретація залишкових величин еi
Кожен із залишків характеризує відхилення фактичного значення yiвід теоретичного значення розрахованого за побудованою регресійною моделлю і, який визначає яке середнє значення слід очікувати, коли чинник Х набуває значення xi.
Аналізуючи залишки, можна зробити ряд практичних висновків, що стосуються фінансового результату комерційних банків.
Значення залишків i (таблиця залишків з діапазону А9:С118) мають як позитивні, так і негативні відхилення від очікуваного в середньому обсягу фінансового результату (які у результаті врівноважуються, тобто).
Економічний інтерес представляють найбільші розбіжності між фактичним фінансовим результатом yiі очікуваним усередненим фінансовим результатом .
Висновок:
Згідно таблиці залишків максимальне перевищення очікуваного середнього фінансового результату мають 4 банки – а саме: АРТЕМ-БАНК, ОКСI БАНК, АСВIО БАНК, ЄВРОПРОМБАНК.
а максимальні негативні відхилення 3 банки – а саме: Банк ТРАСТ, IНТЕРБАНК, ЛЕГБАНК.
Саме ці ____7____ банків підлягають подальшому економічному аналізу для з'ясування причин найбільших відхилень фінансового результату від очікуваних і виявлення резервів зростання прибутковості їх діяльності.
Завдання 7. Знаходження найбільш адекватного нелінійного рівняння регресії за допомогою засобів інструменту Майстер діаграм.
Рівняння регресії і їх графіки побудовані для 3-х видів нелінійної залежності між ознаками і представлені на діаграмі 2.1 Робочого файлу.
Рівняння регресії і відповідні ним індекси детермінації R2 наведені в табл. 2.10 (при заповненні даної таблиці коефіцієнти рівнянь необхідно указувати не в комп'ютерному форматі, а в загальноприйнятій десятковій формі чисел).
|