Регресійний аналіз — це статистичний метод дослідження, що дозволяє показати залежність того чи іншого параметра від однієї або кількох незалежних змінних. В докомпьютерную еру його застосування було досить важко, особливо якщо мова йшла про великих обсягах даних. Сьогодні, дізнавшись як побудувати регресію в Excel, можна вирішувати складні статистичні задачі буквально за пару хвилин. Нижче представлені конкретні приклади з галузі економіки.
Саме це поняття було введено в математику Френсісом Гальтоном у 1886 році. Регресія бывает:
Розглянемо задачу визначення залежності кількості звільнених членів колективу від середньої зарплати на 6 промислових підприємствах.
Завдання. На шести підприємствах проаналізували середньомісячну заробітну плату та кількість працівників, які звільнилися за власним бажанням. У табличній формі маємо:
A | B | C | |
1 | Х | Кількість звільнених | Зарплата |
2 | Y | 30000 рублів | |
3 | 1 | 60 | 35000 рублів |
4 | 2 | 35 | 40000 рублів |
5 | 3 | 20 | 45000 рублів |
6 | 4 | 20 | 50000 рублів |
7 | 5 | 15 | 55000 рублів |
8 | 6 | 15 | 60000 рублів |
Для задачі визначення залежності кількості звільнених працівників від середньої зарплати на 6 підприємствах модель регресії має вигляд рівняння Y = а0 + 1X1 +…+аKXK, де хі впливають змінні, aі коефіцієнти регресії, a k — число факторів.
Для даної задачі Y — це показник звільнених співробітників, а впливає фактор — зарплата, яку позначаємо X.
Аналізу регресії в Excel має передувати застосування до наявних табличними даними вбудованих функцій. Однак для цих цілей краще скористатися дуже корисною надбудовою «Пакет аналізу». Для його активації потрібно:
Більше:
Розширення "Економія трафіку Google Chrome
У статті піде мова про те, як здійснюється економія трафіку в Google Chrome. Цей режим ще називають "Турбо", і його практично кожен спостерігав в таких браузерах, як Yandex Browser або Opera. Проте в Google Chrome даний компонент відсутній, і заощади...
Смайли в "Скайпі" - опис, застосування, секрети
Skype - програма, якою користуються багато людей. Вона призначена спеціально для спілкування і обміну даними. Як і будь-який інший месенджер, "Скайп" оснащений чудовим інтерфейсом і графічними елементами. Тут можна виражати емоції різними способами. ...
Ресурс вогняна сіль в "Скайриме"
Матеріал у грі «Скайрим» вогняна сіль має ряд застосувань, які будуть корисні для гравця. Цей предмет можна дістати кількома способами, які варто знати користувачу. Стаття надає всю потрібну інформацію з цього ресурсу.ВидобутокУ проекті ж...
Якщо все зроблено правильно, у правій частині вкладки «Дані», розташованому над робочим аркушем «Іксель», з'явиться потрібна кнопка.
Тепер, коли під рукою є всі необхідні віртуальні інструменти для здійснення економетричних розрахунків, можемо приступити до вирішення нашої задачі. Для цього:
В результаті програма автоматично заповнить новий лист табличного процесора даними аналізу регресії. Зверніть увагу! В Excel є можливість самостійно визначити місце, яке ви віддаєте перевагу для цієї мети. Наприклад, це може бути той самий лист, де знаходяться значення Y і X, або навіть нова книга, спеціально призначена для зберігання таких даних.
В Excel дані отримані в ході обробки даних розглянутого прикладу мають вигляд:
Перш за все, слід звернути увагу на значення R-квадрата. Він являє собою коефіцієнт детермінації. В даному прикладі R-квадрат = 0,755 (75,5%), тобто розрахункові параметри моделі пояснюють залежність між розглянутими параметрами на 75,5 %. Чим вище значення коефіцієнта детермінації, тим обрана модель вважається більш придатною для конкретної задачі. Вважається, що вона коректно описує реальну ситуацію при значенні R-квадрата вище 0,8. Якщо R-квадрата<0,5, то такий аналізу регресії в Excel не можна вважати правильним.
Кількість 64,1428 показує, яким буде значення Y, якщо всі змінні xi в розглянутій нами моделі обнуляться. Іншими словами, можна стверджувати, що значення аналізованого параметра впливають і інші фактори, які не описані в конкретній моделі.
Наступний коефіцієнт -0,16285, розташований у комірці B18, показує вагомість впливу змінної Х на Y. Це означає, що середньомісячна зарплата працівників у межах розглянутої моделі впливає на число звільнених з вагою -0,16285, тобто ступінь їївпливу зовсім невелика. Знак «-» вказує на те, що коефіцієнт має негативне значення. Це очевидно, оскільки всім відомо, що чим більше зарплата на підприємстві, тим менше людей висловлюють бажання розірвати трудовий договір або звільняється.
Під таким терміном розуміється рівняння зв'язку з декількома незалежними змінними виду:
Y=f(x1+x2+…xM) + ε, де y — це результативний ознака (залежна змінна), а x1, x2, …xM — це ознаки-фактори (незалежні змінні).
Для множинної регресії (МР) її здійснюють, використовуючи метод найменших квадратів (МНК). Для лінійних рівнянь виду Y = a + b1X1 +…+bMXM+ ε будуємо систему нормальних рівнянь (див. нижче)
Щоб зрозуміти принцип методу, розглянемо двохфакторну випадок. Тоді маємо ситуацію, описувану формулою
Звідси отримуємо:
де σ — це дисперсія відповідної ознаки, відбитого в індексі.
МНК застосуємо до рівняння МР в стандартизируемом масштабі. У такому разі отримуємо рівняння:
в якому tY, tX1, …TXm стандартизируемые змінні, для яких середні значення рівні 0; βі стандартизовані коефіцієнти регресії, а середньоквадратичне відхилення 1.
Зверніть увагу, що всі βі в даному випадку задані, як нормовані і централизируемые, тому їх порівняння між собою вважається коректним і допустимим. Крім того, прийнято здійснювати відсів факторів, відкидаючи ті з них, у яких найменші значення βi.
Наприклад, є таблиця динаміки ціни конкретного товару N протягом останніх 8 місяців. Необхідно прийняти рішення про доцільність придбання його партії за ціною 1850 руб./т.
A | B | C | |
1 | номер місяця | назва місяця | ціна товару N |
2 | 1 | січень | 1750 рублів за тонну |
3 | 2 | лютий | 1755 рублів за тонну |
4 | 3 | березень | 1767 рублів за тонну |
5 | 4 | квітень | 1760 рублів за тонну |
6 | 5 | травень | 1770 рублів за тонну |
7 | 6 | червень | 1790 рублів за тонну |
8 | 7 | липень | 1810 рублів за тонну |
9 | 8 | серпень | 1840 рублів за тонну |
Для вирішення цієї задачі в табличному процесорі «Іксель» потрібно задіяти вже відомий по представленому вище прикладу інструмент «Аналіз даних». Далі вибирають розділ «Регресія» і задають параметри. Потрібно пам'ятати, що в полі «Вхідний інтервал Y» повинен вводитися діапазон значень залежної змінної (у даному випадку ціни на товар в конкретні місяці року), а в «Вхідний інтервал X» — для незалежної (номер місяця). Підтверджуємо дії натисненням «Ok». На новому аркуші (якщо так було зазначено) отримуємо дані для регресії.
Будуємо за ним лінійне рівняння виду y=ax+b, де в якості параметрів a і b виступають коефіцієнти рядка з найменуванням номера місяця й коефіцієнти і рядка «Y-перетин» з листа з результатами регресійного аналізу. Таким чином, лінійне рівняння регресії (УР) завдання 3 записується у вигляді:
Ціна на товар N = 11,714* номер місяця + 1727,54.
в алгебраїчних позначеннях
Y = 11,714 x + 1727,54
Щоб вирішити, чи адекватно отримане рівняння лінійної регресії, що використовуються коефіцієнти множинної кореляції (КМК) і детермінації, а також критерій Фішера та критерій Стьюдента. В таблиці «Іксель» з результатами регресії вони виступають під назвами множинний R R-квадрат, F-статистика і t-статистика відповідно.
КМК R дає можливість оцінити тісноту ймовірнісної зв'язку між незалежною і залежною змінними. Її високе значення свідчить про досить сильного зв'язку між змінними «Номер місяця» і «Ціна товару N в рублях за 1 тонну». Проте характер цього зв'язку залишається невідомим.
Квадрат коефіцієнта детермінації R2(RI) являє собою числову характеристику частки загального розкиду і показує, що розкид якій частині експериментальних даних, тобто значень залежноїзмінної відповідає рівняння лінійної регресії. У розглянутій задачі ця величина дорівнює 84,8%, тобто статистичні дані з високим ступенем точності описуються отриманим УР.
F-статистика, звана також критерієм Фішера, який використовується для оцінки значимості лінійної залежності, спростовуючи або підтверджуючи гіпотезу про її існування.
Значення t-статистики (критерій Стьюдента) допомагає оцінювати значущість коефіцієнта при невідомій або вільного члена лінійної залежності. Якщо значення t-критерію > tкр, то гіпотеза про незначущості вільного члена лінійного рівняння відкидається.
У розглянутій задачі для вільного члена допомогою інструментів «Іксель» було отримано, що t=169,20903, а p=2,89 Е-12, тобто маємо нульову ймовірність того, що буде відкинута вірна гіпотеза про незначущості вільного члена. Для коефіцієнта при невідомій t=5,79405, а p=0,001158. Іншими словами ймовірність того, що буде відкинута вірна гіпотеза про незначущості коефіцієнта при невідомій, дорівнює 0,12%.
Таким чином, можна стверджувати, що отримане рівняння лінійної регресії адекватно.
Множинна регресія в Excel виконується за допомогою все того ж інструмента «Аналіз даних». Розглянемо конкретну прикладну задачу.
Керівництво компанія «NNN» має прийняти рішення про доцільність купівлі 20 % пакету акцій АТ «MMM». Вартість пакету (СП) становить 70 млн американських доларів. Фахівцями «NNN» зібрані дані про аналогічні угоди. Було прийнято рішення оцінювати вартість пакета акцій за такими параметрами, вираженим у мільйони американських доларів, як:
Крім того, використовується параметр заборгованість підприємства по зарплаті (V3 П) тисячі американських доларів.
Перш за все, необхідно скласти таблицю вихідних даних. Вона має наступний вигляд:
Далі:
Зазначають пункт «Новий робочий аркуш» і натискають «Ok».
Отримують аналіз регресії для даної задачі.
«Збираємо» з округлених даних, представлених вище на аркуші табличного процесора Excel, рівняння регресії:
СП = 0,103*СОФ + 0,541*VO – 0,031*VK +0,405*VD +0,691*VZP – 265,844.
У більш звичному математичному вигляді його можна записати, як:
Y = 0,103*x1 + 0,541*x2 – 0,031*x3 +0,405*x4 +0,691*x5 – 265,844
Дані для АТ «MMM» представлені в таблиці:
СОФ, USD | VO, USD | VK, USD | VD, USD | VZP, USD | СП, USD |
102,5 | 535,5 | 45,2 | 41,5 | 21,55 | 64,72 |
Підставивши їх у рівняння регресії, отримують цифру в 64,72 млн американських доларів. Це означає, що акції АТ «MMM» не варто купувати, так як їх вартість в 70 млн американських доларів досить завищена.
Як бачимо, використання табличного процесора «Іксель» і рівняння регресії дозволило прийняти обґрунтоване рішення щодо доцільності цілком конкретної угоди.
Тепер ви знаєте, що таке регресія. Приклади в Excel, розглянуті вище, допоможуть вам до вирішення практичних завдань з області економетрики.
Article in other languages:
AR: https://tostpost.com/ar/computers/1904-excel.html
En: https://tostpost.com/computers/9019-regression-in-excel-equation-examples-linear-regression.html
Alin Trodden - автор статті, редактор
"Привіт, Я Алін Тродден. Я пишу тексти, читаю книги і шукаю враження. І я непогано вмію розповідати вам про це. Я завжди радий брати участь у цікавих проектах."
Новини
Що таке 25 кадр і чи можна з його допомогою схуднути?
Відомо чимало способів скинути ненависні зайві кілограми. Найбільш популярними з них є спеціальні тренування і дієтичне комплекси. Перші містять у собі набір вправ, які дозволяють зміцнити тонус м'язів проблемних зон, а також змен...
Як відформатувати диск на комп'ютері
При роботі комп'ютера часто виникають різного роду помилки, які не завжди можна вирішити засобами відновлення системи, іноді доводиться вдаватися до радикальних заходів, наприклад, форматувати жорсткий диск. Також, якщо жорсткий д...
Які зробити дії, якщо не включається ноутбук?
Портативний комп'ютер – помічник і друг для багатьох сучасних людей. Іноді він перестає працювати, в цьому випадку необхідно звернутися до фахівців в сервіс. Можна провести самостійну діагностику, щоб зрозуміти, чому не вклю...
Будь-більш або менш активний користувач інтернету в цілому і приватних мереж, зокрема чув слово «ава». Але от проблема: що воно означає і з чим його їдять, ніхто не пояснює. Насправді, все дуже просто, і зі статті ви д...
Код помилки e fail 0x80004005 і вирішення даної проблеми
У певних випадках можна побачити код помилки e fail 0x80004005. Даний збій виникає при спробі запуску віртуальної машини за допомогою програми Oracle VirtualBox.ПричиниЯк правило, код помилки e fail 0x80004005 можна побачити, якщо...
Legion Commander Dota 2: гайд, особливості проходження та рекомендації
«Доту 2» постійно розвивається, що впливає на любов шанувальників гри нарівні з наявністю великого вибору героїв, стратегій і артефактів. З кожним виходом оновлення зміни піддаються деякі персонажі, і це викликає питан...
Примітка (0)
Ця стаття не має коментарів, будьте першим!