Регресионният анализ е статистически метод за изследване на зависимостта на случайна променлива от променливи. Регресия в Excel: уравнение, примери

Целта на регресионния анализ е да се измери връзката между зависима променлива и една (регресионен анализ по двойки) или повече (множество) независими променливи. Независимите променливи се наричат ​​още факторни, обяснителни, детерминантни, регресорни и предикторни променливи.

Зависимата променлива понякога се нарича определена, обяснена или променлива „отговор“. Изключително широкото използване на регресионния анализ в емпиричните изследвания се дължи не само на факта, че той е удобен инструмент за проверка на хипотези. Регресията, особено множествената регресия, е ефективен метод за моделиране и прогнозиране.

Нека започнем да обясняваме принципите на работа с регресионния анализ с по-прост - метода на двойките.

Сдвоен регресионен анализ

Първите стъпки при използване на регресионен анализ ще бъдат почти идентични с тези, които направихме при изчисляването на коефициента на корелация. Трите основни условия за ефективността на корелационния анализ с помощта на метода на Pearson - нормално разпределение на променливите, интервално измерване на променливите, линейна връзка между променливите - също са от значение за множествената регресия. Съответно на първия етап се изграждат диаграми на разсейване, извършва се статистически и описателен анализ на променливите и се изчислява регресионна линия. Както в рамките на корелационния анализ, регресионните линии се конструират с помощта на метода на най-малките квадрати.

За да илюстрираме по-ясно разликите между двата метода за анализ на данни, нека се обърнем към вече обсъдения пример с променливите „SPS подкрепа“ и „дял на селското население“. Изходните данни са идентични. Разликата в диаграмите на разсейване ще бъде, че при регресионния анализ е правилно да се начертае зависимата променлива - в нашия случай „SPS подкрепа“ върху оста Y, докато при корелационния анализ това няма значение. След почистване на отклоненията диаграмата на разсейване изглежда така:

Основната идея на регресионния анализ е, че имайки обща тенденция за променливите - под формата на регресионна линия - е възможно да се предвиди стойността на зависимата променлива, като се имат предвид стойностите на независимата.

Нека си представим обикновена математическа линейна функция. Всяка права линия в евклидовото пространство може да се опише с формулата:

където a е константа, която определя преместването по ординатната ос; b е коефициент, който определя ъгъла на наклона на линията.

Като знаете наклона и константата, можете да изчислите (предскажете) стойността на y за всяко x.

Тази най-проста функция формира основата на модела за регресионен анализ с уговорката, че няма да прогнозираме точно стойността на y, но в рамките на определен доверителен интервал, т.е. приблизително.

Константата е точката на пресичане на регресионната линия и у-оста (F-пресечна точка, обикновено означавана като „прихващач“ в статистическите пакети). В нашия пример с гласуването за Съюза на десните сили закръглената му стойност ще бъде 10,55. Ъгловият коефициент b ще бъде приблизително -0,1 (както при корелационния анализ знакът показва вида на връзката - директна или обратна). Така полученият модел ще има формата SP C = -0.1 x Sel. нас. + 10.55.

По този начин, за случая на „Република Адигея“ с дял от селското население от 47%, прогнозираната стойност ще бъде 5,63:

ATP = -0,10 х 47 + 10,55 = 5,63.

Разликата между първоначалните и прогнозираните стойности се нарича остатък (вече сме срещали този термин, който е основен за статистиката, когато анализираме таблици за непредвидени обстоятелства). Така че за случая на „Република Адигея“ остатъкът ще бъде равен на 3,92 - 5,63 = -1,71. Колкото по-голяма е модулната стойност на остатъка, толкова по-малко успешна е прогнозираната стойност.

Ние изчисляваме прогнозираните стойности и остатъците за всички случаи:
Случва се Седна. нас. Мерси

(оригинал)

Мерси

(предвиден)

Остатъци
Република Адигея 47 3,92 5,63 -1,71 -
Република Алтай 76 5,4 2,59 2,81
Република Башкортостан 36 6,04 6,78 -0,74
Република Бурятия 41 8,36 6,25 2,11
Република Дагестан 59 1,22 4,37 -3,15
Република Ингушетия 59 0,38 4,37 3,99
и т.н.

Анализът на съотношението на първоначалните и прогнозираните стойности служи за оценка на качеството на получения модел и неговата прогностична способност. Един от основните показатели на регресионната статистика е коефициентът на множествена корелация R - коефициентът на корелация между първоначалните и прогнозираните стойности на зависимата променлива. При сдвоен регресионен анализ той е равен на обичайния коефициент на корелация на Pearson между зависимите и независимите променливи, в нашия случай - 0,63. За да се интерпретира смислено множество R, то трябва да се преобразува в коефициент на определяне. Това става по същия начин, както при корелационния анализ – чрез повдигане на квадрат. Коефициентът на детерминация R-квадрат (R 2) показва съотношението на вариация в зависимата променлива, която се обяснява от независимата променлива(и).

В нашия случай R 2 = 0,39 (0,63 2); това означава, че променливата „дял на селското население“ обяснява приблизително 40% от вариацията в променливата „подпомагане на СЕП“. Колкото по-голям е коефициентът на детерминация, толкова по-високо е качеството на модела.

Друг показател за качеството на модела е стандартната грешка на оценката. Това е мярка за това колко широко точките са „разпръснати“ около регресионната линия. Мярката за спред за интервални променливи е стандартното отклонение. Съответно, стандартната грешка на оценката е стандартното отклонение на разпределението на остатъците. Колкото по-висока е стойността му, толкова по-голямо е разсейването и толкова по-лош е моделът. В нашия случай стандартната грешка е 2,18. Именно с тази сума нашият модел ще „греши средно“, когато прогнозира стойността на променливата „SPS support“.

Регресионната статистика включва и анализ на дисперсията. С негова помощ откриваме: 1) каква част от вариацията (дисперсията) на зависимата променлива се обяснява с независимата променлива; 2) каква част от дисперсията на зависимата променлива се отчита от остатъците (необяснена част); 3) какво е съотношението на тези две величини (/"-отношение). Статистиката на дисперсията е особено важна за извадкови изследвания - тя показва колко вероятно е да има връзка между независимите и зависимите променливи в съвкупността. Въпреки това, за непрекъснати проучвания (както в нашия пример) резултатите от изследването на дисперсионния анализ не са полезни. В този случай те проверяват дали идентифицираният статистически модел е причинен от комбинация от случайни обстоятелства, колко е характерен за комплекса от условия, при които се установява, че полученият резултат не е верен за някаква по-широка обща съвкупност, а степента на нейната закономерност, свобода от случайни влияния.

В нашия случай статистиката ANOVA е както следва:

СС df Г-ЦА Е значение
Регрес. 258,77 1,00 258,77 54,29 0.000000001
остатък 395,59 83,00 L,11
Обща сума 654,36

F-съотношението от 54,29 е значително на ниво 0,0000000001. Съответно, можем уверено да отхвърлим нулевата хипотеза (че връзката, която открихме, се дължи на случайност).

Критерият t изпълнява подобна функция, но по отношение на коефициентите на регресия (ъглово и F-пресичане). Използвайки критерия /, проверяваме хипотезата, че в генералната съвкупност коефициентите на регресия са равни на нула. В нашия случай отново можем уверено да отхвърлим нулевата хипотеза.

Множествен регресионен анализ

Моделът на множествена регресия е почти идентичен с модела на сдвоена регресия; единствената разлика е, че няколко независими променливи са последователно включени в линейната функция:

Y = b1X1 + b2X2 + …+ bpXp + a.

Ако има повече от две независими променливи, ние не можем да получим визуална представа за тяхната връзка; в това отношение множествената регресия е по-малко „визуална“ от регресията по двойки. Когато имате две независими променливи, може да е полезно да покажете данните в 3D точкова диаграма. В професионалните статистически софтуерни пакети (например Statistica) има опция за завъртане на триизмерна диаграма, което ви позволява визуално да представите добре структурата на данните.

При работа с множествена регресия, за разлика от регресия по двойки, е необходимо да се определи алгоритъмът за анализ. Стандартният алгоритъм включва всички налични предиктори в крайния регресионен модел. Алгоритъмът стъпка по стъпка включва последователно включване (изключване) на независими променливи въз основа на тяхното обяснително „тегло“. Поетапният метод е добър, когато има много независими променливи; той „изчиства“ модела от откровено слаби предиктори, правейки го по-компактен и стегнат.

Допълнително условие за коректността на множествената регресия (наред с интервала, нормалността и линейността) е липсата на мултиколинеарност - наличието на силни корелации между независими променливи.

Интерпретацията на статистическите данни за множествена регресия включва всички елементи, които разгледахме за случая на регресия по двойки. Освен това има други важни компоненти на статистиката на множествения регресионен анализ.

Ще илюстрираме работата с множествена регресия, като използваме примера за тестване на хипотези, които обясняват разликите в нивото на избирателна активност в руските региони. Специфични емпирични проучвания показват, че нивата на избирателна активност се влияят от:

Национален фактор (променлива „Руско население“; операционализирана като дял от руското население в съставните образувания на Руската федерация). Предполага се, че увеличаването на дела на руското население води до намаляване на избирателната активност;

Коефициент на урбанизация (променливата „градско население“; операционализирана като дял от градското население в съставните единици на Руската федерация; вече сме работили с този фактор като част от корелационния анализ). Предполага се, че увеличаването на дела на градското население води и до намаляване на избирателната активност.

Зависимата променлива - „интензивност на избирателната активност“ („активна“) се операционализира чрез данни за средната избирателна активност по региони на федерални избори от 1995 г. до 2003 г. Първоначалната таблица с данни за две независими и една зависима променлива ще бъде както следва:

Случва се Променливи
Активи. Гор. нас. рус. нас.
Република Адигея 64,92 53 68
Република Алтай 68,60 24 60
Република Бурятия 60,75 59 70
Република Дагестан 79,92 41 9
Република Ингушетия 75,05 41 23
Република Калмикия 68,52 39 37
Карачаево-Черкеска република 66,68 44 42
Република Карелия 61,70 73 73
Република Коми 59,60 74 57
Република Марий Ел 65,19 62 47

и т.н. (след почистване на емисиите остават 83 случая от 88)

Статистика, описваща качеството на модела:

1. Множество R = 0,62; L-квадрат = 0,38. Следователно националният фактор и факторът урбанизация заедно обясняват около 38% от вариацията на променливата „избирателна активност“.

2. Средната грешка е 3,38. Точно толкова „средно грешен” е изграденият модел при прогнозиране на нивото на избирателна активност.

3. /l-съотношението на обяснена и необяснена вариация е 25,2 на ниво 0,000000003. Нулевата хипотеза за случайността на идентифицираните връзки се отхвърля.

4. Критерият / за константните и регресионните коефициенти на променливите „градско население” и „руско население” е значим на ниво 0,0000001; 0,00005 и 0,007 съответно. Нулевата хипотеза, че коефициентите са случайни, се отхвърля.

Допълнителни полезни статистически данни при анализиране на връзката между първоначалните и прогнозираните стойности на зависимата променлива са разстоянието Махаланобис и разстоянието на Кук. Първият е мярка за уникалността на случая (показва доколко комбинацията от стойности на всички независими променливи за даден случай се отклонява от средната стойност за всички независими променливи едновременно). Второто е мярка за влиянието на случая. Различните наблюдения имат различен ефект върху наклона на регресионната линия и разстоянието на Кук може да се използва за сравняването им по този показател. Това може да бъде полезно при почистване на извънредни стойности (външната стойност може да се разглежда като твърде влиятелен случай).

В нашия пример уникалните и влиятелни случаи включват Дагестан.

Случва се Оригинален

стойности

Предска

стойности

Остатъци Разстояние

Махаланобис

Разстояние
Адигея 64,92 66,33 -1,40 0,69 0,00
Република Алтай 68,60 69.91 -1,31 6,80 0,01
Република Бурятия 60,75 65,56 -4,81 0,23 0,01
Република Дагестан 79,92 71,01 8,91 10,57 0,44
Република Ингушетия 75,05 70,21 4,84 6,73 0,08
Република Калмикия 68,52 69,59 -1,07 4,20 0,00

Самият регресионен модел има следните параметри: Y-пресечна (константа) = 75.99; b (хоризонтално) = -0,1; Комерсант (руски нас.) = -0,06. Крайна формула:

Aactive, = -0,1 x Hor. us.n+- 0,06 x рус. нас.n + 75,99.

Можем ли да сравним „обяснителната сила“ на предикторите въз основа на стойността на коефициента 61. В този случай, да, тъй като и двете независими променливи имат един и същ процентен формат. Най-често обаче множествената регресия се занимава с променливи, измерени в различни скали (например ниво на доход в рубли и възраст в години). Следователно в общия случай е некоректно да се сравняват прогнозните възможности на променливите с помощта на регресионен коефициент. В статистиката на множествената регресия има специален бета коефициент (B) за тази цел, изчислен отделно за всяка независима променлива. Той представлява частичния (изчислен след отчитане на влиянието на всички други предиктори) коефициент на корелация между фактора и отговора и показва независимия принос на фактора към прогнозирането на стойностите на отговора. При регресионния анализ по двойки, бета коефициентът е разбираемо равен на коефициента на корелация по двойки между зависимата и независимата променлива.

В нашия пример бета (населението на планините) = -0,43, бета (руско население) = -0,28. Така и двата фактора влияят негативно върху нивото на електорална активност, като значението на фактора урбанизация е значително по-високо от значението на националния фактор. Комбинираното влияние на двата фактора определя около 38% от вариацията на променливата „избирателна активност” (виж стойността на L-квадрат).

Регресионен анализ

Регресия (линеен) анализ- статистически метод за изследване на влиянието на една или повече независими променливи върху зависима променлива. Независимите променливи иначе се наричат ​​регресори или предиктори, а зависимите променливи се наричат ​​критериални променливи. Терминология зависимИ независимапроменливи отразява само математическата зависимост на променливите ( вижте Фалшива корелация), а не причинно-следствени връзки.

Цели на регресионния анализ

  1. Определяне на степента на определяне на вариацията на критериална (зависима) променлива чрез предиктори (независими променливи)
  2. Прогнозиране на стойността на зависима променлива с помощта на независимата променлива(и)
  3. Определяне на приноса на отделните независими променливи към вариацията на зависимата променлива

Регресионният анализ не може да се използва, за да се определи дали има връзка между променливите, тъй като наличието на такава е предпоставка за прилагане на анализа.

Математическа дефиниция на регресията

Строго регресивна връзка може да се дефинира по следния начин. Нека са случайни променливи с дадено общо вероятностно разпределение. Ако за всеки набор от стойности се дефинира условно математическо очакване

(регресионно уравнение в общ вид),

тогава функцията се извиква регресиястойности на Y по стойности, а графиката му е регресионна линияот , или регресионно уравнение.

Зависимостта от се проявява в промяната на средните стойности на Y с промяна в . Въпреки че за всеки фиксиран набор от стойности стойността остава случайна променлива с известно разсейване.

За да се изясни въпросът колко точно регресионният анализ оценява промяната в Y при промяна , се използва средната стойност на дисперсията на Y за различни набори от стойности (всъщност говорим за мярката за дисперсия на зависимата променлива около линията на регресия).

Метод на най-малките квадрати (изчисляване на коефициенти)

В практиката регресионната линия най-често се търси под формата на линейна функция (линейна регресия), която най-добре апроксимира търсената крива. Това се прави с помощта на метода на най-малките квадрати, когато сумата от квадратите на отклоненията на действително наблюдаваните от техните оценки е сведена до минимум (което означава оценки, използващи права линия, която претендира да представлява желаната регресионна връзка):

(M - размер на извадката). Този подход се основава на добре известния факт, че сумата, фигурираща в горния израз, приема минимална стойност именно за случая, когато .

За решаване на проблема с регресионния анализ с помощта на метода на най-малките квадрати се въвежда концепцията остатъчни функции:

Минимално условие за остатъчната функция:

Получената система е система от линейни уравнения с неизвестни

Ако представим свободните членове от лявата страна на уравненията като матрица

а коефициентите за неизвестните от дясната страна са матрицата

тогава получаваме матричното уравнение: , което лесно се решава по метода на Гаус. Получената матрица ще бъде матрица, съдържаща коефициентите на уравнението на регресионната линия:

За да се получат най-добрите оценки, е необходимо да се изпълнят предварителните условия на OLS (условия на Гаус-Марков). В англоезичната литература такива оценки се наричат ​​BLUE (Best Linear Unbiased Estimators).

Интерпретация на регресионните параметри

Параметрите са частични коефициенти на корелация; се тълкува като част от дисперсията на Y, обяснена чрез фиксиране на влиянието на останалите предиктори, т.е. измерва индивидуалния принос към обяснението на Y. В случай на корелирани предиктори възниква проблемът с несигурността в оценките, които стават зависими от реда, в който предикторите са включени в модела. В такива случаи е необходимо да се използват методи за корелационен и поетапен регресионен анализ.

Когато говорим за нелинейни модели на регресионен анализ, важно е да обърнем внимание дали говорим за нелинейност в независими променливи (от формална гледна точка, лесно сведена до линейна регресия), или за нелинейност в оценените параметри (причиняващи сериозни изчислителни затруднения). В случай на нелинейност от първия тип, от гледна точка на съдържанието, е важно да се подчертае появата в модела на термини от формата , , показващи наличието на взаимодействия между признаци и т.н. (виж Мултиколинеарност).

Вижте също

Връзки

  • www.kgafk.ru - Лекция на тема „Регресионен анализ“
  • www.basegroup.ru - методи за избор на променливи в регресионни модели

Литература

  • Норман Дрейпър, Хари СмитПриложен регресионен анализ. Множествена регресия = Приложен регресионен анализ. - 3-то изд. - М.: "Диалектика", 2007. - С. 912. - ISBN 0-471-17082-8
  • Устойчиви методи за оценка на статистически модели: Монография. - К.: ПП "Санспарел", 2005. - С. 504. - ISBN 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152
  • Радченко Станислав Григориевич,Методология на регресионния анализ: Монография. - К.: "Корнийчук", 2011. - С. 376. - ISBN 978-966-7599-72-0

Фондация Уикимедия. 2010 г.

В резултат на изучаването на материала в глава 4 студентът трябва:

зная

  • основни понятия на регресионния анализ;
  • методи за оценка и свойства на оценките на най-малките квадрати;
  • основни правила за тестване на значимост и интервална оценка на уравнения и регресионни коефициенти;

да бъде в състояние да

  • използват примерни данни, за да намерят оценки на параметрите на модели с двумерни и множествени регресионни уравнения и да анализират техните свойства;
  • проверка на значимостта на уравнението и коефициентите на регресия;
  • намиране на интервални оценки на значими параметри;

собствен

  • умения за статистическа оценка на параметри на двумерни и множествени регресионни уравнения; умения за проверка на адекватността на регресионни модели;
  • умения за получаване на регресионно уравнение с всички значими коефициенти с помощта на аналитичен софтуер.

Основни понятия

След извършване на корелационен анализ, когато се установи наличието на статистически значими връзки между променливите и се оцени степента на тяхната близост, обикновено се пристъпва към математическо описание на типа зависимости с помощта на методи за регресионен анализ. За целта се избира клас функции, които свързват ефективния показател прии аргументи„ изчисляват оценки на параметрите на уравнението за свързване и анализират точността на полученото уравнение.

Функция|, описваща зависимостта на условната средна стойност от резултантната характеристика приот дадените стойности на аргумента се извиква регресионно уравнение.

Терминът "регресия" (от лат. регресия –отстъпление, връщане към нещо) е въведено от английския психолог и антрополог Ф. Галтън и се свързва с един от първите му примери, в който Галтън, обработвайки статистически данни, свързани с въпроса за наследствеността на височината, установява, че ако височината на бащите се отклонява от средната височина на всички бащи хинча, тогава височината на техните синове се отклонява от средната височина на всички синове с по-малко от хинча. Установената тенденция беше наречена регресия към средната стойност.

Терминът "регресия" е широко използван в статистическата литература, въпреки че в много случаи той не характеризира точно статистическата връзка.

За точното описание на регресионното уравнение е необходимо да се знае условният закон на разпределение на ефективния показател u.В статистическата практика обикновено не е възможно да се получи такава информация, така че те се ограничават до търсене на подходящи приближения за функцията f(x u х 2,... l*), въз основа на предварителен съдържателен анализ на явлението или на първоначални статистически данни.

В рамките на индивидуалните допускания на модела за вида на разпределението на вектора на индикаторите<) может быть получен общий вид регресионни уравнения, Където. Например, при предположението, че наборът от изследвани индикатори се подчинява на ()-мерния закон за нормално разпределение с вектор на математическите очаквания

Къде и ковариационната матрица,

къде е дисперсията y,

Регресионното уравнение (условно математическо очакване) има формата

Така, ако многовариантна случайна променлива ()

се подчинява на ()-мерния закон за нормално разпределение, след това на регресионното уравнение на ефективния индикатор прив обяснителните променливи е линейна хизглед.

В статистическата практика обаче човек обикновено трябва да се ограничи до намирането на подходящи приближения за неизвестната истинска регресионна функция f(x),тъй като изследователят няма точни познания за условния закон за разпределение на вероятностите на анализирания показател за ефективност приза дадени стойности на аргумент Х.

Нека да разгледаме връзката между истинските, моделните и регресионните оценки. Нека ефективният индикатор присвързани с аргумента хсъотношение

където е случайна променлива, която има нормален закон на разпределение, и и. Истинската регресионна функция в този случай има формата

Да предположим, че точната форма на истинското регресионно уравнение не ни е известна, но имаме девет наблюдения на двуизмерна случайна променлива, свързана с отношенията, представени на фиг. 4.1.

Ориз. 4.1. Относителното положение на истинатаf(x) и теоретиченопарегресионни модели

Разположението на точките на фиг. 4.1 ни позволява да се ограничим до класа на линейните зависимости на формата

Използвайки метода на най-малките квадрати, намираме оценката на регресионното уравнение.

За сравнение, на фиг. 4.1 показва графики на истинската регресионна функция и теоретичната апроксимираща регресионна функция. Оценката на регресионното уравнение се сближава с последното по вероятност опас неограничено увеличение на размера на извадката ().

Тъй като погрешно избрахме линейна регресионна функция вместо истинска регресионна функция, което, за съжаление, е доста често срещано в практиката на статистическите изследвания, нашите статистически заключения и оценки няма да имат свойството последователност, т.е. Без значение как увеличаваме броя на наблюденията, нашата примерна оценка няма да се сближи с истинската регресионна функция

Ако сме избрали правилно класа на регресионните функции, тогава неточността в описанието използва опаби се обяснило само с ограничената извадка и следователно може да бъде направено толкова малко, колкото желаете

За да се възстанови най-добре условната стойност на показателя за ефективност и неизвестната регресионна функция от първоначалните статистически данни, най-често се използват следните: критерии за адекватностфункции на загуба.

1. Метод на най-малките квадрати,според който квадратът на отклонението на наблюдаваните стойности на ефективния индикатор, , от стойностите на модела е сведен до минимум, където коефициентите на регресионното уравнение; са стойностите на вектора на аргументите в „-M наблюдение:

Проблемът за намиране на оценка на вектора е решен. Получената регресия се нарича среден квадрат.

2. Метод на най-малкото модули, според който сумата от абсолютните отклонения на наблюдаваните стойности на ефективния показател от модулните стойности е минимизирана, т.е.

Получената регресия се нарича означава абсолютно(Медиана).

3. Минимаксен методсе свежда до минимизиране на максималния модул на отклонение на наблюдаваната стойност на ефективния показател y,от стойността на модела, т.е.

Получената регресия се нарича минимакс.

В практическите приложения често има проблеми, при които се изучава случайна променлива y,в зависимост от определен набор от променливи и неизвестни параметри. Ще разгледаме () като (k + 1)-мерна генерална съвкупност, от която произволна извадка от П,където () е резултатът от i-тото наблюдение. Необходимо е да се оценят неизвестни параметри въз основа на резултатите от наблюденията. Задачата, описана по-горе, се отнася до проблеми с регресионен анализ.

Регресионен анализ се нарича метод за статистически анализ на зависимостта на случайна величина привърху променливи, разглеждани в регресионния анализ като неслучайни стойности, независимо от истинския закон на разпределение

При статистическото моделиране регресионният анализ е изследване, използвано за оценка на връзката между променливите. Този математически метод включва много други методи за моделиране и анализ на множество променливи, където фокусът е върху връзката между зависима променлива и една или повече независими. По-конкретно, регресионният анализ ни помага да разберем как се променя типичната стойност на зависима променлива, ако една от независимите променливи се промени, докато другите независими променливи остават фиксирани.

Във всички случаи целевата оценка е функция на независимите променливи и се нарича регресионна функция. В регресионния анализ също е от интерес да се характеризира промяната в зависимата променлива като функция на регресията, която може да бъде описана с помощта на вероятностно разпределение.

Проблеми на регресионния анализ

Този статистически изследователски метод се използва широко за прогнозиране, където използването му има значително предимство, но понякога може да доведе до илюзия или фалшиви връзки, така че се препоръчва да се използва внимателно в споменатия въпрос, тъй като например корелацията не означава причинно-следствена връзка.

Разработени са голям брой методи за регресионен анализ, като линейна и обикновена регресия на най-малките квадрати, които са параметрични. Тяхната същност е, че регресионната функция се дефинира от гледна точка на краен брой неизвестни параметри, които се оценяват от данните. Непараметричната регресия позволява нейната функция да лежи в определен набор от функции, които могат да бъдат безкрайномерни.

Като статистически изследователски метод регресионният анализ на практика зависи от формата на процеса на генериране на данни и от това как той се свързва с регресионния подход. Тъй като истинската форма на генериране на процеса на данни обикновено е неизвестно число, регресионният анализ на данните често зависи до известна степен от предположенията за процеса. Тези предположения понякога могат да бъдат тествани, ако има достатъчно налични данни. Регресионните модели често са полезни дори когато предположенията са умерено нарушени, въпреки че може да не работят с максимална ефективност.

В по-тесен смисъл регресията може да се отнася конкретно до оценката на променливите на непрекъснатия отговор, за разлика от променливите на дискретния отговор, използвани в класификацията. Случаят на непрекъснатата изходна променлива се нарича още метрична регресия, за да се разграничи от свързаните проблеми.

История

Най-ранната форма на регресия е добре познатият метод на най-малките квадрати. Той е публикуван от Лежандр през 1805 г. и Гаус през 1809 г. Лежандр и Гаус прилагат метода към проблема за определяне от астрономически наблюдения на орбитите на телата около Слънцето (главно комети, но по-късно и новооткрити малки планети). Гаус публикува по-нататъшно развитие на теорията на най-малките квадрати през 1821 г., включително версия на теоремата на Гаус-Марков.

Терминът "регресия" е въведен от Франсис Галтън през 19 век, за да опише биологичен феномен. Идеята беше, че височината на потомците от тази на техните предци има тенденция да регресира надолу към нормалната средна стойност. За Галтън регресията има само това биологично значение, но по-късно работата му е продължена от Удни Йоли и Карл Пиърсън и е приведена в по-общ статистически контекст. В работата на Юл и Пиърсън съвместното разпределение на отговора и обяснителните променливи се приема за Гаусово. Това предположение е отхвърлено от Фишер в статии от 1922 и 1925 г. Фишър предположи, че условното разпределение на променливата на отговора е гаусово, но съвместното разпределение не е необходимо да бъде. В това отношение предложението на Фишер е по-близо до формулировката на Гаус от 1821 г. Преди 1970 г. понякога отнемаше до 24 часа, за да се получи резултатът от регресионен анализ.

Методите за регресионен анализ продължават да бъдат област на активно изследване. През последните десетилетия бяха разработени нови методи за стабилна регресия; регресии, включващи корелирани отговори; регресионни методи, които приспособяват различни типове липсващи данни; непараметрична регресия; Байесови регресионни методи; регресии, при които предикторните променливи се измерват с грешка; регресия с повече предиктори, отколкото наблюдения, и причинно-следствени изводи с регресия.

Регресионни модели

Моделите за регресионен анализ включват следните променливи:

  • Неизвестни параметри, обозначени като бета, които могат да бъдат скалар или вектор.
  • Независими променливи, X.
  • Зависими променливи, Y.

Различните области на науката, където се използва регресионен анализ, използват различни термини вместо зависими и независими променливи, но във всички случаи регресионният модел свързва Y с функция на X и β.

Приближението обикновено се записва като E(Y | X) = F(X, β). За да се извърши регресионен анализ, трябва да се определи вида на функцията f. По-рядко се основава на знания за връзката между Y и X, които не разчитат на данни. Ако такова знание не е налично, тогава се избира гъвкавата или удобна форма F.

Зависима променлива Y

Нека сега приемем, че векторът на неизвестните параметри β има дължина k. За да извърши регресионен анализ, потребителят трябва да предостави информация за зависимата променлива Y:

  • Ако се наблюдават N точки от данни във формата (Y, X), където N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ако се наблюдава точно N = K и функцията F е линейна, тогава уравнението Y = F(X, β) може да бъде решено точно, а не приблизително. Това се равнява на решаване на набор от N-уравнения с N-неизвестни (елементи β), които имат уникално решение, стига X да е линейно независим. Ако F е нелинейно, може да няма решение или може да съществуват много решения.
  • Най-честата ситуация е, когато се наблюдават N > точки от данни. В този случай в данните има достатъчно информация за оценка на уникална стойност за β, която най-добре отговаря на данните, и регресионен модел, при който приложението към данните може да се разглежда като свръхопределена система в β.

В последния случай регресионният анализ предоставя инструменти за:

  • Намиране на решение за неизвестните параметри β, което например ще минимизира разстоянието между измерената и прогнозираната стойност на Y.
  • При определени статистически допускания, регресионният анализ използва излишна информация, за да предостави статистическа информация за неизвестните параметри β и прогнозираните стойности на зависимата променлива Y.

Необходим брой независими измервания

Да разгледаме регресионен модел, който има три неизвестни параметъра: β 0 , β 1 и β 2 . Да предположим, че експериментаторът прави 10 измервания на една и съща стойност на вектора X на независимата променлива. В този случай регресионният анализ не дава уникален набор от стойности. Най-доброто, което можете да направите, е да оцените средното и стандартното отклонение на зависимата променлива Y. По същия начин, чрез измерване на две различни стойности на X, можете да получите достатъчно данни за регресия с две неизвестни, но не и с три или повече неизвестни.

Ако измерванията на експериментатора са направени при три различни стойности на независимия променлив вектор X, тогава регресионният анализ ще предостави уникален набор от оценки за трите неизвестни параметъра в β.

В случай на обща линейна регресия горното твърдение е еквивалентно на изискването матрицата X T X да е обратима.

Статистически предположения

Когато броят на измерванията N е по-голям от броя на неизвестните параметри k и грешките на измерване ε i , тогава, като правило, излишната информация, съдържаща се в измерванията, се разпространява и използва за статистически прогнози по отношение на неизвестните параметри. Тази излишна информация се нарича регресивна степен на свобода.

Основни допускания

Класическите допускания за регресионен анализ включват:

  • Вземането на проби е представително за прогнозиране на изводи.
  • Членът на грешката е случайна променлива със средна стойност нула, която зависи от обяснителните променливи.
  • Независимите променливи се измерват без грешки.
  • Като независими променливи (предиктори), те са линейно независими, т.е. не е възможно да се изрази нито един предиктор като линейна комбинация от останалите.
  • Грешките са некорелирани, т.е. ковариационната матрица на грешката на диагоналите и всеки ненулев елемент е дисперсията на грешката.
  • Дисперсията на грешката е постоянна в наблюденията (хомоскедастичност). Ако не, тогава могат да се използват претеглени най-малки квадрати или други методи.

Тези достатъчни условия за оценка на най-малките квадрати имат необходимите свойства; по-специално, тези допускания означават, че оценките на параметрите ще бъдат обективни, последователни и ефективни, особено когато се вземат предвид в класа на линейните оценители. Важно е да се отбележи, че доказателствата рядко отговарят на условията. Тоест, методът се използва дори ако предположенията не са верни. Отклонението от предположенията понякога може да се използва като мярка за това колко полезен е моделът. Много от тези предположения могат да бъдат облекчени с по-напреднали методи. Докладите за статистически анализ обикновено включват анализ на тестове върху примерни данни и методология за полезността на модела.

Освен това променливите в някои случаи се отнасят до стойности, измерени в точки. Възможно е да има пространствени тенденции и пространствени автокорелации в променливи, които нарушават статистическите допускания. Географската претеглена регресия е единственият метод, който се занимава с такива данни.

Характеристика на линейната регресия е, че зависимата променлива, която е Yi, е линейна комбинация от параметри. Например простата линейна регресия използва една независима променлива, x i, и два параметъра, β 0 и β 1, за моделиране на n-точки.

При множествената линейна регресия има множество независими променливи или техни функции.

Когато се вземе произволна извадка от съвкупност, нейните параметри позволяват да се получи примерен линеен регресионен модел.

В този аспект най-популярен е методът на най-малките квадрати. Използва се за получаване на оценки на параметри, които минимизират сумата на квадратите на остатъците. Този вид минимизиране (което е типично за линейната регресия) на тази функция води до набор от нормални уравнения и набор от линейни уравнения с параметри, които се решават, за да се получат оценки на параметрите.

При по-нататъшното предположение, че грешката на популацията обикновено се разпространява, изследователят може да използва тези стандартни оценки на грешката, за да създаде доверителни интервали и да проведе тестове на хипотези относно нейните параметри.

Нелинеен регресионен анализ

Пример, при който функцията не е линейна по отношение на параметрите, показва, че сумата от квадрати трябва да бъде минимизирана с помощта на итеративна процедура. Това въвежда много усложнения, които определят разликите между линейните и нелинейните методи на най-малките квадрати. Следователно резултатите от регресионния анализ при използване на нелинеен метод понякога са непредсказуеми.

Изчисляване на мощността и размера на извадката

Като цяло няма последователни методи по отношение на броя на наблюденията спрямо броя на независимите променливи в модела. Първото правило е предложено от Добра и Хардин и изглежда като N = t^n, където N е размерът на извадката, n е броят на независимите променливи, а t е броят наблюдения, необходими за постигане на желаната точност, ако моделът имаше само една независима променлива. Например, изследовател изгражда линеен регресионен модел, използвайки набор от данни, който съдържа 1000 пациенти (N). Ако изследователят реши, че са необходими пет наблюдения за точно дефиниране на линията (m), тогава максималният брой независими променливи, които моделът може да поддържа, е 4.

Други методи

Въпреки че параметрите на регресионния модел обикновено се оценяват с помощта на метода на най-малките квадрати, има други методи, които се използват много по-рядко. Например, това са следните методи:

  • Байесови методи (например байесова линейна регресия).
  • Процентна регресия, използвана за ситуации, при които намаляването на процентните грешки се счита за по-подходящо.
  • Най-малките абсолютни отклонения, което е по-стабилно при наличие на отклонения, водещи до квантилна регресия.
  • Непараметрична регресия, която изисква голям брой наблюдения и изчисления.
  • Показател за дистанционно обучение, който се научава да намира смислен показател за разстояние в дадено входно пространство.

Софтуер

Всички основни пакети за статистически софтуер извършват регресионен анализ на най-малките квадрати. Простата линейна регресия и множествената регресия могат да се използват в някои приложения за електронни таблици, както и в някои калкулатори. Въпреки че много статистически софтуерни пакети могат да извършват различни видове непараметрична и стабилна регресия, тези методи са по-малко стандартизирани; различни софтуерни пакети прилагат различни методи. Специализиран софтуер за регресия е разработен за използване в области като анализ на изследването и невроизобразяване.

Регресионният анализ е един от най-популярните методи за статистическо изследване. Може да се използва за установяване на степента на влияние на независимите променливи върху зависимата променлива. Microsoft Excel има инструменти, предназначени за извършване на този тип анализ. Нека да разгледаме какво представляват те и как да ги използваме.

Но за да използвате функцията, която ви позволява да извършвате регресионен анализ, първо трябва да активирате пакета за анализ. Само тогава инструментите, необходими за тази процедура, ще се появят на лентата на Excel.


Сега, когато отидем на раздела "Данни", на лентата в кутията с инструменти "Анализ"ще видим нов бутон - "Анализ на данни".

Видове регресионен анализ

Има няколко вида регресии:

  • параболичен;
  • улегнал;
  • логаритмичен;
  • експоненциален;
  • демонстративен;
  • хиперболичен;
  • линейна регресия.

По-късно ще говорим по-подробно за извършването на последния тип регресионен анализ в Excel.

Линейна регресия в Excel

По-долу, като пример, е дадена таблица, показваща средната дневна външна температура и броя на клиентите на магазина за съответния работен ден. Нека да разберем с помощта на регресионен анализ как точно метеорологичните условия под формата на температура на въздуха могат да повлияят на посещаемостта на търговски обект.

Общото уравнение на линейната регресия е както следва: Y = a0 + a1x1 +…+ akhk. В тази формула Yозначава променлива, влиянието на факторите, върху които се опитваме да изследваме. В нашия случай това е броят на купувачите. Значение хса различните фактори, които влияят върху дадена променлива. Настроики аса регресионни коефициенти. Тоест те са тези, които определят значимостта на даден фактор. Индекс кобозначава общия брой на същите тези фактори.


Анализ на резултатите от анализа

Резултатите от регресионния анализ се показват под формата на таблица на мястото, посочено в настройките.

Един от основните показатели е R-квадрат. Това показва качеството на модела. В нашия случай този коефициент е 0,705 или около 70,5%. Това е приемливо ниво на качество. Зависимост по-малка от 0,5 е лоша.

Друг важен индикатор се намира в клетката в пресечната точка на линията "Y-пресечка"и колона "коефициенти". Това показва каква стойност ще има Y, а в нашия случай това е броят на купувачите, като всички други фактори са равни на нула. В тази таблица тази стойност е 58,04.

Стойност в пресечната точка на графиката "Променлива X1"И "коефициенти"показва нивото на зависимост на Y от X. В нашия случай това е нивото на зависимост на броя клиенти на магазина от температурата. Коефициент от 1,31 се счита за показател с доста високо влияние.

Както можете да видите, с помощта на Microsoft Excel е доста лесно да създадете таблица за регресионен анализ. Но само обучен човек може да работи с изходните данни и да разбере същността им.

Последни материали в раздела:

Електрически схеми безплатно
Електрически схеми безплатно

Представете си кибрит, който след като бъде ударен в кутия, пламва, но не светва. Каква полза от такъв мач? Ще бъде полезно в театралните...

Как да произведем водород от вода Производство на водород от алуминий чрез електролиза
Как да произведем водород от вода Производство на водород от алуминий чрез електролиза

„Водородът се генерира само когато е необходим, така че можете да произвеждате само толкова, колкото ви е необходимо“, обясни Уудъл в университета...

Изкуствена гравитация в научната фантастика В търсене на истината
Изкуствена гравитация в научната фантастика В търсене на истината

Проблемите с вестибуларния апарат не са единствената последица от продължителното излагане на микрогравитация. Астронавтите, които прекарват...