تحلیل رگرسیون روشی آماری برای بررسی وابستگی یک متغیر تصادفی به متغیرها است. رگرسیون در اکسل: معادله، مثال

هدف تحلیل رگرسیون اندازه گیری رابطه بین یک متغیر وابسته و یک (تحلیل رگرسیون زوجی) یا چند (چند) متغیر مستقل است. متغیرهای مستقل را فاکتوریل، توضیحی، تعیین کننده، رگرسیون و پیش بینی کننده نیز می نامند.

متغیر وابسته گاهی اوقات به عنوان متغیر تعریف شده، توضیح داده شده یا "پاسخ" نامیده می شود. استفاده بسیار گسترده از تحلیل رگرسیون در تحقیقات تجربی تنها به این دلیل نیست که ابزار مناسبی برای آزمون فرضیه ها است. رگرسیون، به ویژه رگرسیون چندگانه، یک تکنیک مدل‌سازی و پیش‌بینی مؤثر است.

بیایید توضیح اصول کار با تحلیل رگرسیون را با یک روش ساده تر - روش جفتی - شروع کنیم.

تحلیل رگرسیون زوجی

اولین گام ها هنگام استفاده از تحلیل رگرسیون تقریباً مشابه اقدامات ما در چارچوب محاسبه ضریب همبستگی خواهد بود. سه شرط اصلی برای اثربخشی تحلیل همبستگی با استفاده از روش پیرسون - توزیع نرمال متغیرها، اندازه‌گیری فاصله متغیرها، رابطه خطی بین متغیرها - برای رگرسیون چندگانه نیز مرتبط است. بر این اساس، در مرحله اول، نمودارهای پراکنده ساخته شده، تجزیه و تحلیل آماری و توصیفی متغیرها انجام شده و خط رگرسیون محاسبه می شود. همانطور که در چارچوب تحلیل همبستگی، خطوط رگرسیون با استفاده از روش حداقل مربعات ساخته می شوند.

برای نشان دادن واضح‌تر تفاوت‌های بین دو روش تجزیه و تحلیل داده‌ها، اجازه دهید به مثالی که قبلاً با متغیرهای «حمایت SPS» و «سهم جمعیت روستایی» در نظر گرفته شده است، بپردازیم. داده های اصلی یکسان است. تفاوت در نمودارهای پراکندگی این خواهد بود که در تحلیل رگرسیون درست است که متغیر وابسته را رسم کنیم - در مورد ما، "حمایت SPS" در امتداد محور Y، در حالی که در تحلیل همبستگی اهمیتی ندارد. پس از تمیز کردن نقاط پرت، نمودار پراکندگی به نظر می رسد:

ایده اساسی تحلیل رگرسیون این است که با داشتن یک روند کلی برای متغیرها - به شکل خط رگرسیون - می توانید مقدار متغیر وابسته را با داشتن مقادیر مستقل پیش بینی کنید.

بیایید یک تابع خطی ریاضی معمولی را تصور کنیم. هر خطی در فضای اقلیدسی را می توان با فرمول توصیف کرد:

که در آن a ثابتی است که افست را در امتداد محور y مشخص می کند. ب - ضریب تعیین کننده زاویه خط.

با دانستن شیب و ثابت، می توانید مقدار y را برای هر x محاسبه (پیش بینی) کنید.

این ساده‌ترین تابع اساس مدل تحلیل رگرسیون را با این اخطار تشکیل داد که مقدار y را نه دقیقاً، بلکه در یک بازه اطمینان معین، به عنوان مثال، پیش‌بینی می‌کنیم. تقریبا

ثابت نقطه تقاطع خط رگرسیون و محور y است (فاصله F، که معمولاً در بسته های آماری به عنوان "رهگیر" نامیده می شود). در مثال ما از رای دادن به SPS، مقدار گرد شده آن 10.55 خواهد بود. ضریب شیب b تقریباً برابر با 0.1- خواهد بود (همانطور که در تحلیل همبستگی، علامت نوع رابطه را نشان می دهد - مستقیم یا معکوس). بنابراین، مدل حاصل شبیه SP C = -0.1 x Sel خواهد بود. ما + 10.55.

بنابراین، برای مورد "جمهوری آدیگه" با سهم جمعیت روستایی 47 درصد، مقدار پیش بینی شده 5.63 خواهد بود:

ATP \u003d -0.10 x 47 + 10.55 \u003d 5.63.

تفاوت بین مقادیر اصلی و پیش بینی شده باقیمانده نامیده می شود (ما قبلاً در هنگام تجزیه و تحلیل جداول احتمالی با این اصطلاح - اساسی برای آمار - روبرو شده ایم). بنابراین، برای مورد جمهوری آدیگه، باقیمانده 3.92 - 5.63 = -1.71 خواهد بود. هر چه مقدار مدول باقیمانده بزرگتر باشد، مقدار کمتری پیش بینی می شود.

ما مقادیر پیش بینی شده و باقیمانده ها را برای همه موارد محاسبه می کنیم:

اتفاق می افتد	نشست ما	ممنون (اصل)	ممنون (پیش بینی شده)	باقی
جمهوری آدیگه	47	3,92	5,63	-1,71 -
جمهوری آلتای	76	5,4	2,59	2,81
جمهوری باشقیرستان	36	6,04	6,78	-0,74
جمهوری بوریاتیا	41	8,36	6,25	2,11
جمهوری داغستان	59	1,22	4,37	-3,15
جمهوری اینگوشتیا	59	0,38	4,37	3,99
و غیره.

تجزیه و تحلیل نسبت مقادیر اولیه و پیش بینی شده برای ارزیابی کیفیت مدل حاصل، توانایی پیش بینی آن است. یکی از شاخص های اصلی آمار رگرسیون، ضریب همبستگی چندگانه R است - ضریب همبستگی بین مقادیر اصلی و پیش بینی شده متغیر وابسته. در تحلیل رگرسیون زوجی، برابر است با ضریب همبستگی معمول پیرسون بین متغیر وابسته و مستقل، در مورد ما - 0.63. برای تفسیر معنادار R مضربی، باید آن را به ضریب تعیین تبدیل کرد. این کار به همان روشی انجام می شود که در تجزیه و تحلیل همبستگی - مربع کردن. ضریب تعیین R-square (R2) نسبت تغییرات در متغیر وابسته را نشان می دهد که توسط متغیرهای مستقل (مستقل) توضیح داده شده است.

در مورد ما، R 2 = 0.39 (0.63 2)؛ این بدان معناست که متغیر «نسبت جمعیت روستایی» حدود 40 درصد از تغییرات متغیر «حمایت از CPS» را توضیح می‌دهد. هر چه مقدار ضریب تعیین بزرگتر باشد، کیفیت مدل بالاتر است.

معیار دیگر کیفیت مدل، خطای استاندارد برآورد است. این معیاری است که نشان می دهد چقدر نقاط در اطراف خط رگرسیون "پراکنده" هستند. اندازه گیری پراکندگی برای متغیرهای بازه ای انحراف معیار است. بر این اساس، خطای استاندارد برآورد، انحراف معیار توزیع باقیمانده ها است. هر چه مقدار آن بیشتر باشد، اسپرد بیشتر و مدل بدتر است. در مورد ما، خطای استاندارد 2.18 است. در این مقدار است که مدل ما هنگام پیش‌بینی مقدار متغیر «پشتیبانی SPS» «به طور متوسط» اشتباه می‌کند.

آمار رگرسیون نیز شامل تحلیل واریانس می باشد. با کمک آن متوجه می شویم: 1) چه نسبتی از تغییرات (پراکندگی) متغیر وابسته توسط متغیر مستقل توضیح داده می شود. 2) چه نسبتی از واریانس متغیر وابسته توسط باقیمانده ها به حساب می آید (بخش غیرقابل توضیح). 3) نسبت این دو مقدار چقدر است (/"-ratio). آمار پراکندگی به ویژه برای مطالعات نمونه مهم است - این نشان می دهد که چقدر احتمال دارد بین متغیرهای مستقل و وابسته در جمعیت عمومی وجود داشته باشد. ، برای مطالعات مداوم (مانند مثال ما)، مطالعه در این مورد، بررسی می شود که آیا الگوی آماری آشکار شده ناشی از تصادفی شرایط تصادفی است یا خیر، برای مجموعه شرایطی که جامعه مورد بررسی در آن قرار دارد چقدر مشخص است. ، یعنی مشخص شده است که نتیجه به دست آمده برای برخی از مجموع عمومی گسترده تر درست نیست، بلکه میزان نظم آن، آزادی از تأثیرات تصادفی است.

در مورد ما، تجزیه و تحلیل آمار واریانس به شرح زیر است:

	اس اس	df	ام‌اس	اف	معنی
پسرفت.	258,77	1,00	258,77	54,29	0.000000001
باقی مانده است	395,59	83,00	L,11
جمع	654,36

نسبت F 54.29 در سطح 0.0000000001 قابل توجه است. بر این اساس، می‌توانیم با خیال راحت فرضیه صفر (که رابطه‌ای که پیدا کردیم تصادفی است) رد کنیم.

یک تابع مشابه با معیار t انجام می شود، اما با توجه به ضرایب رگرسیون (تقاطع زاویه ای و F). با استفاده از معیار /، این فرضیه را آزمایش می کنیم که ضرایب رگرسیون در جمعیت عمومی برابر با صفر است. در مورد ما، دوباره می توانیم با اطمینان فرضیه صفر را رد کنیم.

تحلیل رگرسیون چندگانه

مدل رگرسیون چندگانه تقریباً مشابه مدل رگرسیون زوجی است. تنها تفاوت این است که چندین متغیر مستقل به صورت متوالی در تابع خطی گنجانده می شوند:

Y = b1X1 + b2X2 + …+ bpXp + a.

اگر بیش از دو متغیر مستقل وجود داشته باشد، نمی‌توانیم یک نمایش بصری از رابطه آنها بدست آوریم؛ از این نظر، رگرسیون چندگانه کمتر از رگرسیون زوجی «مشاهده» است. هنگامی که دو متغیر مستقل وجود دارد، نمایش داده ها در یک نمودار پراکندگی سه بعدی می تواند مفید باشد. در بسته های نرم افزار آماری حرفه ای (به عنوان مثال Statistica) گزینه ای برای چرخش نمودار سه بعدی وجود دارد که امکان نمایش تصویری خوبی از ساختار داده را فراهم می کند.

هنگام کار با رگرسیون چندگانه، بر خلاف رگرسیون زوجی، تعیین الگوریتم تحلیل ضروری است. الگوریتم استاندارد شامل تمامی پیش بینی کننده های موجود در مدل رگرسیون نهایی می باشد. الگوریتم گام به گام گنجاندن متوالی (حذف) متغیرهای مستقل را بر اساس "وزن" توضیحی آنها فرض می کند. روش گام به گام زمانی خوب است که متغیرهای مستقل زیادی وجود داشته باشد. این مدل را از پیش‌بینی‌کننده‌های آشکار ضعیف «پاک می‌کند» و آن را فشرده‌تر و مختصرتر می‌کند.

یک شرط اضافی برای صحت رگرسیون چندگانه (همراه با فاصله، نرمال بودن و خطی بودن) عدم وجود چند خطی - وجود همبستگی قوی بین متغیرهای مستقل است.

تفسیر آمار رگرسیون چندگانه شامل تمام عناصری است که برای مورد رگرسیون زوجی در نظر گرفته ایم. علاوه بر این، مولفه های مهم دیگری نیز در آمار تحلیل رگرسیون چندگانه وجود دارد.

ما کار را با رگرسیون چندگانه بر روی نمونه آزمایش فرضیه هایی که تفاوت در سطح فعالیت های انتخاباتی در مناطق روسیه را توضیح می دهد، نشان خواهیم داد. مطالعات تجربی خاص نشان داده اند که مشارکت رای دهندگان تحت تأثیر موارد زیر است:

عامل ملی (متغیر "جمعیت روسیه"؛ عملیاتی شده به عنوان سهم جمعیت روسیه در نهادهای تشکیل دهنده فدراسیون روسیه). فرض بر این است که افزایش نسبت جمعیت روسیه منجر به کاهش مشارکت رای دهندگان می شود.

عامل شهرنشینی (متغیر "جمعیت شهری"؛ عملیاتی شده به عنوان سهم جمعیت شهری در نهادهای تشکیل دهنده فدراسیون روسیه، ما قبلاً با این عامل به عنوان بخشی از تحلیل همبستگی کار کرده ایم). فرض بر این است که افزایش نسبت جمعیت شهری نیز منجر به کاهش مشارکت رای دهندگان می شود.

متغیر وابسته - "شدت فعالیت انتخاباتی" ("فعال") از طریق داده های میانگین مشارکت برای مناطق در انتخابات فدرال از سال 1995 تا 2003 عملیاتی می شود. جدول داده های اولیه برای دو متغیر مستقل و یک متغیر وابسته به شکل زیر خواهد بود. :

اتفاق می افتد	متغیرها
اتفاق می افتد	دارایی های.	گور. ما	روس ما
جمهوری آدیگه	64,92	53	68
جمهوری آلتای	68,60	24	60
جمهوری بوریاتیا	60,75	59	70
جمهوری داغستان	79,92	41	9
جمهوری اینگوشتیا	75,05	41	23
جمهوری کالمیکیا	68,52	39	37
جمهوری کاراچایی-چرکس	66,68	44	42
جمهوری کارلیا	61,70	73	73
جمهوری کومی	59,60	74	57
ماری ال جمهوری	65,19	62	47

و غیره. (پس از پاکسازی آلاینده ها، 83 مورد از 88 مورد باقی مانده است)

آماری که کیفیت مدل را توصیف می کند:

1. چندگانه R = 0.62; L-square = 0.38. بنابراین عامل ملی و عامل شهرنشینی با هم حدود 38 درصد از تغییرات متغیر «فعالیت انتخاباتی» را تبیین می کنند.

2. میانگین خطا 3.38 است. این است که چگونه "به طور متوسط" مدل ساخته شده هنگام پیش بینی سطح مشارکت اشتباه است.

3. /l-نسبت تغییرات توضیح داده شده و غیرقابل توضیح 25.2 در سطح 0.000000003 است. فرضیه صفر در مورد تصادفی بودن روابط آشکار شده رد می شود.

4. معیار / برای ضرایب ثابت و رگرسیون متغیرهای «جمعیت شهری» و «جمعیت روسیه» در سطح 0000001/0 معنادار است. 0.00005 و 0.007 به ترتیب. فرضیه صفر در مورد تصادفی بودن ضرایب رد می شود.

آمار مفید اضافی در تجزیه و تحلیل نسبت مقادیر اولیه و پیش بینی شده متغیر وابسته، فاصله ماهالانوبیس و فاصله کوک است. اولی معیاری برای منحصر به فرد بودن مورد است (نشان می دهد که ترکیب مقادیر همه متغیرهای مستقل برای یک مورد خاص چقدر از مقدار میانگین برای همه متغیرهای مستقل به طور همزمان انحراف دارد). دومی معیاری برای سنجش تأثیر پرونده است. مشاهدات مختلف به روش های مختلف بر شیب خط رگرسیون تأثیر می گذارد و با استفاده از فاصله کوک می توانید آنها را با توجه به این شاخص مقایسه کنید. این در هنگام تمیز کردن نقاط پرت مفید است (یک مورد پرت را می توان به عنوان یک مورد بسیار تأثیرگذار در نظر گرفت).

در مثال ما داغستان یکی از موارد منحصر به فرد و تاثیرگذار است.

اتفاق می افتد	اولیه ارزش های	پردسکا ارزش های	باقی	فاصله ماهالانوبیس	فاصله
آدیگه	64,92	66,33	-1,40	0,69	0,00
جمهوری آلتای	68,60	69.91	-1,31	6,80	0,01
جمهوری بوریاتیا	60,75	65,56	-4,81	0,23	0,01
جمهوری داغستان	79,92	71,01	8,91	10,57	0,44
جمهوری اینگوشتیا	75,05	70,21	4,84	6,73	0,08
جمهوری کالمیکیا	68,52	69,59	-1,07	4,20	0,00

مدل رگرسیون واقعی دارای پارامترهای زیر است: Y-intercept (ثابت) = 75.99; b (Hor. sat.) \u003d -0.1; b (روسی ناس.) = -0.06. فرمول نهایی:

فعال، = -0.1 x Hor. sat.n+- 0.06 x روسیه. sat.n + 75.99.

آیا می‌توانیم «قدرت توضیحی» پیش‌بینی‌کننده‌ها را بر اساس مقدار ضریب 61 مقایسه کنیم. در این مورد، بله، زیرا هر دو متغیر مستقل فرمت درصدی یکسانی دارند. با این حال، اغلب، رگرسیون چندگانه با متغیرهای اندازه گیری شده در مقیاس های مختلف (به عنوان مثال، سطح درآمد به روبل و سن بر حسب سال) سروکار دارد. بنابراین در حالت کلی مقایسه قابلیت های پیش بینی متغیرها با ضریب رگرسیون نادرست است. در آمار رگرسیون چندگانه، ضریب بتا (B) ویژه ای برای این منظور وجود دارد که برای هر متغیر مستقل به طور جداگانه محاسبه می شود. این یک ضریب همبستگی جزئی (محاسبه شده پس از در نظر گرفتن تأثیر همه پیش بینی کننده های دیگر) عامل و پاسخ است و سهم مستقل عامل را در پیش بینی مقادیر پاسخ نشان می دهد. در تحلیل رگرسیون زوجی، ضریب بتا به طور قابل درک با ضریب همبستگی زوجی بین متغیر وابسته و مستقل برابر است.

در مثال ما، بتا (Hor. nas.) = -0.43، بتا (روسی nas.) = -0.28. بنابراین، هر دو عامل بر سطح فعالیت انتخاباتی تأثیر منفی می گذارند، در حالی که اهمیت عامل شهرنشینی به طور معنی داری بیشتر از اهمیت عامل ملی است. اثر ترکیبی هر دو عامل حدود 38٪ از تغییرات متغیر "فعالیت انتخاباتی" را تعیین می کند (مقدار L-squad را ببینید).

تجزیه و تحلیل رگرسیون

پسرفت (خطی) تحلیل و بررسی- روشی آماری برای مطالعه تأثیر یک یا چند متغیر مستقل بر یک متغیر وابسته. متغیرهای مستقل در غیر این صورت رگرسیون یا پیش بینی کننده و متغیرهای وابسته معیار نامیده می شوند. واژه شناسی وابستهو مستقلمتغیرها فقط وابستگی ریاضی متغیرها را منعکس می کنند ( همبستگی جعلی را ببینید) به جای رابطه علّی.

اهداف تحلیل رگرسیون

تعیین میزان جبر تغییر متغیر معیار (وابسته) توسط پیش بینی کننده ها (متغیرهای مستقل)
پیش بینی مقدار متغیر وابسته با استفاده از متغیر(های) مستقل
تعیین سهم متغیرهای مستقل فردی در تغییرات وابسته

نمی توان از تحلیل رگرسیون برای تعیین اینکه آیا رابطه ای بین متغیرها وجود دارد استفاده کرد، زیرا وجود چنین رابطه ای شرط لازم برای اعمال تحلیل است.

تعریف ریاضی رگرسیون

وابستگی شدیداً وابستگی را می توان به صورت زیر تعریف کرد. فرض کنید، متغیرهای تصادفی با توزیع احتمال مشترک معین باشند. اگر برای هر مجموعه از مقادیر یک انتظار شرطی تعریف شده باشد

(معادله رگرسیون عمومی)،

سپس تابع فراخوانی می شود پسرفتمقدار Y بر اساس مقادیر و نمودار آن - خط رگرسیونتوسط، یا معادله رگرسیون.

وابستگی به تغییر در مقادیر متوسط Y در هنگام تغییر آشکار می شود. اگرچه برای هر مجموعه ثابتی از مقادیر، کمیت یک متغیر تصادفی با پراکندگی مشخص باقی می ماند.

برای روشن شدن این سوال که تحلیل رگرسیون چقدر دقیق تغییر در Y را با تغییر تخمین می زند، از مقدار متوسط واریانس Y برای مجموعه های مختلف مقادیر استفاده می شود (در واقع، ما در مورد اندازه گیری پراکندگی صحبت می کنیم. متغیر وابسته حول خط رگرسیون).

روش حداقل مربعات (محاسبه ضرایب)

در عمل، خط رگرسیون اغلب به عنوان یک تابع خطی (رگرسیون خطی) که به بهترین وجه منحنی مورد نظر را تقریب می‌کند، جستجو می‌شود. این با استفاده از روش حداقل مربعات انجام می شود، زمانی که مجموع انحرافات مجذور موارد واقعی مشاهده شده از تخمین های آنها به حداقل برسد (به معنای تخمین ها با استفاده از یک خط مستقیم که ادعا می کند وابستگی رگرسیونی مورد نظر را نشان می دهد):

(M - حجم نمونه). این رویکرد مبتنی بر این واقعیت شناخته شده است که مجموع ظاهر شده در عبارت بالا دقیقاً برای موردی که .

برای حل مسئله تحلیل رگرسیون به روش حداقل مربعات، این مفهوم معرفی شده است توابع باقی مانده:

شرط حداقل تابع باقیمانده:

سیستم به دست آمده یک سیستم معادلات خطی با مجهولات است

اگر عبارات آزاد سمت چپ معادلات را با ماتریس نشان دهیم

و ضرایب مجهولات سمت راست ماتریس

سپس معادله ماتریسی را بدست می آوریم: که به راحتی با روش گاوس حل می شود. ماتریس حاصل، ماتریسی خواهد بود که شامل ضرایب معادله خط رگرسیون است:

برای به دست آوردن بهترین تخمین ها، لازم است پیش نیازهای LSM (شرایط گاوس-مارکوف) برآورده شود. در ادبیات انگلیسی، چنین تخمین‌هایی BLUE (بهترین برآوردگرهای خطی بی‌طرفدار) نامیده می‌شوند - بهترین تخمین‌های بی‌طرف خطی.

تفسیر پارامترهای رگرسیون

پارامترها ضرایب همبستگی جزئی هستند. به عنوان نسبت واریانس Y که با ثابت کردن تأثیر پیش‌بینی‌کننده‌های باقی‌مانده توضیح داده می‌شود، تفسیر می‌شود، یعنی سهم فردی را در توضیح Y اندازه‌گیری می‌کند. در مورد پیش‌بینی‌کننده‌های همبسته، مشکل عدم قطعیت در برآوردها وجود دارد. ، که به ترتیب قرار گرفتن پیش بینی کننده ها در مدل وابسته می شوند. در چنین مواردی استفاده از روش های تحلیل همبستگی و تحلیل رگرسیون گام به گام ضروری است.

در مورد مدل‌های غیرخطی تحلیل رگرسیون، توجه به این نکته مهم است که آیا ما در مورد غیرخطی بودن در متغیرهای مستقل (از دیدگاه رسمی که به راحتی به رگرسیون خطی کاهش می‌یابد) صحبت می‌کنیم یا غیرخطی بودن در پارامترهای تخمینی. (ایجاد مشکلات محاسباتی جدی). با نوع اول غیرخطی بودن، از منظر معنادار، مهم است که ظاهر در مدل اعضای فرم را مشخص کنیم، که نشان دهنده وجود تعامل بین ویژگی ها و غیره است (به چند خطی مراجعه کنید).

همچنین ببینید

پیوندها

www.kgafk.ru - سخنرانی در مورد "تحلیل رگرسیون"
www.basegroup.ru - روش هایی برای انتخاب متغیرها در مدل های رگرسیون

ادبیات

نورمن دریپر، هری اسمیتتحلیل رگرسیون کاربردی رگرسیون چندگانه = تحلیل رگرسیون کاربردی. - ویرایش سوم - م .: "دیالکتیک"، 2007. - S. 912. - ISBN 0-471-17082-8
روش های پایدار برای برآورد مدل های آماری: مونوگراف. - K. : PP "Sansparelle"، 2005. - S. 504. - ISBN 966-96574-0-7، UDC: 519.237.5:515.126.2، LBC 22.172 + 22.152
رادچنکو استانیسلاو گریگوریویچ،روش تحلیل رگرسیون: مونوگراف. - K. : "Korniychuk"، 2011. - S. 376. - ISBN 978-966-7599-72-0

بنیاد ویکی مدیا 2010 .

در نتیجه مطالعه مطالب فصل 4، دانش آموز باید:

دانستن

مفاهیم اساسی تحلیل رگرسیون؛
روشهای تخمین و خواص تخمین روش حداقل مربعات.
قوانین اساسی برای آزمون اهمیت و تخمین فاصله ای معادله و ضرایب رگرسیون.

قادر بودن به

برآورد پارامترهای مدل های دو بعدی و چندگانه معادلات رگرسیون را از داده های نمونه پیدا کنید، خواص آنها را تجزیه و تحلیل کنید.
اهمیت معادله و ضرایب رگرسیون را بررسی کنید.
تخمین فاصله پارامترهای مهم را بیابید.

خود

مهارت تخمین آماری پارامترهای معادلات رگرسیون دو بعدی و چندگانه. مهارت های بررسی کفایت مدل های رگرسیون؛
مهارت به دست آوردن معادله رگرسیون با تمام ضرایب معنی دار با استفاده از نرم افزارهای تحلیلی.

مفاهیم اساسی

پس از انجام تحلیل همبستگی، زمانی که وجود روابط معنی دار آماری بین متغیرها مشخص شد و میزان تنگی آنها ارزیابی شد، معمولاً با استفاده از روش های تحلیل رگرسیون به توصیف ریاضی نوع وابستگی ها می پردازند. برای این منظور، یک کلاس از توابع انتخاب می شود که نشانگر موثر را به هم پیوند می دهد درو آرگومان‌ها تخمین‌های پارامترهای معادله محدودیت را محاسبه کرده و دقت معادله حاصل را تجزیه و تحلیل می‌کنند.

تابع| وابستگی مقدار میانگین شرطی ویژگی مؤثر را توصیف می کند دراز مقادیر داده شده آرگومان ها، فراخوانی می شود معادله رگرسیون

اصطلاح "رگرسیون" (از لات. پسرفت-عقب نشینی، بازگشت به چیزی) توسط روانشناس و انسان شناس انگلیسی F. Galton معرفی شد و با یکی از اولین نمونه های او مرتبط است، که در آن گالتون، با پردازش داده های آماری مربوط به مسئله وراثت رشد، دریافت که اگر ارتفاع قد پدرها از میانگین قد همه پدران منحرف می شود ایکساینچ، سپس قد پسران آنها از میانگین قد همه پسران کمتر از ایکساینچ روند شناسایی شده نامیده شد رگرسیون به میانگین

اصطلاح "رگرسیون" به طور گسترده در ادبیات آماری استفاده می شود، اگرچه در بسیاری از موارد به طور دقیق وابستگی آماری را مشخص نمی کند.

برای توصیف دقیق معادله رگرسیون، دانستن قانون شرطی توزیع شاخص موثر ضروری است. yدر عمل آماری، معمولاً به دست آوردن چنین اطلاعاتی غیرممکن است، بنابراین، آنها به یافتن تقریب های مناسب برای تابع محدود می شوند. f(xتو ایکس 2، .... l *)، بر اساس تجزیه و تحلیل معنی دار اولیه از پدیده یا بر اساس داده های آماری اصلی.

در چارچوب مفروضات مدل فردی در مورد نوع توزیع بردار شاخص ها<) может быть получен общий вид معادلات رگرسیون، جایی که. برای مثال، با این فرض که مجموعه شاخص های مورد مطالعه از قانون توزیع نرمال بعدی () با بردار انتظارات ریاضی تبعیت می کند.

کجا و با ماتریس کوواریانس،

واریانس کجاست y،

معادله رگرسیون (انتظار شرطی) شکل دارد

بنابراین، اگر یک متغیر تصادفی چند متغیره ()

از قانون توزیع نرمال بعدی () تبعیت می کند، سپس از معادله رگرسیون شاخص مؤثر پیروی می کند دردر متغیرهای توضیحی خطی در است ایکسچشم انداز.

با این حال، در عمل آماری، معمولاً فرد باید خود را به یافتن تقریب‌های مناسب برای تابع رگرسیون واقعی ناشناخته محدود کند. f(x)از آنجایی که محقق دانش دقیقی از قانون شرطی توزیع احتمال شاخص عملکرد تحلیل شده ندارد دربرای مقادیر داده شده آرگومان ها ایکس.

رابطه بین برآوردهای واقعی، مدل و رگرسیون را در نظر بگیرید. اجازه دهید نشانگر عملکرد درمرتبط با استدلال ایکسنسبت

که در آن یک متغیر تصادفی با قانون توزیع نرمال است. تابع رگرسیون واقعی در این مورد است

فرض کنید شکل دقیق معادله رگرسیون واقعی را نمی دانیم، اما 9 مشاهده بر روی یک متغیر تصادفی دوبعدی داریم که با روابط نشان داده شده در شکل. 4.1.

برنج. 4.1. موقعیت نسبی حقیقتf(x) و نظریوایمدل های رگرسیون

محل قرارگیری نقاط در شکل 4.1 به ما اجازه می دهد تا خود را به کلاس وابستگی های خطی فرم محدود کنیم

با استفاده از روش حداقل مربعات، تخمینی برای معادله رگرسیون پیدا می کنیم.

برای مقایسه، در شکل. 4.1 نمودارهایی از تابع رگرسیون واقعی و تابع رگرسیون تقریبی نظری را نشان می دهد. تخمین معادله رگرسیون در احتمال به دومی همگرا می شود وایبا افزایش نامحدود در حجم نمونه ().

از آنجایی که ما به اشتباه یک تابع رگرسیون خطی را به جای یک تابع رگرسیون واقعی انتخاب کردیم، که متأسفانه در عمل تحقیقات آماری کاملاً رایج است، نتیجه‌گیری‌ها و برآوردهای آماری ما خاصیت سازگاری را ندارند. مهم نیست که چقدر حجم مشاهدات را افزایش دهیم، تخمین نمونه ما به تابع رگرسیون واقعی همگرا نخواهد شد.

اگر کلاس توابع رگرسیون را به درستی انتخاب کرده بودیم، پس عدم دقت در توضیحات با استفاده از وایتنها با محدود بودن نمونه توضیح داده می شود و بنابراین، می توان آن را به طور دلخواه کوچک کرد

برای بازیابی بهترین مقدار شرطی شاخص مؤثر و تابع رگرسیون ناشناخته از داده های آماری اولیه، موارد زیر اغلب استفاده می شود: معیارهای کفایتتوابع از دست دادن

1. روش حداقل مربعات،بر اساس آن مجذور انحراف مقادیر مشاهده شده شاخص موثر، از مقادیر مدل به حداقل می رسد، که در آن ضرایب معادله رگرسیون، مقادیر بردار آرگومان ها در "مشاهده M" است. :

مشکل یافتن تخمین بردار در حال حل است. رگرسیون حاصل نامیده می شود مربع متوسط

2. روش حداقل ماژول ها، که بر اساس آن مجموع انحرافات مطلق مقادیر مشاهده شده شاخص موثر از مقادیر مدولار به حداقل می رسد، یعنی.

رگرسیون حاصل نامیده می شود معنی مطلق(میانگین).

3. روش Minimaxبه حداقل رساندن ماژول ماکزیمم انحراف مقدار مشاهده شده نشانگر موثر کاهش می یابد y،از مقدار مدل، یعنی.

رگرسیون حاصل نامیده می شود حداقل

در کاربردهای عملی، اغلب مشکلاتی وجود دارد که در آن متغیر تصادفی مطالعه می شود y،بسته به مجموعه ای از متغیرها و پارامترهای ناشناخته. () را به عنوان در نظر خواهیم گرفت (k + 1)-جمعیت عمومی بعدی، که از آن یک نمونه تصادفی از حجم پ،که در آن () نتیجه مشاهده /-ام است،. برآورد پارامترهای ناشناخته بر اساس نتایج مشاهدات ضروری است. وظیفه توصیف شده در بالا به وظایف تحلیل رگرسیون اشاره دارد.

تجزیه و تحلیل رگرسیون روش تجزیه و تحلیل آماری وابستگی یک متغیر تصادفی را نام ببرید دربر روی متغیرهایی که در تحلیل رگرسیون به عنوان متغیرهای غیر تصادفی در نظر گرفته می شوند، صرف نظر از قانون توزیع واقعی

در مدل سازی آماری، تحلیل رگرسیون مطالعه ای است که برای ارزیابی رابطه بین متغیرها استفاده می شود. این روش ریاضی شامل بسیاری از روش‌های دیگر برای مدل‌سازی و تحلیل متغیرهای متعدد زمانی است که تمرکز بر رابطه بین یک متغیر وابسته و یک یا چند متغیر مستقل است. به طور خاص، تحلیل رگرسیون به شما کمک می کند تا بفهمید که اگر یکی از متغیرهای مستقل تغییر کند در حالی که متغیرهای مستقل دیگر ثابت بمانند، چگونه مقدار معمولی متغیر وابسته تغییر می کند.

در تمام موارد، نمره هدف تابعی از متغیرهای مستقل است و تابع رگرسیون نامیده می شود. در تحلیل رگرسیون، مشخص کردن تغییر در متغیر وابسته به عنوان تابعی از رگرسیون نیز جالب است که می‌توان با استفاده از توزیع احتمال توصیف کرد.

وظایف تحلیل رگرسیون

این روش تحقیق آماری به طور گسترده ای برای پیش بینی استفاده می شود که استفاده از آن مزیت قابل توجهی دارد، اما گاهی اوقات می تواند منجر به توهم یا روابط کاذب شود، بنابراین توصیه می شود در این سوال با دقت از آن استفاده کنید، زیرا به عنوان مثال، همبستگی به معنی نیست. علیت

تعداد زیادی روش برای انجام تحلیل رگرسیون توسعه داده شده است، مانند رگرسیون حداقل مربعات خطی و معمولی که پارامتریک هستند. ماهیت آنها این است که تابع رگرسیون بر حسب تعداد محدودی از پارامترهای ناشناخته که از داده ها تخمین زده می شوند، تعریف می شود. رگرسیون ناپارامتریک به تابع خود اجازه می دهد تا در مجموعه خاصی از توابع قرار گیرد که می تواند بینهایت بعدی باشد.

به عنوان یک روش تحقیق آماری، تحلیل رگرسیون در عمل به شکل فرآیند تولید داده و نحوه ارتباط آن با رویکرد رگرسیون بستگی دارد. از آنجایی که شکل واقعی تولید فرآیند داده معمولاً یک عدد ناشناخته است، تحلیل رگرسیون داده اغلب تا حدی به فرضیات مربوط به فرآیند بستگی دارد. اگر داده های کافی در دسترس باشد، گاهی اوقات این فرضیات قابل آزمایش هستند. مدل‌های رگرسیون اغلب مفید هستند حتی زمانی که مفروضات به طور متوسط نقض شوند، اگرچه ممکن است بهترین عملکرد را نداشته باشند.

در معنای محدودتر، رگرسیون می تواند به طور خاص به تخمین متغیرهای پاسخ پیوسته اشاره داشته باشد، در مقابل متغیرهای پاسخ گسسته مورد استفاده در طبقه بندی. به حالت متغیر خروجی پیوسته، رگرسیون متریک نیز گفته می شود تا آن را از مسائل مرتبط متمایز کند.

داستان

اولین شکل رگرسیون، روش شناخته شده حداقل مربعات است. توسط لژاندر در سال 1805 و گاوس در سال 1809 منتشر شد. لژاندر و گاوس این روش را برای مسئله تعیین مدار اجسام به دور خورشید (عمدتاً دنباله‌دارها، اما بعداً سیارات کوچک تازه کشف شده) از طریق مشاهدات نجومی به کار بردند. گاوس توسعه بیشتری از نظریه حداقل مربعات را در سال 1821 منتشر کرد، از جمله نوعی از قضیه گاوس-مارکوف.

اصطلاح "رگرسیون" توسط فرانسیس گالتون در قرن نوزدهم برای توصیف یک پدیده بیولوژیکی ابداع شد. نتیجه این بود که رشد فرزندان از رشد اجداد، به عنوان یک قاعده، به میانگین عادی کاهش می یابد. از نظر گالتون، رگرسیون فقط این معنای بیولوژیکی را داشت، اما بعداً کار او توسط اودنی یولی و کارل پیرسون مورد توجه قرار گرفت و به یک زمینه آماری کلی تری منتقل شد. در کار یول و پیرسون، توزیع مشترک متغیرهای پاسخ و توضیحی گاوسی در نظر گرفته شده است. این فرض توسط فیشر در مقالات 1922 و 1925 رد شد. فیشر پیشنهاد کرد که توزیع شرطی متغیر پاسخ گوسی است، اما توزیع مشترک لازم نیست. در این زمینه، پیشنهاد فیشر به فرمول 1821 گاوس نزدیکتر است. قبل از سال 1970، گاهی اوقات تا 24 ساعت طول می کشید تا نتیجه تجزیه و تحلیل رگرسیون به دست آید.

روش های تجزیه و تحلیل رگرسیون همچنان یک حوزه تحقیقات فعال است. در دهه های اخیر، روش های جدیدی برای رگرسیون قوی توسعه یافته است. رگرسیون شامل پاسخ های همبسته. روش های رگرسیون که انواع مختلفی از داده های از دست رفته را در خود جای می دهند. رگرسیون ناپارامتریک روش های رگرسیون بیزی رگرسیون هایی که در آن متغیرهای پیش بینی با خطا اندازه گیری می شوند. رگرسیون ها با پیش بینی های بیشتری نسبت به مشاهدات؛ و استنتاج های علی با رگرسیون.

مدل های رگرسیون

مدل های تحلیل رگرسیون شامل متغیرهای زیر است:

پارامترهای ناشناخته، که به صورت بتا نشان داده می شوند، که می تواند یک اسکالر یا یک بردار باشد.
متغیرهای مستقل، X.
متغیرهای وابسته، Y.

در رشته های مختلف علوم که تحلیل رگرسیون به کار می رود، به جای متغیرهای وابسته و مستقل از اصطلاحات مختلفی استفاده می شود، اما در همه موارد مدل رگرسیون Y را به تابعی از X و β مرتبط می کند.

تقریب معمولاً به صورت E (Y | X) = F (X, β) فرموله می شود. برای انجام تحلیل رگرسیون باید شکل تابع f را تعیین کرد. به ندرت، مبتنی بر دانش در مورد رابطه بین Y و X است که بر داده ها متکی نیست. اگر چنین دانشی در دسترس نباشد، فرم انعطاف پذیر یا راحت F انتخاب می شود.

متغیر وابسته Y

اکنون فرض می کنیم که بردار پارامترهای مجهول β دارای طول k است. برای انجام تحلیل رگرسیون، کاربر باید اطلاعاتی در مورد متغیر وابسته Y ارائه دهد:

اگر N نقطه داده از فرم (Y, X) مشاهده شود که در آن N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.

اگر دقیقاً N = K مشاهده شود و تابع F خطی باشد، معادله Y = F(X, β) را می توان دقیقاً حل کرد، نه تقریباً. این به حل مجموعه ای از معادلات N با N-ناشناخته ها (عناصر β) خلاصه می شود که تا زمانی که X به صورت خطی مستقل باشد، راه حل منحصر به فردی دارد. اگر F غیر خطی باشد، ممکن است راه حلی وجود نداشته باشد یا راه حل های زیادی وجود داشته باشد.
متداول ترین حالت در جایی است که N > نقاط به داده ها وجود دارد. در این مورد، اطلاعات کافی در داده ها برای تخمین مقدار منحصر به فرد β وجود دارد که به بهترین وجه با داده ها مطابقت دارد، و مدل رگرسیون زمانی که روی داده ها اعمال می شود، می تواند به عنوان یک سیستم نادیده گرفته شده در β دیده شود.

در مورد دوم، تحلیل رگرسیون ابزارهایی را برای موارد زیر فراهم می کند:

یافتن راه حلی برای پارامترهای ناشناخته β، که به عنوان مثال، فاصله بین مقدار اندازه گیری شده و پیش بینی شده Y را به حداقل می رساند.
تحت فرضیات آماری خاصی، تحلیل رگرسیون از اطلاعات اضافی برای ارائه اطلاعات آماری در مورد پارامترهای ناشناخته β و مقادیر پیش‌بینی‌شده متغیر وابسته Y استفاده می‌کند.

تعداد مورد نیاز اندازه گیری مستقل

مدل رگرسیونی را در نظر بگیرید که دارای سه پارامتر ناشناخته است: β 0 ، β 1 و β 2 . بیایید فرض کنیم که آزمایشگر 10 اندازه گیری را در همان مقدار متغیر مستقل بردار X انجام می دهد. در این مورد، تحلیل رگرسیون مجموعه ای منحصر به فرد از مقادیر را به دست نمی دهد. بهترین کاری که می توانید انجام دهید این است که میانگین و انحراف معیار متغیر وابسته Y را تخمین بزنید. به طور مشابه، با اندازه گیری دو مقدار مختلف X، می توانید داده های کافی برای یک رگرسیون با دو مجهول به دست آورید، اما نه برای سه مجهول یا بیشتر.

اگر اندازه‌گیری‌های آزمایشگر در سه مقدار مختلف از متغیر بردار مستقل X انجام شود، آنگاه تحلیل رگرسیون مجموعه‌ای منحصر به فرد از تخمین‌ها را برای سه پارامتر ناشناخته در β ارائه می‌دهد.

در مورد رگرسیون خطی عمومی، عبارت فوق معادل شرط معکوس بودن ماتریس X T X است.

مفروضات آماری

وقتی تعداد اندازه‌گیری‌های N بیشتر از تعداد پارامترهای مجهول k و خطاهای اندازه‌گیری εi باشد، معمولاً اطلاعات اضافی موجود در اندازه‌گیری‌ها توزیع می‌شود و برای پیش‌بینی‌های آماری در مورد پارامترهای ناشناخته استفاده می‌شود. این مازاد اطلاعات، درجه آزادی رگرسیون نامیده می شود.

مفروضات اساسی

مفروضات کلاسیک برای تحلیل رگرسیون عبارتند از:

نمونه گیری نماینده پیش بینی استنتاج است.
خطا یک متغیر تصادفی با مقدار میانگین صفر است که مشروط به متغیرهای توضیحی است.
متغیرهای مستقل بدون خطا اندازه گیری می شوند.
به عنوان متغیرهای مستقل (پیش‌بینی‌کننده)، به صورت خطی مستقل هستند، یعنی نمی‌توان هیچ پیش‌بینی‌کننده‌ای را به صورت ترکیبی خطی از دیگران بیان کرد.
خطاها همبستگی ندارند، یعنی ماتریس کوواریانس خطای قطرها و هر عنصر غیرصفر واریانس خطا است.
واریانس خطا در بین مشاهدات ثابت است (همسانی). در غیر این صورت، می توان از حداقل مربعات وزنی یا روش های دیگر استفاده کرد.

این شرایط کافی برای برآورد حداقل مربعات دارای ویژگی های مورد نیاز است، به ویژه این مفروضات به این معنی است که تخمین پارامتر عینی، سازگار و کارآمد خواهد بود، به ویژه زمانی که در کلاس برآوردهای خطی در نظر گرفته شود. توجه به این نکته مهم است که داده های واقعی به ندرت شرایط را برآورده می کنند. یعنی از روش استفاده می شود حتی اگر فرضیات صحیح نباشد. تغییر از مفروضات گاهی اوقات می تواند به عنوان معیاری برای میزان مفید بودن مدل استفاده شود. بسیاری از این فرضیات را می توان در روش های پیشرفته تر تسهیل کرد. گزارش‌های تحلیل آماری معمولاً شامل تجزیه و تحلیل آزمون‌ها در برابر داده‌های نمونه و روش‌شناسی برای سودمندی مدل است.

علاوه بر این، متغیرها در برخی موارد به مقادیر اندازه گیری شده در مکان های نقطه اشاره می کنند. ممکن است روندهای فضایی و خودهمبستگی های مکانی در متغیرها وجود داشته باشد که مفروضات آماری را نقض می کند. رگرسیون وزنی جغرافیایی تنها روشی است که با چنین داده هایی سروکار دارد.

در رگرسیون خطی، ویژگی این است که متغیر وابسته که Y i است، ترکیبی خطی از پارامترها است. به عنوان مثال، در رگرسیون خطی ساده، مدل‌سازی نقطه‌ای n از یک متغیر مستقل xi و دو پارامتر β 0 و β 1 استفاده می‌کند.

در رگرسیون خطی چندگانه، چندین متغیر مستقل یا توابع آنها وجود دارد.

هنگامی که به طور تصادفی از یک جامعه نمونه برداری می شود، پارامترهای آن امکان به دست آوردن نمونه ای از مدل رگرسیون خطی را فراهم می کند.

در این زمینه روش حداقل مربعات محبوب ترین است. این تخمین پارامترها را ارائه می دهد که مجموع مربع های باقیمانده را به حداقل می رساند. این نوع کمینه سازی (که نمونه ای از رگرسیون خطی است) این تابع منجر به مجموعه ای از معادلات عادی و مجموعه ای از معادلات خطی با پارامترها می شود که برای به دست آوردن تخمین پارامترها حل می شوند.

با فرض بیشتر اینکه خطای جمعیت به طور کلی منتشر می شود، محقق می تواند از این تخمین های خطاهای استاندارد برای ایجاد فواصل اطمینان و انجام آزمایش فرضیه ها در مورد پارامترهای آن استفاده کند.

تحلیل رگرسیون غیرخطی

مثالی که در آن تابع نسبت به پارامترها خطی نیست نشان می دهد که مجموع مربع ها باید با یک روش تکرار شونده به حداقل برسد. این پیچیدگی‌های بسیاری را معرفی می‌کند که تفاوت‌های بین روش‌های حداقل مربعات خطی و غیرخطی را مشخص می‌کند. در نتیجه، نتایج تحلیل رگرسیون هنگام استفاده از روش غیر خطی گاهی غیرقابل پیش‌بینی است.

محاسبه توان و حجم نمونه

در اینجا، به عنوان یک قاعده، هیچ روش ثابتی در مورد تعداد مشاهدات در مقایسه با تعداد متغیرهای مستقل در مدل وجود ندارد. قانون اول توسط دوبرا و هاردین ارائه شده است و به نظر می رسد N = t^n، که در آن N حجم نمونه، n تعداد متغیرهای توضیحی است، و t تعداد مشاهدات مورد نیاز برای دستیابی به دقت مورد نظر در صورت داشتن مدل است. فقط یک متغیر توضیحی به عنوان مثال، یک محقق یک مدل رگرسیون خطی را با استفاده از مجموعه داده ای که شامل 1000 بیمار است (N) می سازد. اگر محقق تصمیم بگیرد که برای تعیین دقیق خط (m) به پنج مشاهده نیاز است، حداکثر تعداد متغیرهای توضیحی که مدل می تواند پشتیبانی کند 4 است.

سایر روش ها

اگرچه پارامترهای یک مدل رگرسیون معمولاً با استفاده از روش حداقل مربعات تخمین زده می‌شوند، روش‌های دیگری نیز وجود دارند که کمتر مورد استفاده قرار می‌گیرند. به عنوان مثال، این روش ها عبارتند از:

روش های بیزی (به عنوان مثال، روش بیزی رگرسیون خطی).
رگرسیون درصدی برای موقعیت‌هایی که کاهش درصد خطا مناسب‌تر در نظر گرفته می‌شود استفاده می‌شود.
کوچکترین انحرافات مطلق، که در حضور نقاط پرت که منجر به رگرسیون چندکی می شود، قوی تر است.
رگرسیون ناپارامتریک که به تعداد زیادی مشاهدات و محاسبات نیاز دارد.
فاصله متریک یادگیری که در جستجوی یک متریک فاصله معنادار در فضای ورودی داده شده آموخته می شود.

نرم افزار

تمامی بسته های نرم افزاری آماری اصلی با استفاده از تحلیل رگرسیون حداقل مربعات انجام می شود. رگرسیون خطی ساده و تحلیل رگرسیون چندگانه را می توان در برخی از برنامه های کاربردی صفحه گسترده و همچنین برخی از ماشین حساب ها استفاده کرد. در حالی که بسیاری از بسته های نرم افزاری آماری می توانند انواع مختلفی از رگرسیون ناپارامتریک و قوی را انجام دهند، این روش ها کمتر استاندارد شده اند. بسته های نرم افزاری مختلف روش های مختلفی را پیاده سازی می کنند. نرم افزار رگرسیون تخصصی برای استفاده در زمینه هایی مانند تجزیه و تحلیل نظرسنجی و تصویربرداری عصبی ایجاد شده است.

تحلیل رگرسیون یکی از رایج ترین روش های تحقیق آماری است. می توان از آن برای تعیین میزان تأثیر متغیرهای مستقل بر متغیر وابسته استفاده کرد. عملکرد مایکروسافت اکسل دارای ابزارهایی است که برای انجام این نوع تجزیه و تحلیل طراحی شده اند. بیایید نگاهی بیندازیم که آنها چیست و چگونه از آنها استفاده کنیم.

اما، برای استفاده از تابعی که به شما امکان انجام تحلیل رگرسیون را می دهد، اول از همه، باید بسته تجزیه و تحلیل را فعال کنید. فقط در این صورت ابزارهای لازم برای این روش روی نوار اکسل ظاهر می شوند.

حالا وقتی به تب می رویم "داده ها"، روی روبان در جعبه ابزار "تحلیل و بررسی"ما یک دکمه جدید خواهیم دید - "تحلیل داده ها".

انواع تحلیل رگرسیون

چندین نوع رگرسیون وجود دارد:

سهموی
قدرت؛
لگاریتمی؛
نمایی;
تظاهرات؛
هذلولی
رگرسیون خطی.

در ادامه در مورد اجرای آخرین نوع تحلیل رگرسیون در اکسل با جزئیات بیشتری صحبت خواهیم کرد.

رگرسیون خطی در اکسل

در زیر، به عنوان مثال، جدولی است که میانگین دمای هوای روزانه در خیابان و تعداد مشتریان فروشگاه را برای روز کاری مربوطه نشان می دهد. بیایید با کمک تحلیل رگرسیون دریابیم که دقیقاً چگونه شرایط آب و هوایی به شکل دمای هوا می تواند بر حضور یک فروشگاه خرده فروشی تأثیر بگذارد.

معادله رگرسیون خطی کلی به این صورت است: Y = a0 + a1x1 + ... + axk. در این فرمول Yبه معنای متغیری است که می خواهیم تأثیر آن را مطالعه کنیم. در مورد ما، این تعداد خریداران است. معنی ایکسعوامل مختلفی هستند که بر متغیر تأثیر می گذارند. گزینه ها آضرایب رگرسیون هستند. یعنی اهمیت یک عامل خاص را تعیین می کنند. فهرست مطالب کتعداد کل همین عوامل را نشان می دهد.

تجزیه و تحلیل نتایج تجزیه و تحلیل

نتایج تحلیل رگرسیون به صورت جدول در محل مشخص شده در تنظیمات نمایش داده می شود.

یکی از شاخص های اصلی این است R-square. این نشان دهنده کیفیت مدل است. در مورد ما، این ضریب 0.705 یا حدود 70.5٪ است. این سطح کیفی قابل قبولی است. رابطه کمتر از 0.5 بد است.

شاخص مهم دیگر در سلول در تقاطع خط قرار دارد "تقاطع Y"و ستون "ضرایب". در اینجا مشخص شده است که Y چه مقدار خواهد داشت و در مورد ما، این تعداد خریداران است، با سایر عوامل برابر با صفر. در این جدول این مقدار 58.04 است.

مقدار در تقاطع نمودار "متغیر X1"و "ضرایب"سطح وابستگی Y به X را نشان می دهد. در مورد ما، این میزان وابستگی تعداد مشتریان فروشگاه به دما است. ضریب 1.31 یک شاخص نسبتاً بالای تأثیر در نظر گرفته می شود.

همانطور که می بینید، ایجاد جدول تجزیه و تحلیل رگرسیون با استفاده از Microsoft Excel بسیار آسان است. اما، فقط یک فرد آموزش دیده می تواند با داده های به دست آمده در خروجی کار کند و ماهیت آنها را درک کند.