რეგრესიული ანალიზი არის სტატისტიკური მეთოდი შემთხვევითი ცვლადის ცვლადებზე დამოკიდებულების შესასწავლად. რეგრესია Excel-ში: განტოლება, მაგალითები

რეგრესიული ანალიზის მიზანია დამოკიდებულ ცვლადსა და ერთ (წყვილთა რეგრესიის ანალიზი) ან რამდენიმე (მრავალჯერადი) დამოუკიდებელ ცვლადს შორის კავშირის გაზომვა. დამოუკიდებელ ცვლადებს ასევე უწოდებენ ფაქტორულ, ახსნით, განმსაზღვრელ, რეგრესორებს და პროგნოზირებს.

დამოკიდებულ ცვლადს ზოგჯერ მოიხსენიებენ, როგორც განსაზღვრულ, ახსნილ ან „პასუხის“ ცვლადს. რეგრესიული ანალიზის უკიდურესად ფართო გამოყენება ემპირიულ კვლევაში არ არის განპირობებული მხოლოდ იმით, რომ ის არის მოსახერხებელი ინსტრუმენტი ჰიპოთეზების შესამოწმებლად. რეგრესია, განსაკუთრებით მრავალჯერადი რეგრესია, ეფექტური მოდელირებისა და პროგნოზირების ტექნიკაა.

დავიწყოთ რეგრესიის ანალიზთან მუშაობის პრინციპების ახსნა უფრო მარტივი - წყვილი მეთოდით.

წყვილთა რეგრესიის ანალიზი

რეგრესიული ანალიზის გამოყენებისას პირველი ნაბიჯები თითქმის იდენტური იქნება ჩვენს მიერ გადადგმული კორელაციის კოეფიციენტის გამოთვლის ფარგლებში. პერსონის მეთოდით კორელაციური ანალიზის ეფექტურობის სამი ძირითადი პირობა - ცვლადების ნორმალური განაწილება, ცვლადების ინტერვალის გაზომვა, ცვლადებს შორის წრფივი ურთიერთობა ასევე აქტუალურია მრავალჯერადი რეგრესისთვის. შესაბამისად, პირველ ეტაპზე აგებულია სკატერ ნახაზები, ტარდება ცვლადების სტატისტიკური და აღწერითი ანალიზი და გამოითვლება რეგრესიის ხაზი. როგორც კორელაციური ანალიზის ფარგლებში, რეგრესიული ხაზები აგებულია უმცირესი კვადრატების მეთოდით.

მონაცემთა ანალიზის ორ მეთოდს შორის განსხვავებების უფრო ნათლად საილუსტრაციოდ მივმართოთ უკვე განხილულ მაგალითს ცვლადებით „SPS მხარდაჭერა“ და „სოფლის მოსახლეობის წილი“. ორიგინალური მონაცემები იდენტურია. Scatterplots-ში განსხვავება იქნება ის, რომ რეგრესიის ანალიზში სწორია დამოკიდებული ცვლადის გამოსახვა - ჩვენს შემთხვევაში „SPS მხარდაჭერა“ Y ღერძის გასწვრივ, კორელაციურ ანალიზში კი ამას მნიშვნელობა არ აქვს. გარე ნაწილების გაწმენდის შემდეგ, სკატერპლატი ასე გამოიყურება:

რეგრესიის ანალიზის ფუნდამენტური იდეა არის ის, რომ ცვლადების ზოგადი ტენდენციის მქონე - რეგრესიის ხაზის სახით - შეგიძლიათ იწინასწარმეტყველოთ დამოკიდებული ცვლადის მნიშვნელობა დამოუკიდებელი მნიშვნელობებით.

წარმოვიდგინოთ ჩვეულებრივი მათემატიკური წრფივი ფუნქცია. ნებისმიერი ხაზი ევკლიდეს სივრცეში შეიძლება აღწერილი იყოს ფორმულით:

სადაც a არის მუდმივი, რომელიც განსაზღვრავს გადაადგილებას y-ღერძის გასწვრივ; b - კოეფიციენტი, რომელიც განსაზღვრავს წრფის კუთხეს.

დახრილობის და მუდმივის ცოდნით, შეგიძლიათ გამოთვალოთ (იწინასწარმეტყველოთ) y-ის მნიშვნელობა ნებისმიერი x-ისთვის.

ამ უმარტივესმა ფუნქციამ საფუძველი ჩაუყარა რეგრესიის ანალიზის მოდელს იმ სიფრთხილით, რომ ჩვენ ვიწინასწარმეტყველებთ y-ის მნიშვნელობას არა ზუსტად, არამედ გარკვეული სანდო ინტერვალის ფარგლებში, ე.ი. დაახლოებით.

მუდმივი არის რეგრესიის ხაზისა და y-ღერძის გადაკვეთის წერტილი (F-გადაკვეთა, რომელიც სტატისტიკურ პაკეტებში ჩვეულებრივ მოიხსენიება როგორც „გადაკვეთა“). SPS-ისთვის ხმის მიცემის ჩვენს მაგალითში, მისი დამრგვალებული მნიშვნელობა იქნება 10.55. დახრილობის კოეფიციენტი b იქნება დაახლოებით -0,1-ის ტოლი (როგორც კორელაციური ანალიზის დროს, ნიშანი აჩვენებს ურთიერთობის ტიპს - პირდაპირ ან შებრუნებულს). ამრიგად, მიღებული მოდელი გამოიყურება SP C = -0.1 x Sel. ჩვენ. + 10.55.

ასე რომ, „ადიღეის რესპუბლიკის“ შემთხვევაში, სადაც სოფლის მოსახლეობის წილი 47%-ია, პროგნოზირებული მნიშვნელობა იქნება 5,63:

ATP \u003d -0.10 x 47 + 10.55 \u003d 5.63.

თავდაპირველ და პროგნოზირებულ მნიშვნელობებს შორის განსხვავებას ეწოდება ნარჩენი (ჩვენ უკვე შევხვდით ამ ტერმინს - ფუნდამენტური სტატისტიკისთვის - საგანგებო ცხრილების ანალიზისას). ასე რომ, ადიღეის რესპუბლიკის შემთხვევაში, დარჩენილი იქნება 3.92 - 5.63 = -1.71. რაც უფრო დიდია დანარჩენების მოდულის მნიშვნელობა, მით უფრო ნაკლებად იწინასწარმეტყველა მნიშვნელობა.

ჩვენ ვიანგარიშებთ პროგნოზირებულ მნიშვნელობებს და ნარჩენებს ყველა შემთხვევისთვის:

ხდება	სატ. ჩვენ.	მადლობა (ორიგინალური)	მადლობა (იწინასწარმეტყველა)	რჩება
ადიღეის რესპუბლიკა	47	3,92	5,63	-1,71 -
ალთაის რესპუბლიკა	76	5,4	2,59	2,81
ბაშკორტოსტანის რესპუბლიკა	36	6,04	6,78	-0,74
ბურიატიის რესპუბლიკა	41	8,36	6,25	2,11
დაღესტნის რესპუბლიკა	59	1,22	4,37	-3,15
ინგუშეთის რესპუბლიკა	59	0,38	4,37	3,99
და ა.შ.

საწყისი და პროგნოზირებული მნიშვნელობების თანაფარდობის ანალიზი ემსახურება მიღებული მოდელის ხარისხის, მისი პროგნოზირების უნარის შეფასებას. რეგრესიის სტატისტიკის ერთ-ერთი მთავარი მაჩვენებელია მრავალჯერადი კორელაციის კოეფიციენტი R - კორელაციის კოეფიციენტი დამოკიდებული ცვლადის თავდაპირველ და პროგნოზირებულ მნიშვნელობებს შორის. დაწყვილებულ რეგრესიულ ანალიზში ის უდრის ჩვეულებრივ პირსონის კორელაციის კოეფიციენტს დამოკიდებულ და დამოუკიდებელ ცვლადს შორის, ჩვენს შემთხვევაში - 0,63. მრავალჯერადი R-ის მნიშვნელოვნად ინტერპრეტაციისთვის, ის უნდა გარდაიქმნას დეტერმინაციის კოეფიციენტად. ეს კეთდება ისევე, როგორც კორელაციის ანალიზში - კვადრატში. განსაზღვრის კოეფიციენტი R-კვადრატი (R 2) გვიჩვენებს დამოკიდებული ცვლადის ცვალებადობის პროპორციას, რომელიც აიხსნება დამოუკიდებელი (დამოუკიდებელი) ცვლადებით.

ჩვენს შემთხვევაში, R 2 = 0.39 (0.63 2); ეს ნიშნავს, რომ ცვლადი „სოფლის მოსახლეობის პროპორცია“ ხსნის ცვლადის „CPS-ის მხარდაჭერა“ ცვლადის დაახლოებით 40%-ს. რაც უფრო დიდია განსაზღვრის კოეფიციენტის მნიშვნელობა, მით უფრო მაღალია მოდელის ხარისხი.

მოდელის ხარისხის კიდევ ერთი საზომია შეფასების სტანდარტული შეცდომა. ეს არის საზომი იმისა, თუ რამდენად არის "გაფანტული" წერტილები რეგრესიის ხაზის გარშემო. ინტერვალის ცვლადების დისპერსიის საზომი არის სტანდარტული გადახრა. შესაბამისად, შეფასების სტანდარტული შეცდომა არის ნარჩენების განაწილების სტანდარტული გადახრა. რაც უფრო მაღალია მისი ღირებულება, მით უფრო დიდია გავრცელება და უარესი მოდელი. ჩვენს შემთხვევაში, სტანდარტული შეცდომა არის 2.18. სწორედ ამ რაოდენობით იქნება ჩვენი მოდელი „საშუალოდ შეცდომით“ ცვლადის „SPS მხარდაჭერა“ მნიშვნელობის პროგნოზირებისას.

რეგრესიის სტატისტიკა ასევე მოიცავს დისპერსიის ანალიზს. მისი დახმარებით გავარკვევთ: 1) დამოკიდებული ცვლადის ვარიაციის (დისპერსიის) რა პროპორცია აიხსნება დამოუკიდებელი ცვლადით; 2) დამოკიდებული ცვლადის დისპერსიის რა წილი აღირიცხება ნარჩენებით (აუხსნელი ნაწილი); 3) რა არის ამ ორი მნიშვნელობის თანაფარდობა (/"-ფარდობა). დისპერსიის სტატისტიკა განსაკუთრებით მნიშვნელოვანია ნიმუშური კვლევებისთვის - ის გვიჩვენებს, რამდენად სავარაუდოა კავშირი დამოუკიდებელ და დამოკიდებულ ცვლადებს შორის ზოგადად პოპულაციაში. თუმცა , უწყვეტი კვლევებისთვის (როგორც ჩვენს მაგალითში), კვლევა ამ შემთხვევაში, მოწმდება, არის თუ არა გამოვლენილი სტატისტიკური ნიმუში გამოწვეული შემთხვევითი გარემოებების დამთხვევით, რამდენად დამახასიათებელია ის პირობების კომპლექსისთვის, რომელშიც მდებარეობს გამოკითხული პოპულაცია. , ანუ დადგენილია, რომ მიღებული შედეგი არ შეესაბამება უფრო ვრცელ ზოგად აგრეგატს, არამედ მისი კანონზომიერების ხარისხს, შემთხვევითი გავლენისგან თავისუფლებას.

ჩვენს შემთხვევაში, დისპერსიული სტატისტიკის ანალიზი ასეთია:

	SS	დფ	ᲥᲐᲚᲑᲐᲢᲝᲜᲘ	ფ	მნიშვნელობა
რეგრესი.	258,77	1,00	258,77	54,29	0.000000001
დარჩენილი	395,59	83,00	L, 11
სულ	654,36

F- თანაფარდობა 54.29 მნიშვნელოვანია 0.0000000001 დონეზე. შესაბამისად, ჩვენ შეგვიძლია უსაფრთხოდ უარვყოთ ნულოვანი ჰიპოთეზა (რომ ჩვენს მიერ ნაპოვნი ურთიერთობა შემთხვევითია).

ანალოგიურ ფუნქციას ასრულებს t კრიტერიუმი, მაგრამ რეგრესიის კოეფიციენტებთან მიმართებაში (კუთხოვანი და F-გადაკვეთები). კრიტერიუმის / გამოყენებით ვამოწმებთ ჰიპოთეზას, რომ საერთო პოპულაციაში რეგრესიის კოეფიციენტები ნულის ტოლია. ჩვენს შემთხვევაში, ჩვენ შეგვიძლია კვლავ დარწმუნებით უარვყოთ ნულოვანი ჰიპოთეზა.

მრავალჯერადი რეგრესიის ანალიზი

მრავალჯერადი რეგრესიის მოდელი თითქმის იდენტურია წყვილთა რეგრესიის მოდელის; ერთადერთი განსხვავება ისაა, რომ რამდენიმე დამოუკიდებელი ცვლადი თანმიმდევრულად შედის ხაზოვან ფუნქციაში:

Y = b1X1 + b2X2 + …+ bpXp + a.

თუ ორზე მეტი დამოუკიდებელი ცვლადია, ჩვენ ვერ მივიღებთ მათი ურთიერთობის ვიზუალურ წარმოდგენას; ამ მხრივ, მრავალჯერადი რეგრესია ნაკლებად „ხილულია“, ვიდრე წყვილთა რეგრესია. როდესაც არსებობს ორი დამოუკიდებელი ცვლადი, შეიძლება სასარგებლო იყოს მონაცემების ჩვენება 3D scatterplot-ში. პროფესიონალურ სტატისტიკურ პროგრამულ პაკეტებში (მაგალითად, Statistica) არის სამგანზომილებიანი დიაგრამის როტაციის შესაძლებლობა, რაც მონაცემთა სტრუქტურის კარგი ვიზუალური წარმოდგენის საშუალებას იძლევა.

მრავალჯერადი რეგრესიით მუშაობისას, წყვილთა რეგრესიისგან განსხვავებით, აუცილებელია ანალიზის ალგორითმის განსაზღვრა. სტანდარტული ალგორითმი მოიცავს ყველა შესაძლო პროგნოზს საბოლოო რეგრესიის მოდელში. ნაბიჯ-ნაბიჯ ალგორითმი ითვალისწინებს დამოუკიდებელი ცვლადების თანმიმდევრულ ჩართვას (გამორიცხვას), მათი განმარტებითი „წონის“ საფუძველზე. ეტაპობრივი მეთოდი კარგია, როცა ბევრი დამოუკიდებელი ცვლადია; ის „ასუფთავებს“ მოდელს გულწრფელად სუსტი პროგნოზირებისგან, რაც მას უფრო კომპაქტურს და ლაკონურს ხდის.

მრავალჯერადი რეგრესიის სისწორის დამატებითი პირობა (ინტერვალთან, ნორმალურობასთან და წრფივობასთან ერთად) არის მულტიკოლინეარობის არარსებობა - დამოუკიდებელ ცვლადებს შორის ძლიერი კორელაციების არსებობა.

მრავლობითი რეგრესიის სტატისტიკის ინტერპრეტაცია მოიცავს ყველა იმ ელემენტს, რაც ჩვენ განვიხილეთ წყვილ-წყვილი რეგრესიის შემთხვევაში. გარდა ამისა, არსებობს სხვა მნიშვნელოვანი კომპონენტები მრავალჯერადი რეგრესიის ანალიზის სტატისტიკაში.

ჩვენ განვიხილავთ მუშაობას მრავალჯერადი რეგრესიით ჰიპოთეზების ტესტირების მაგალითზე, რომლებიც ხსნიან განსხვავებებს საარჩევნო აქტივობის დონეში რუსეთის რეგიონებში. სპეციფიკურმა ემპირიულმა კვლევებმა აჩვენა, რომ ამომრჩეველთა აქტივობაზე გავლენას ახდენს:

ეროვნული ფაქტორი (ცვლადი „რუსული მოსახლეობა“; ოპერაციული, როგორც რუსეთის მოსახლეობის წილი რუსეთის ფედერაციის შემადგენელ ერთეულებში). ვარაუდობენ, რომ რუსეთის მოსახლეობის პროპორციის ზრდა იწვევს ამომრჩეველთა აქტივობის შემცირებას;

ურბანიზაციის ფაქტორი (ცვლადი „ურბანული მოსახლეობა“; ოპერაციული, როგორც ურბანული მოსახლეობის წილი რუსეთის ფედერაციის შემადგენელ ერთეულებში, ჩვენ უკვე ვიმუშავეთ ამ ფაქტორთან კორელაციის ანალიზის ფარგლებში). ვარაუდობენ, რომ ურბანული მოსახლეობის პროპორციის ზრდა ასევე იწვევს ამომრჩეველთა აქტივობის შემცირებას.

დამოკიდებული ცვლადი - "საარჩევნო აქტივობის ინტენსივობა" ("აქტიური") ფუნქციონირებს ფედერალურ არჩევნებზე 1995 წლიდან 2003 წლამდე რეგიონების აქტივობის საშუალო მონაცემებით. ორი დამოუკიდებელი და ერთი დამოკიდებული ცვლადის საწყისი მონაცემების ცხრილი შემდეგი ფორმა იქნება. :

ხდება	ცვლადები
ხდება	აქტივები.	გორ. ჩვენ.	რუს. ჩვენ.
ადიღეის რესპუბლიკა	64,92	53	68
ალთაის რესპუბლიკა	68,60	24	60
ბურიატიის რესპუბლიკა	60,75	59	70
დაღესტნის რესპუბლიკა	79,92	41	9
ინგუშეთის რესპუბლიკა	75,05	41	23
ყალმუხის რესპუბლიკა	68,52	39	37
ყარაჩაი-ჩერქეზეთის რესპუბლიკა	66,68	44	42
კარელიის რესპუბლიკა	61,70	73	73
კომის რესპუბლიკა	59,60	74	57
მარი ელ რესპუბლიკა	65,19	62	47

და ა.შ. (ემისიების გაწმენდის შემდეგ 88-დან 83 შემთხვევა რჩება)

სტატისტიკა, რომელიც აღწერს მოდელის ხარისხს:

1. მრავალჯერადი R = 0.62; L-კვადრატი = 0.38. აქედან გამომდინარე, ეროვნული ფაქტორი და ურბანიზაციის ფაქტორი ერთად ხსნის ცვლადის „საარჩევნო აქტივობის“ ვარიაციის დაახლოებით 38%-ს.

2. საშუალო შეცდომა არის 3.38. ასე ცდება „საშუალოდ“ აგებული მოდელი აქტივობის დონის პროგნოზირებისას.

3. ახსნილი და აუხსნელი ვარიაციის /ლ-ფარდობა არის 25.2 0.000000003 დონეზე. გამოვლენილი ურთიერთობების შემთხვევითობის შესახებ ნულოვანი ჰიპოთეზა უარყოფილია.

4. „ქალაქის მოსახლეობა“ და „რუსეთის მოსახლეობა“ ცვლადების მუდმივი და რეგრესიული კოეფიციენტების კრიტერიუმი / მნიშვნელოვანია 0,0000001 დონეზე; 0.00005 და 0.007 შესაბამისად. ნულოვანი ჰიპოთეზა კოეფიციენტების შემთხვევითობის შესახებ უარყოფილია.

დამატებითი სასარგებლო სტატისტიკა დამოკიდებული ცვლადის საწყისი და პროგნოზირებული მნიშვნელობების თანაფარდობის ანალიზში არის მაჰალანობის მანძილი და კუკის მანძილი. პირველი არის შემთხვევის უნიკალურობის საზომი (გვიჩვენებს, თუ რამდენად გადაიხრება მოცემული შემთხვევისთვის ყველა დამოუკიდებელი ცვლადის მნიშვნელობების ერთობლიობა ერთდროულად ყველა დამოუკიდებელი ცვლადის საშუალო მნიშვნელობიდან). მეორე არის საქმის გავლენის საზომი. სხვადასხვა დაკვირვება სხვადასხვანაირად მოქმედებს რეგრესიის ხაზის დახრილობაზე და მზარეულის მანძილის გამოყენებით შეგიძლიათ შეადაროთ ისინი ამ ინდიკატორის მიხედვით. ეს გამოსადეგია გარე უბნების გაწმენდისას (აუცილებელი შეიძლება ჩაითვალოს ზედმეტად გავლენიან შემთხვევად).

ჩვენს მაგალითში დაღესტანი ერთ-ერთი უნიკალური და გავლენიანი შემთხვევაა.

ხდება	საწყისი ღირებულებები	პრედსკა ღირებულებები	რჩება	მანძილი მაჰალანობის	მანძილი
ადიღეა	64,92	66,33	-1,40	0,69	0,00
ალთაის რესპუბლიკა	68,60	69.91	-1,31	6,80	0,01
ბურიატიის რესპუბლიკა	60,75	65,56	-4,81	0,23	0,01
დაღესტნის რესპუბლიკა	79,92	71,01	8,91	10,57	0,44
ინგუშეთის რესპუბლიკა	75,05	70,21	4,84	6,73	0,08
ყალმუხის რესპუბლიკა	68,52	69,59	-1,07	4,20	0,00

ფაქტობრივი რეგრესიის მოდელს აქვს შემდეგი პარამეტრები: Y-კვეთა (მუდმივი) = 75,99; b (ჰორ. დაჯდა) \u003d -0.1; b (რუს. nas.) = -0,06. საბოლოო ფორმულა:

აქტიური, = -0.1 x Hor. დაჯდა.n+- 0.06 x რუს. საჯ.n + 75.99.

შეგვიძლია შევადაროთ 61 კოეფიციენტის მნიშვნელობის მიხედვით პროგნოზირების „ახსნის ძალა“. ამ შემთხვევაში კი, რადგან ორივე დამოუკიდებელ ცვლადს აქვს ერთი და იგივე პროცენტული ფორმატი. თუმცა, ყველაზე ხშირად, მრავალჯერადი რეგრესია ეხება ცვლადებს, რომლებიც იზომება სხვადასხვა მასშტაბით (მაგალითად, შემოსავლის დონე რუბლებში და ასაკი წლების განმავლობაში). ამიტომ, ზოგად შემთხვევაში, არასწორია ცვლადების პროგნოზირებადი შესაძლებლობების შედარება რეგრესიის კოეფიციენტით. მრავალჯერადი რეგრესიის სტატისტიკაში, ამ მიზნით არსებობს სპეციალური ბეტა კოეფიციენტი (B), რომელიც გამოითვლება ცალ-ცალკე თითოეული დამოუკიდებელი ცვლადისთვის. ეს არის ფაქტორისა და პასუხის ნაწილობრივი (გამოითვლება ყველა სხვა პროგნოზირების გავლენის გათვალისწინების შემდეგ) კორელაციური კოეფიციენტი და აჩვენებს ფაქტორის დამოუკიდებელ წვლილს საპასუხო მნიშვნელობების პროგნოზირებაში. წყვილური რეგრესიის ანალიზში, ბეტა კოეფიციენტი გასაგებია ტოლი წყვილი კორელაციის კოეფიციენტის დამოკიდებულ და დამოუკიდებელ ცვლადს შორის.

ჩვენს მაგალითში ბეტა (ჰორ. ნას.) = -0.43, ბეტა (რუსული ნას.) = -0.28. ამრიგად, ორივე ფაქტორი უარყოფითად მოქმედებს საარჩევნო აქტივობის დონეზე, ხოლო ურბანიზაციის ფაქტორის მნიშვნელობა მნიშვნელოვნად აღემატება ეროვნული ფაქტორის მნიშვნელობას. ორივე ფაქტორის კომბინირებული ეფექტი განსაზღვრავს ცვლადის „საარჩევნო აქტივობის“ ვარიაციის დაახლოებით 38%-ს (იხ. L-კვადრატის მნიშვნელობა).

Რეგრესიული ანალიზი

რეგრესია (ხაზოვანი) ანალიზი- დამოკიდებულ ცვლადზე ერთი ან მეტი დამოუკიდებელი ცვლადის გავლენის შესწავლის სტატისტიკური მეთოდი. დამოუკიდებელ ცვლადებს სხვაგვარად რეგრესორებს ან პროგნოზირებს უწოდებენ, დამოკიდებულ ცვლადებს კი კრიტერიუმებს. ტერმინოლოგია დამოკიდებულიდა დამოუკიდებელიცვლადები ასახავს მხოლოდ ცვლადების მათემატიკურ დამოკიდებულებას ( იხილეთ ცრუ კორელაცია), ვიდრე მიზეზობრივი კავშირი.

რეგრესიული ანალიზის მიზნები

კრიტერიუმის (დამოკიდებული) ცვლადის ვარიაციის დეტერმინიზმის ხარისხის განსაზღვრა პროგნოზირებით (დამოუკიდებელი ცვლადები)
დამოკიდებული ცვლადის მნიშვნელობის პროგნოზირება დამოუკიდებელი ცვლადი(ებ)ის გამოყენებით
ცალკეული დამოუკიდებელი ცვლადების წვლილის განსაზღვრა დამოკიდებულის ვარიაციით

რეგრესიული ანალიზის გამოყენება შეუძლებელია იმის დასადგენად, არის თუ არა კავშირი ცვლადებს შორის, ვინაიდან ასეთი ურთიერთობის არსებობა ანალიზის გამოყენების წინაპირობაა.

რეგრესიის მათემატიკური განმარტება

მკაცრად რეგრესიული დამოკიდებულება შეიძლება განისაზღვროს შემდეგნაირად. მოდით , იყოს შემთხვევითი ცვლადები მოცემული ერთობლივი ალბათობის განაწილებით. თუ მნიშვნელობების თითოეული ნაკრებისთვის განისაზღვრება პირობითი მოლოდინი

(ზოგადი რეგრესიის განტოლება),

შემდეგ ფუნქცია გამოიძახება რეგრესია Y ფასდება მნიშვნელობებით და მისი გრაფიკი - რეგრესიის ხაზიმიერ, ან რეგრესიის განტოლება.

დამოკიდებულება გამოიხატება Y-ის საშუალო მნიშვნელობების ცვლილებაში ცვლილებისას. მიუხედავად იმისა, რომ მნიშვნელობების თითოეული ფიქსირებული ნაკრებისთვის, რაოდენობა რჩება შემთხვევით ცვლადად გარკვეული დისპერსიით.

იმის გასარკვევად, თუ რამდენად ზუსტად აფასებს რეგრესიის ანალიზი Y-ში ცვლილებას ცვლილებით, Y-ის ვარიაციის საშუალო მნიშვნელობა გამოიყენება მნიშვნელობების სხვადასხვა ნაკრებისთვის (სინამდვილეში, ჩვენ ვსაუბრობთ დისპერსიის ზომაზე. დამოკიდებული ცვლადი რეგრესიის ხაზის გარშემო).

უმცირესი კვადრატების მეთოდი (კოეფიციენტების გამოთვლა)

პრაქტიკაში, რეგრესიის ხაზს ყველაზე ხშირად ეძებენ, როგორც ხაზოვან ფუნქციას (წრფივი რეგრესია), რომელიც საუკეთესოდ აახლოებს სასურველ მრუდს. ეს კეთდება უმცირესი კვადრატების მეთოდის გამოყენებით, როდესაც მათი შეფასებებიდან რეალურად დაკვირვებული კვადრატული გადახრების ჯამი მინიმუმამდეა დაყვანილი (იგულისხმება შეფასებები სწორი ხაზის გამოყენებით, რომელიც აცხადებს, რომ წარმოადგენს სასურველ რეგრესიულ დამოკიდებულებას):

(M - ნიმუშის ზომა). ეს მიდგომა ემყარება ცნობილ ფაქტს, რომ ზემოაღნიშნულ გამონათქვამში მოცემული ჯამი იღებს მინიმალურ მნიშვნელობას ზუსტად იმ შემთხვევისთვის, როდესაც .

უმცირესი კვადრატების მეთოდით რეგრესიული ანალიზის პრობლემის გადასაჭრელად შემოღებულია კონცეფცია ნარჩენი ფუნქციები:

ნარჩენი ფუნქციის მინიმალური პირობა:

შედეგად მიღებული სისტემა არის წრფივი განტოლებათა სისტემა უცნობიებით

თუ განტოლებების მარცხენა მხარის თავისუფალ წევრებს მატრიცით წარმოვადგენთ

და უცნობების კოეფიციენტები მატრიცის მარჯვენა მხარეს

მაშინ მივიღებთ მატრიცულ განტოლებას: , რომელიც ადვილად ამოხსნილია გაუსის მეთოდით. შედეგად მიღებული მატრიცა იქნება მატრიცა, რომელიც შეიცავს რეგრესიის ხაზის განტოლების კოეფიციენტებს:

საუკეთესო შეფასებების მისაღებად აუცილებელია LSM-ის წინაპირობების შესრულება (გაუს-მარკოვის პირობები). ინგლისურ ლიტერატურაში ასეთ შეფასებებს უწოდებენ BLUE (Best Linear Unbiased Estimators) - საუკეთესო ხაზოვანი მიუკერძოებელი შეფასებები.

რეგრესიის პარამეტრების ინტერპრეტაცია

პარამეტრები არის ნაწილობრივი კორელაციის კოეფიციენტები; ინტერპრეტირებულია, როგორც Y-ის ვარიაციის პროპორცია, რომელიც ახსნილია დარჩენილი პროგნოზირების გავლენის დაფიქსირებით, ანუ ზომავს ინდივიდუალურ წვლილს Y-ის ახსნაში. კორელაციური პროგნოზირების შემთხვევაში, არსებობს გაურკვევლობის პრობლემა შეფასებებში. , რომლებიც დამოკიდებულნი ხდებიან მოდელში პროგნოზირების შეყვანის თანმიმდევრობაზე. ასეთ შემთხვევებში აუცილებელია კორელაციური და ეტაპობრივი რეგრესიული ანალიზის ანალიზის მეთოდების გამოყენება.

რეგრესიის ანალიზის არაწრფივ მოდელებზე საუბრისას, მნიშვნელოვანია ყურადღება მიაქციოთ, ვსაუბრობთ არაწრფივობაზე დამოუკიდებელ ცვლადებში (ფორმალური თვალსაზრისით, ადვილად დაყვანილი წრფივ რეგრესიამდე), თუ არაწრფივობაზე სავარაუდო პარამეტრებში. (იწვევს სერიოზულ გამოთვლით სირთულეებს). პირველი ტიპის არაწრფივობით, მნიშვნელოვანი თვალსაზრისით, მნიშვნელოვანია გამოვყოთ იერსახე ფორმის წევრების მოდელში, რაც მიუთითებს მახასიათებლებს შორის ურთიერთქმედების არსებობაზე და ა.შ. (იხ. მულტიკოლინარობა).

იხილეთ ასევე

ბმულები

www.kgafk.ru - ლექცია თემაზე "რეგრესიის ანალიზი"
www.basegroup.ru - რეგრესიის მოდელებში ცვლადების შერჩევის მეთოდები

ლიტერატურა

ნორმან დრეიპერი, ჰარი სმიტიგამოყენებითი რეგრესიული ანალიზი. მრავალჯერადი რეგრესია = გამოყენებითი რეგრესიის ანალიზი. - მე-3 გამოცემა. - მ .: "დიალექტიკა", 2007. - S. 912. - ISBN 0-471-17082-8
სტატისტიკური მოდელების შეფასების მდგრადი მეთოდები: მონოგრაფია. - K. : PP "Sansparelle", 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152
რადჩენკო სტანისლავ გრიგორიევიჩი,რეგრესიული ანალიზის მეთოდოლოგია: მონოგრაფია. - K. : "Korniychuk", 2011. - S. 376. - ISBN 978-966-7599-72-0

ფონდი ვიკიმედია. 2010 წ.

მე-4 თავის მასალის შესწავლის შედეგად მოსწავლემ უნდა:

იცით

რეგრესიული ანალიზის ძირითადი ცნებები;
უმცირესი კვადრატების მეთოდის შეფასების მეთოდები და შეფასების თვისებები;
განტოლებისა და რეგრესიის კოეფიციენტების მნიშვნელოვნების ტესტირების და ინტერვალური შეფასების ძირითადი წესები;

შეძლებს

რეგრესიის განტოლებების ორგანზომილებიანი და მრავალჯერადი მოდელების პარამეტრების შეფასებების პოვნა ნიმუშის მონაცემებიდან, მათი თვისებების ანალიზი;
განტოლებისა და რეგრესიის კოეფიციენტების მნიშვნელოვნების შემოწმება;
იპოვეთ მნიშვნელოვანი პარამეტრების ინტერვალური შეფასებები;

საკუთარი

ორგანზომილებიანი და მრავალჯერადი რეგრესიის განტოლებების პარამეტრების სტატისტიკური შეფასების უნარები; რეგრესიის მოდელების ადეკვატურობის შემოწმების უნარები;
ყველა მნიშვნელოვანი კოეფიციენტით რეგრესიის განტოლების მიღების უნარები ანალიტიკური პროგრამული უზრუნველყოფის გამოყენებით.

Ძირითადი ცნებები

კორელაციური ანალიზის ჩატარების შემდეგ, როდესაც გამოვლენილია სტატისტიკურად მნიშვნელოვანი ურთიერთობების არსებობა ცვლადებს შორის და შეფასებულია მათი შებოჭილობის ხარისხი, ისინი ჩვეულებრივ გადადიან დამოკიდებულებების ტიპის მათემატიკურ აღწერაზე რეგრესიული ანალიზის მეთოდების გამოყენებით. ამ მიზნით შეირჩევა ფუნქციების კლასი, რომელიც აკავშირებს ეფექტურ ინდიკატორს ზედა არგუმენტები„ გამოთვალეთ შეზღუდვის განტოლების პარამეტრების შეფასება და გაანალიზეთ მიღებული განტოლების სიზუსტე.

ფუნქცია|, რომელიც აღწერს ეფექტური მახასიათებლის პირობითი საშუალო მნიშვნელობის დამოკიდებულებას ზეარგუმენტების მოცემული მნიშვნელობებიდან ეწოდება რეგრესიის განტოლება.

ტერმინი "რეგრესია" (ლათ. რეგრესია -უკან დახევა, რაღაცის დაბრუნება) შემოიღო ინგლისელმა ფსიქოლოგმა და ანთროპოლოგმა ფ. გალტონმა და ასოცირდება მის ერთ-ერთ პირველ მაგალითთან, რომელშიც გალტონმა, ზრდის მემკვიდრეობის საკითხთან დაკავშირებული სტატისტიკური მონაცემების დამუშავებით, აღმოაჩინა, რომ თუ სიმაღლე მამები ყველა მამის საშუალო სიმაღლიდან გადახრის Xინჩით, მაშინ მათი ვაჟების სიმაღლე ყველა ვაჟის საშუალო სიმაღლიდან ნაკლებია xინჩი გამოვლენილ ტენდენციას ეწოდა რეგრესია საშუალოზე.

ტერმინი „რეგრესია“ ფართოდ გამოიყენება სტატისტიკურ ლიტერატურაში, თუმცა ხშირ შემთხვევაში ის ზუსტად არ ახასიათებს სტატისტიკურ დამოკიდებულებას.

რეგრესიის განტოლების ზუსტი აღწერისთვის აუცილებელია ეფექტური ინდიკატორის განაწილების პირობითი კანონის ცოდნა. წ.სტატისტიკურ პრაქტიკაში, როგორც წესი, შეუძლებელია ასეთი ინფორმაციის მოპოვება, ამიტომ ისინი შემოიფარგლება ფუნქციისთვის შესაფერისი მიახლოებების მოძიებით. f(x u X 2, .... l *), ფენომენის წინასწარი შინაარსიანი ანალიზის ან ორიგინალური სტატისტიკური მონაცემების საფუძველზე.

ინდიკატორთა ვექტორის განაწილების ტიპის შესახებ ინდივიდუალური მოდელის დაშვებების ფარგლებში<) может быть получен общий вид რეგრესიის განტოლებები, სად. მაგალითად, იმ ვარაუდით, რომ ინდიკატორების შესწავლილი ნაკრები ემორჩილება ()-განზომილებიანი ნორმალური განაწილების კანონს მათემატიკური მოლოდინების ვექტორთან.

სად და კოვარიანტული მატრიცის მიხედვით,

სად არის განსხვავება y,

რეგრესიის განტოლებას (პირობითი მოლოდინი) აქვს ფორმა

ამრიგად, თუ მრავალვარიანტული შემთხვევითი ცვლადი ()

ემორჩილება ()-განზომილებიანი ნორმალური განაწილების კანონს, შემდეგ ეფექტური ინდიკატორის რეგრესიის განტოლებას ზეგანმარტებით ცვლადებში აქვს წრფივი in Xხედი.

თუმცა, სტატისტიკურ პრაქტიკაში, ჩვეულებრივ, უნდა შემოიფარგლოთ უცნობი ჭეშმარიტი რეგრესიის ფუნქციისთვის შესაფერისი მიახლოებების მოძიებით. f(x),ვინაიდან მკვლევარს არ აქვს ზუსტი ცოდნა გაანალიზებული შესრულების ინდიკატორის ალბათობის განაწილების პირობითი კანონის შესახებ ზეარგუმენტების მოცემული მნიშვნელობებისთვის X.

განვიხილოთ კავშირი ჭეშმარიტ, მოდელსა და რეგრესიის შეფასებებს შორის. მოდით შესრულების მაჩვენებელი ზედაკავშირებული არგუმენტთან Xთანაფარდობა

სადაც არის შემთხვევითი ცვლადი ნორმალური განაწილების კანონით, უფრო მეტიც. ჭეშმარიტი რეგრესიის ფუნქცია ამ შემთხვევაში არის

დავუშვათ, რომ ჩვენ არ ვიცით ჭეშმარიტი რეგრესიის განტოლების ზუსტი ფორმა, მაგრამ გვაქვს ცხრა დაკვირვება ორგანზომილებიან შემთხვევით ცვლადზე, რომელიც დაკავშირებულია ნახ. 4.1.

ბრინჯი. 4.1. ჭეშმარიტის შედარებითი პოზიციაf(x) და თეორიულივაურეგრესიის მოდელები

წერტილების მდებარეობა ნახ. 4.1 საშუალებას გვაძლევს შემოვიფარგლოთ ფორმის წრფივი დამოკიდებულების კლასში

უმცირესი კვადრატების მეთოდის გამოყენებით, ჩვენ ვპოულობთ შეფასებას რეგრესიის განტოლებისთვის.

შედარებისთვის, ნახ. 4.1 გვიჩვენებს ჭეშმარიტი რეგრესიის ფუნქციისა და თეორიული მიახლოებითი რეგრესიის ფუნქციის გრაფიკებს. რეგრესიის განტოლების შეფასება ალბათობით გადადის ამ უკანასკნელთან ვაუნიმუშის ზომის შეუზღუდავი ზრდით ().

ვინაიდან ჩვენ შეცდომით ავირჩიეთ წრფივი რეგრესიის ფუნქცია ჭეშმარიტი რეგრესიის ფუნქციის ნაცვლად, რაც, სამწუხაროდ, საკმაოდ გავრცელებულია სტატისტიკური კვლევის პრაქტიკაში, ჩვენს სტატისტიკურ დასკვნებსა და შეფასებებს არ ექნება თანმიმდევრულობის თვისება, ე.ი. რაც არ უნდა გავზარდოთ დაკვირვების მოცულობა, ჩვენი ნიმუშის შეფასება არ გადავა ნამდვილ რეგრესიის ფუნქციასთან

თუ ჩვენ სწორად ავირჩიეთ რეგრესიის ფუნქციების კლასი, მაშინ აღწერის უზუსტობა გამოყენებით ვაუაიხსნება მხოლოდ ნიმუშის შეზღუდულობით და, მაშასადამე, მისი თვითნებურად დაპატარავება შეიძლებოდა

ეფექტური ინდიკატორის პირობითი მნიშვნელობისა და უცნობი რეგრესიის ფუნქციის საუკეთესოდ აღდგენის მიზნით საწყისი სტატისტიკური მონაცემებიდან ყველაზე ხშირად გამოიყენება შემდეგი: ადეკვატურობის კრიტერიუმებიდაკარგვის ფუნქციები.

1. მინიმალური კვადრატის მეთოდი,რომლის მიხედვითაც ეფექტური ინდიკატორის დაკვირვებული მნიშვნელობების კვადრატული გადახრა, მოდელის მნიშვნელობებიდან მინიმუმამდეა დაყვანილი, სადაც რეგრესიის განტოლების კოეფიციენტები არის არგუმენტების ვექტორის მნიშვნელობები "-M დაკვირვებაში". :

ვექტორის შეფასების პოვნის პრობლემა წყდება. შედეგად რეგრესია ე.წ საშუალო კვადრატი.

2. უმცირესი მოდულების მეთოდი, რომლის მიხედვითაც ეფექტური ინდიკატორის დაკვირვებული მნიშვნელობების აბსოლუტური გადახრების ჯამი მოდულარული მნიშვნელობებისგან მინიმუმამდეა დაყვანილი, ე.ი.

შედეგად რეგრესია ე.წ ნიშნავს აბსოლუტურ(მედიანა).

3. მინიმაქსის მეთოდიმცირდება ეფექტური ინდიკატორის დაკვირვებული მნიშვნელობის მაქსიმალური გადახრის მოდულის მინიმიზაციამდე y,მოდელის მნიშვნელობიდან, ე.ი.

შედეგად რეგრესია ე.წ მინიმაქსი.

პრაქტიკულ პროგრამებში ხშირად არის პრობლემები, რომლებშიც შემთხვევითი ცვლადი შესწავლილია y,დამოკიდებულია ცვლადების ზოგიერთ კომპლექტზე და უცნობ პარამეტრებზე. ჩვენ განვიხილავთ () როგორც (k + 1)-განზომილებიანი ზოგადი პოპულაცია, საიდანაც მოცულობის შემთხვევითი ნიმუში P,სადაც () არის /-დაკვირვების შედეგი,. საჭიროა უცნობი პარამეტრების შეფასება დაკვირვების შედეგების საფუძველზე. ზემოთ აღწერილი ამოცანა ეხება რეგრესიული ანალიზის ამოცანებს.

რეგრესიული ანალიზი მოვუწოდებთ შემთხვევითი ცვლადის დამოკიდებულების სტატისტიკური ანალიზის მეთოდს ზერეგრესიის ანალიზში განხილულ ცვლადებზე, როგორც არა შემთხვევითი ცვლადები, მიუხედავად ჭეშმარიტი განაწილების კანონისა

სტატისტიკურ მოდელირებაში რეგრესიული ანალიზი არის კვლევა, რომელიც გამოიყენება ცვლადებს შორის კავშირის შესაფასებლად. ეს მათემატიკური მეთოდი მოიცავს მრავალ სხვა მეთოდს მრავალი ცვლადის მოდელირებისა და ანალიზისთვის, როდესაც ყურადღება გამახვილებულია დამოკიდებულ ცვლადსა და ერთ ან მეტ დამოუკიდებელ ცვლადს შორის ურთიერთობაზე. უფრო კონკრეტულად, რეგრესიის ანალიზი დაგეხმარებათ გაიგოთ, თუ როგორ იცვლება დამოკიდებული ცვლადის ტიპიური მნიშვნელობა, თუ იცვლება ერთი დამოუკიდებელი ცვლადი, ხოლო დანარჩენი დამოუკიდებელი ცვლადი ფიქსირებული რჩება.

ყველა შემთხვევაში, სამიზნე ქულა დამოუკიდებელი ცვლადების ფუნქციაა და მას რეგრესიული ფუნქცია ეწოდება. რეგრესიის ანალიზში ასევე საინტერესოა დამოკიდებული ცვლადის ცვლილების დახასიათება რეგრესიის ფუნქციის სახით, რომელიც შეიძლება აღწერილი იყოს ალბათობის განაწილების გამოყენებით.

რეგრესიული ანალიზის ამოცანები

სტატისტიკური კვლევის ეს მეთოდი ფართოდ გამოიყენება პროგნოზირებისთვის, სადაც მის გამოყენებას აქვს მნიშვნელოვანი უპირატესობა, მაგრამ ზოგჯერ შეიძლება გამოიწვიოს ილუზია ან ცრუ ურთიერთობები, ამიტომ რეკომენდებულია მისი ფრთხილად გამოყენება ამ კითხვაში, რადგან, მაგალითად, კორელაცია არ ნიშნავს მიზეზობრიობა.

შემუშავებულია მრავალი მეთოდი რეგრესიის ანალიზის შესასრულებლად, როგორიცაა წრფივი და ჩვეულებრივი უმცირესი კვადრატების რეგრესია, რომლებიც პარამეტრულია. მათი არსი იმაში მდგომარეობს, რომ რეგრესიის ფუნქცია განისაზღვრება სასრული რაოდენობის უცნობი პარამეტრების მიხედვით, რომლებიც შეფასებულია მონაცემებიდან. არაპარამეტრული რეგრესია საშუალებას აძლევს მის ფუნქციას მოთავსდეს ფუნქციების გარკვეულ კომპლექტში, რომელიც შეიძლება იყოს უსასრულო-განზომილებიანი.

როგორც სტატისტიკური კვლევის მეთოდი, რეგრესიული ანალიზი პრაქტიკაში დამოკიდებულია მონაცემთა გენერირების პროცესის ფორმაზე და იმაზე, თუ როგორ უკავშირდება ის რეგრესიულ მიდგომას. ვინაიდან მონაცემთა პროცესის გენერირების ნამდვილი ფორმა, როგორც წესი, უცნობი რიცხვია, მონაცემთა რეგრესიის ანალიზი ხშირად გარკვეულწილად დამოკიდებულია პროცესის შესახებ დაშვებებზე. ეს ვარაუდები ზოგჯერ შესამოწმებელია, თუ საკმარისი მონაცემებია ხელმისაწვდომი. რეგრესიის მოდელები ხშირად გამოსადეგია მაშინაც კი, როდესაც ვარაუდები ზომიერად ირღვევა, თუმცა ისინი შეიძლება არ მუშაობდნენ საუკეთესოდ.

უფრო ვიწრო გაგებით, რეგრესია შეიძლება ეხებოდეს კონკრეტულად უწყვეტი პასუხის ცვლადების შეფასებას, განსხვავებით დისკრეტული პასუხის ცვლადებისგან, რომლებიც გამოიყენება კლასიფიკაციაში. უწყვეტი გამომავალი ცვლადის შემთხვევას ასევე უწოდებენ მეტრულ რეგრესიას, რათა განასხვავოს იგი დაკავშირებული პრობლემებისგან.

ისტორია

რეგრესიის ყველაზე ადრეული ფორმა არის უმცირესი კვადრატების ცნობილი მეთოდი. იგი გამოქვეყნდა Legendre-ის მიერ 1805 წელს და Gauss-ის მიერ 1809 წელს. ლეჟანდრმა და გაუსმა გამოიყენეს მეთოდი ასტრონომიული დაკვირვებებით მზის გარშემო სხეულების (ძირითადად კომეტების, მაგრამ მოგვიანებით ახლად აღმოჩენილი მცირე პლანეტების) ორბიტების განსაზღვრის პრობლემაზე. გაუსმა გამოაქვეყნა უმცირესი კვადრატების თეორიის შემდგომი განვითარება 1821 წელს, მათ შორის გაუს-მარკოვის თეორემის ვარიანტი.

ტერმინი „რეგრესია“ შემოიღო ფრენსის გალტონმა მე-19 საუკუნეში ბიოლოგიური ფენომენის აღსაწერად. დასკვნა ის იყო, რომ შთამომავლების ზრდა წინაპრების ზრდის შედეგად, როგორც წესი, რეგრესია ნორმალურ საშუალომდე. გალტონისთვის რეგრესიას მხოლოდ ეს ბიოლოგიური მნიშვნელობა ჰქონდა, მაგრამ მოგვიანებით მისი ნამუშევარი უდნი იოლიმ და კარლ პირსონმა აითვისეს და უფრო ზოგად სტატისტიკურ კონტექსტში გადაიყვანეს. იულისა და პირსონის ნაშრომში საპასუხო და ახსნითი ცვლადების ერთობლივი განაწილება მიჩნეულია გაუსიანად. ეს ვარაუდი უარყო ფიშერმა 1922 და 1925 წლების ნაშრომებში. ფიშერმა თქვა, რომ პასუხის ცვლადის პირობითი განაწილება არის გაუსიანი, მაგრამ ერთობლივი განაწილება არ არის აუცილებელი. ამ მხრივ, ფიშერის წინადადება უფრო ახლოსაა გაუსის 1821 წლის ფორმულირებასთან. 1970 წლამდე რეგრესიული ანალიზის შედეგის მიღებას ზოგჯერ 24 საათამდე სჭირდებოდა.

რეგრესიული ანალიზის მეთოდები კვლავაც აქტიური კვლევის სფეროა. ბოლო ათწლეულების განმავლობაში შემუშავდა ახალი მეთოდები ძლიერი რეგრესიისთვის; რეგრესია, რომელიც მოიცავს კორელაციურ პასუხებს; რეგრესიის მეთოდები, რომლებიც ათავსებენ სხვადასხვა სახის გამოტოვებულ მონაცემებს; არაპარამეტრული რეგრესია; ბაიესის რეგრესიის მეთოდები; რეგრესიები, რომლებშიც პროგნოზირების ცვლადები შეცდომით იზომება; რეგრესიები უფრო მეტი პროგნოზირებით, ვიდრე დაკვირვებები და მიზეზობრივი დასკვნები რეგრესიით.

რეგრესიის მოდელები

რეგრესიული ანალიზის მოდელები მოიცავს შემდეგ ცვლადებს:

უცნობი პარამეტრები, აღინიშნება როგორც ბეტა, რომელიც შეიძლება იყოს სკალარი ან ვექტორი.
დამოუკიდებელი ცვლადები, X.
დამოკიდებული ცვლადები, Y.

მეცნიერების სხვადასხვა დარგში, სადაც გამოიყენება რეგრესიული ანალიზი, გამოიყენება სხვადასხვა ტერმინები დამოკიდებული და დამოუკიდებელი ცვლადების ნაცვლად, მაგრამ ყველა შემთხვევაში რეგრესიის მოდელი აკავშირებს Y-ს X და β ფუნქციასთან.

მიახლოება ჩვეულებრივ ჩამოყალიბებულია როგორც E (Y | X) = F (X, β). რეგრესიული ანალიზის ჩასატარებლად უნდა განისაზღვროს f ფუნქციის ფორმა. უფრო იშვიათად, ის დაფუძნებულია Y-სა და X-ს შორის ურთიერთობის შესახებ ცოდნაზე, რომელიც არ ეყრდნობა მონაცემებს. თუ ასეთი ცოდნა არ არის ხელმისაწვდომი, მაშინ არჩეულია მოქნილი ან მოსახერხებელი ფორმა F.

დამოკიდებული ცვლადი Y

ახლა დავუშვათ, რომ β უცნობი პარამეტრების ვექტორს აქვს სიგრძე k. რეგრესიის ანალიზის შესასრულებლად მომხმარებელმა უნდა მიაწოდოს ინფორმაცია დამოკიდებული ცვლადის შესახებ Y:

თუ დაფიქსირდა ფორმის N მონაცემთა წერტილი (Y, X), სადაც N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.

თუ ზუსტად N = K დაფიქსირდა და F ფუნქცია წრფივია, მაშინ განტოლება Y = F(X, β) შეიძლება ამოიხსნას ზუსტად და არა მიახლოებით. ეს ემყარება N-განტოლებათა ნაკრების ამოხსნას N-უცნობებთან (β ელემენტები), რომელსაც აქვს უნიკალური ამონახსნები, სანამ X წრფივი დამოუკიდებელია. თუ F არაწრფივია, გამოსავალი შეიძლება არ არსებობდეს, ან შეიძლება იყოს ბევრი ამონახსნები.
ყველაზე გავრცელებული სიტუაციაა, სადაც არის N > წერტილები მონაცემებზე. ამ შემთხვევაში, არის საკმარისი ინფორმაცია მონაცემებში β-ის უნიკალური მნიშვნელობის შესაფასებლად, რომელიც საუკეთესოდ ერგება მონაცემებს, ხოლო რეგრესიის მოდელი, როდესაც გამოიყენება მონაცემებზე, შეიძლება ჩაითვალოს β-ში გადაფარულ სისტემად.

ამ უკანასკნელ შემთხვევაში, რეგრესიის ანალიზი იძლევა ინსტრუმენტებს:

ამოხსნის პოვნა უცნობი პარამეტრებისთვის β, რომელიც, მაგალითად, შეამცირებს მანძილს Y-ის გაზომილ და პროგნოზირებულ მნიშვნელობას შორის.
გარკვეული სტატისტიკური დაშვებებით, რეგრესიის ანალიზი იყენებს ზედმეტ ინფორმაციას, რათა მიაწოდოს სტატისტიკური ინფორმაცია უცნობი პარამეტრების β და დამოკიდებული ცვლადის Y პროგნოზირებული მნიშვნელობების შესახებ.

დამოუკიდებელი გაზომვების საჭირო რაოდენობა

განვიხილოთ რეგრესიის მოდელი, რომელსაც აქვს სამი უცნობი პარამეტრი: β 0 , β 1 და β 2 . დავუშვათ, რომ ექსპერიმენტატორი აკეთებს 10 გაზომვას ვექტორის X-ის დამოუკიდებელი ცვლადის იმავე მნიშვნელობით. ამ შემთხვევაში, რეგრესიის ანალიზი არ იძლევა მნიშვნელობების უნიკალურ კომპლექტს. ყველაზე კარგი, რაც შეგიძლიათ გააკეთოთ, არის დამოკიდებული Y ცვლადის საშუალო და სტანდარტული გადახრის შეფასება. ანალოგიურად, X-ის ორი განსხვავებული მნიშვნელობის გაზომვით, შეგიძლიათ მიიღოთ საკმარისი მონაცემები რეგრესია ორი უცნობით, მაგრამ არა სამი ან მეტი უცნობისთვის.

თუ ექსპერიმენტატორის გაზომვები იქნა მიღებული დამოუკიდებელი ვექტორული ცვლადის X-ის სამ სხვადასხვა მნიშვნელობებზე, მაშინ რეგრესიული ანალიზი უზრუნველყოფს შეფასებების უნიკალურ კომპლექტს β-ში სამი უცნობი პარამეტრისთვის.

ზოგადი წრფივი რეგრესიის შემთხვევაში, ზემოაღნიშნული დებულება ექვივალენტურია მოთხოვნისა, რომ მატრიცა X T X იყოს შექცევადი.

სტატისტიკური დაშვებები

როდესაც გაზომვების N რაოდენობა მეტია უცნობი პარამეტრების k და გაზომვის შეცდომებზე ε i, მაშინ, როგორც წესი, გაზომვებში შემავალი ზედმეტი ინფორმაცია ნაწილდება და გამოიყენება სტატისტიკური პროგნოზირებისთვის უცნობი პარამეტრების შესახებ. ინფორმაციის ამ სიჭარბეს რეგრესიის თავისუფლების ხარისხს უწოდებენ.

საფუძვლიანი ვარაუდები

რეგრესიის ანალიზისთვის კლასიკური დაშვებები მოიცავს:

შერჩევის აღება არის დასკვნის პროგნოზის წარმომადგენელი.
შეცდომა არის შემთხვევითი ცვლადი, რომლის საშუალო მნიშვნელობა ნულის ტოლია, რომელიც განპირობებულია განმარტებითი ცვლადებით.
დამოუკიდებელი ცვლადები იზომება შეცდომების გარეშე.
როგორც დამოუკიდებელი ცვლადები (პრედიქტორები), ისინი წრფივად დამოუკიდებელნი არიან, ანუ შეუძლებელია რომელიმე პროგნოზის გამოხატვა, როგორც სხვების წრფივი კომბინაცია.
შეცდომები არაკორელირებულია, ანუ დიაგონალების ცდომილების კოვარიანტული მატრიცა და ყოველი არანულოვანი ელემენტი არის შეცდომის ვარიანსი.
შეცდომის ცვალებადობა მუდმივია დაკვირვებებში (ჰომოსკედასტიურობა). თუ არა, მაშინ შეიძლება გამოყენებულ იქნას შეწონილი უმცირესი კვადრატები ან სხვა მეთოდები.

უმცირესი კვადრატების შეფასების ამ საკმარის პირობებს აქვს საჭირო თვისებები, კერძოდ, ეს დაშვებები ნიშნავს, რომ პარამეტრების შეფასებები იქნება ობიექტური, თანმიმდევრული და ეფექტური, განსაკუთრებით მაშინ, როდესაც მხედველობაში მიიღება ხაზოვანი შეფასებების კლასში. მნიშვნელოვანია აღინიშნოს, რომ ფაქტობრივი მონაცემები იშვიათად აკმაყოფილებს პირობებს. ანუ მეთოდი გამოიყენება მაშინაც კი, თუ ვარაუდები არ არის სწორი. ვარაუდებიდან ცვალებადობა ზოგჯერ შეიძლება გამოყენებულ იქნას, როგორც საზომი, თუ რამდენად სასარგებლოა მოდელი. ამ ვარაუდებიდან ბევრი შეიძლება შემსუბუქდეს უფრო მოწინავე მეთოდებში. სტატისტიკური ანალიზის ანგარიშები, როგორც წესი, მოიცავს ტესტების ანალიზს ნიმუშის მონაცემებისა და მოდელის სარგებლიანობის მეთოდოლოგიისთვის.

გარდა ამისა, ცვლადები ზოგიერთ შემთხვევაში ეხება წერტილების ადგილებზე გაზომილ მნიშვნელობებს. შეიძლება არსებობდეს სივრცითი ტენდენციები და სივრცითი ავტოკორელაციები ცვლადებში, რომლებიც არღვევენ სტატისტიკურ დაშვებებს. გეოგრაფიული შეწონილი რეგრესია ერთადერთი მეთოდია, რომელიც ეხება ასეთ მონაცემებს.

ხაზოვანი რეგრესიის მახასიათებელია ის, რომ დამოკიდებული ცვლადი, რომელიც არის Y i, არის პარამეტრების წრფივი კომბინაცია. მაგალითად, მარტივ ხაზოვან რეგრესიაში, n-პუნქტიანი მოდელირება იყენებს ერთ დამოუკიდებელ ცვლადს, x i და ორ პარამეტრს, β 0 და β 1 .

მრავალჯერადი წრფივი რეგრესიის დროს არსებობს რამდენიმე დამოუკიდებელი ცვლადი ან მათი ფუნქცია.

პოპულაციის შემთხვევითი შერჩევისას, მისი პარამეტრები შესაძლებელს ხდის ხაზოვანი რეგრესიის მოდელის ნიმუშის მიღებას.

ამ ასპექტში ყველაზე პოპულარულია უმცირესი კვადრატების მეთოდი. ის უზრუნველყოფს პარამეტრთა შეფასებებს, რომლებიც ამცირებენ ნარჩენების კვადრატების ჯამს. ამ ფუნქციის ამგვარი მინიმიზაცია (რაც დამახასიათებელია წრფივი რეგრესიისთვის) იწვევს ნორმალური განტოლებების ერთობლიობას და პარამეტრებთან წრფივი განტოლებების სიმრავლეს, რომლებიც წყდება პარამეტრების შეფასების მისაღებად.

თუ ვივარაუდებთ, რომ პოპულაციის შეცდომა ზოგადად გავრცელდება, მკვლევარს შეუძლია გამოიყენოს სტანდარტული შეცდომების ეს შეფასებები, რათა შექმნას ნდობის ინტერვალები და განახორციელოს ჰიპოთეზების ტესტირება მისი პარამეტრების შესახებ.

არაწრფივი რეგრესიული ანალიზი

მაგალითი, სადაც ფუნქცია არ არის წრფივი პარამეტრების მიმართ, მიუთითებს, რომ კვადრატების ჯამი მინიმუმამდე უნდა შემცირდეს განმეორებითი პროცედურის საშუალებით. ეს იწვევს ბევრ გართულებას, რომელიც განსაზღვრავს განსხვავებებს ხაზოვან და არაწრფივ უმცირეს კვადრატების მეთოდებს შორის. შესაბამისად, რეგრესიული ანალიზის შედეგები არაწრფივი მეთოდის გამოყენებისას ზოგჯერ არაპროგნოზირებადია.

სიმძლავრის და ნიმუშის ზომის გაანგარიშება

აქ, როგორც წესი, არ არსებობს თანმიმდევრული მეთოდები დაკვირვებების რაოდენობასთან შედარებით მოდელის დამოუკიდებელი ცვლადების რაოდენობასთან. პირველი წესი შემოგვთავაზეს დობრამ და ჰარდინმა და ჰგავს N = t^n, სადაც N არის ნიმუშის ზომა, n არის განმარტებითი ცვლადების რაოდენობა და t არის დაკვირვებების რაოდენობა, რომელიც საჭიროა სასურველი სიზუსტის მისაღწევად, თუ მოდელს ჰქონდა მხოლოდ ერთი განმარტებითი ცვლადი. მაგალითად, მკვლევარი აშენებს ხაზოვანი რეგრესიის მოდელს მონაცემთა ნაკრების გამოყენებით, რომელიც შეიცავს 1000 პაციენტს (N). თუ მკვლევარი გადაწყვეტს, რომ წრფის (მ) ზუსტად დასადგენად საჭიროა ხუთი დაკვირვება, მაშინ ახსნა-განმარტებითი ცვლადების მაქსიმალური რაოდენობა, რომლის მხარდაჭერაც მოდელს შეუძლია, არის 4.

სხვა მეთოდები

მიუხედავად იმისა, რომ რეგრესიული მოდელის პარამეტრები ჩვეულებრივ ფასდება უმცირესი კვადრატების მეთოდის გამოყენებით, არის სხვა მეთოდებიც, რომლებიც ნაკლებად ხშირად გამოიყენება. მაგალითად, ეს არის შემდეგი მეთოდები:

ბაიესის მეთოდები (მაგალითად, ხაზოვანი რეგრესიის ბაიესის მეთოდი).
პროცენტული რეგრესია, რომელიც გამოიყენება სიტუაციებისთვის, როდესაც პროცენტული შეცდომების შემცირება უფრო მიზანშეწონილია.
უმცირესი აბსოლუტური გადახრები, რომელიც უფრო მძლავრია კვანტილურ რეგრესამდე მიმავალი უკუსვლების არსებობისას.
არაპარამეტრული რეგრესია, რომელიც მოითხოვს დაკვირვებებისა და გამოთვლების დიდ რაოდენობას.
სასწავლო მეტრიკის მანძილი, რომელიც ისწავლება მოცემულ შეყვანის სივრცეში მნიშვნელოვანი მანძილის მეტრიკის ძიებაში.

პროგრამული უზრუნველყოფა

ყველა ძირითადი სტატისტიკური პროგრამული პაკეტი შესრულებულია უმცირესი კვადრატების რეგრესიის ანალიზის გამოყენებით. მარტივი წრფივი რეგრესია და მრავალჯერადი რეგრესიის ანალიზი შეიძლება გამოყენებულ იქნას როგორც ცხრილების ზოგიერთ აპლიკაციაში, ასევე ზოგიერთ კალკულატორში. მიუხედავად იმისა, რომ ბევრ სტატისტიკურ პროგრამულ პაკეტს შეუძლია შეასრულოს სხვადასხვა ტიპის არაპარამეტრული და ძლიერი რეგრესია, ეს მეთოდები ნაკლებად სტანდარტიზებულია; სხვადასხვა პროგრამული პაკეტები ახორციელებენ სხვადასხვა მეთოდებს. სპეციალიზებული რეგრესიის პროგრამული უზრუნველყოფა შემუშავებულია გამოსაყენებლად ისეთ სფეროებში, როგორიცაა კვლევის ანალიზი და ნეიროვიზუალიზაცია.

რეგრესიული ანალიზი სტატისტიკური კვლევის ერთ-ერთი ყველაზე პოპულარული მეთოდია. მისი გამოყენება შესაძლებელია დამოუკიდებელი ცვლადების დამოკიდებულ ცვლადზე გავლენის ხარისხის დასადგენად. Microsoft Excel-ის ფუნქციონირებას აქვს ინსტრუმენტები, რომლებიც შექმნილია ამ ტიპის ანალიზის შესასრულებლად. მოდით შევხედოთ რა არის ისინი და როგორ გამოვიყენოთ ისინი.

მაგრამ იმისათვის, რომ გამოიყენოთ ფუნქცია, რომელიც საშუალებას გაძლევთ ჩაატაროთ რეგრესიული ანალიზი, პირველ რიგში, თქვენ უნდა გაააქტიუროთ ანალიზის პაკეტი. მხოლოდ ამის შემდეგ გამოჩნდება ამ პროცედურისთვის საჭირო ხელსაწყოები Excel-ის ლენტაზე.

ახლა, როდესაც ჩვენ მივდივართ ჩანართზე "მონაცემები", ლენტაზე ხელსაწყოთა ყუთში "ანალიზი"ჩვენ ვნახავთ ახალ ღილაკს - "Მონაცემთა ანალიზი".

რეგრესიული ანალიზის სახეები

არსებობს რეგრესიის რამდენიმე ტიპი:

პარაბოლური;
ძალა;
ლოგარითმული;
ექსპონენციალური;
დემონსტრაცია;
ჰიპერბოლური;
ხაზოვანი რეგრესია.

ბოლო ტიპის რეგრესიული ანალიზის ექსელში განხორციელების შესახებ უფრო დეტალურად მოგვიანებით ვისაუბრებთ.

ხაზოვანი რეგრესია Excel-ში

ქვემოთ, მაგალითად, არის ცხრილი, რომელიც აჩვენებს ჰაერის საშუალო დღიურ ტემპერატურას ქუჩაში და მაღაზიის მომხმარებელთა რაოდენობას შესაბამისი სამუშაო დღისთვის. მოდით გავარკვიოთ რეგრესიული ანალიზის დახმარებით, ზუსტად როგორ შეიძლება გავლენა იქონიოს ამინდის პირობებმა ჰაერის ტემპერატურის სახით საცალო დაწესებულებებზე დასწრებაზე.

ზოგადი წრფივი რეგრესიის განტოლება ასე გამოიყურება: Y = a0 + a1x1 + ... + axk. ამ ფორმულაში ინიშნავს ცვლადს, რომლის გავლენის შესწავლას ვცდილობთ. ჩვენს შემთხვევაში, ეს არის მყიდველების რაოდენობა. მნიშვნელობა xარის სხვადასხვა ფაქტორები, რომლებიც გავლენას ახდენენ ცვლადზე. Პარამეტრები აარის რეგრესიის კოეფიციენტები. ანუ ისინი განსაზღვრავენ კონკრეტული ფაქტორის მნიშვნელობას. ინდექსი კაღნიშნავს იმავე ფაქტორების საერთო რაოდენობას.

ანალიზის შედეგების ანალიზი

რეგრესიული ანალიზის შედეგები ნაჩვენებია ცხრილის სახით პარამეტრებში მითითებულ ადგილას.

ერთ-ერთი მთავარი მაჩვენებელია R-კვადრატი. ეს მიუთითებს მოდელის ხარისხზე. ჩვენს შემთხვევაში ეს კოეფიციენტი არის 0,705 ანუ დაახლოებით 70,5%. ეს არის ხარისხის მისაღები დონე. 0,5-ზე ნაკლები ურთიერთობა ცუდია.

კიდევ ერთი მნიშვნელოვანი მაჩვენებელი მდებარეობს უჯრედში ხაზის გადაკვეთაზე "Y-კვეთა"და სვეტი "კოეფიციენტები". აქ მითითებულია რა მნიშვნელობა ექნება Y-ს და ჩვენს შემთხვევაში ეს არის მყიდველების რაოდენობა, ყველა სხვა ფაქტორი ნულის ტოლია. ამ ცხრილში ეს მნიშვნელობა არის 58.04.

მნიშვნელობა გრაფიკის გადაკვეთაზე "ცვლადი X1"და "კოეფიციენტები"აჩვენებს Y-ის X-ზე დამოკიდებულების დონეს. ჩვენს შემთხვევაში ეს არის მაღაზიის მომხმარებელთა რაოდენობის ტემპერატურაზე დამოკიდებულების დონე. კოეფიციენტი 1,31 ითვლება გავლენის საკმაოდ მაღალ მაჩვენებლად.

როგორც ხედავთ, საკმაოდ მარტივია რეგრესიის ანალიზის ცხრილის შექმნა Microsoft Excel-ის გამოყენებით. მაგრამ, მხოლოდ გაწვრთნილ ადამიანს შეუძლია იმუშაოს გამოსავალზე მიღებულ მონაცემებთან და გაიგოს მათი არსი.