Analisis regresi adalah metode statistik untuk mempelajari ketergantungan suatu variabel acak terhadap variabel. Regresi di Excel: persamaan, contoh

Tujuan analisis regresi adalah untuk mengukur hubungan antara suatu variabel terikat dengan satu (analisis regresi berpasangan) atau lebih (ganda) variabel bebas. Variabel bebas disebut juga variabel faktor, penjelas, determinan, regressor, dan prediktor.

Variabel terikat kadang-kadang disebut variabel yang ditentukan, dijelaskan, atau “respon”. Penggunaan analisis regresi yang sangat luas dalam penelitian empiris bukan hanya karena analisis ini merupakan alat yang mudah digunakan untuk menguji hipotesis. Regresi, khususnya regresi berganda, merupakan metode yang efektif untuk pemodelan dan peramalan.

Mari kita mulai menjelaskan prinsip-prinsip bekerja dengan analisis regresi dengan metode berpasangan yang lebih sederhana.

Analisis Regresi Berpasangan

Langkah pertama saat menggunakan analisis regresi hampir sama dengan langkah yang kita ambil dalam menghitung koefisien korelasi. Tiga syarat utama efektivitas analisis korelasi dengan metode Pearson - distribusi variabel normal, interval pengukuran variabel, hubungan linier antar variabel - juga relevan untuk regresi berganda. Oleh karena itu, pada tahap pertama, plot sebar dibuat, analisis statistik dan deskriptif variabel dilakukan, dan garis regresi dihitung. Seperti dalam kerangka analisis korelasi, garis regresi dibangun dengan menggunakan metode kuadrat terkecil.

Untuk lebih jelas menggambarkan perbedaan antara kedua metode analisis data, mari kita lihat contoh yang telah dibahas mengenai variabel “dukungan SPS” dan “bagian populasi pedesaan”. Sumber datanya identik. Perbedaan antara plot sebar adalah bahwa dalam analisis regresi, variabel dependen diplot dengan benar - dalam kasus kami, “dukungan SPS” pada sumbu Y, sedangkan dalam analisis korelasi hal ini tidak menjadi masalah. Setelah outlier dibersihkan, plot sebarnya terlihat seperti ini:

Ide dasar dari analisis regresi adalah, dengan memiliki tren umum untuk variabel - dalam bentuk garis regresi - dimungkinkan untuk memprediksi nilai variabel terikat, dengan mempertimbangkan nilai variabel independen.

Mari kita bayangkan sebuah fungsi linier matematika biasa. Setiap garis lurus dalam ruang Euclidean dapat dijelaskan dengan rumus:

dimana a adalah konstanta yang menentukan perpindahan sepanjang sumbu ordinat; b adalah koefisien yang menentukan sudut kemiringan garis.

Mengetahui kemiringan dan konstanta, Anda dapat menghitung (memprediksi) nilai y untuk sembarang x.

Fungsi paling sederhana ini menjadi dasar model analisis regresi dengan peringatan bahwa kita tidak akan memprediksi nilai y secara tepat, tetapi dalam interval kepercayaan tertentu, yaitu. sekitar.

Konstanta adalah titik potong garis regresi dan sumbu y (persimpangan F, biasanya dilambangkan dengan “pencegat” dalam paket statistik). Dalam contoh kita dengan pemungutan suara untuk Union of Right Forces, nilai pembulatannya adalah 10,55. Koefisien sudut b kira-kira -0,1 (seperti dalam analisis korelasi, tanda menunjukkan jenis hubungan - langsung atau terbalik). Dengan demikian model yang dihasilkan akan berbentuk SP C = -0,1 x Sel. kita. + 10.55.

Jadi, untuk kasus “Republik Adygea” dengan jumlah penduduk pedesaan sebesar 47%, nilai prediksinya adalah 5,63:

ATP = -0,10 x 47 + 10,55 = 5,63.

Selisih antara nilai awal dan nilai prediksi disebut sisanya (kita telah menjumpai istilah ini, yang merupakan dasar statistik, ketika menganalisis tabel kontingensi). Jadi, untuk kasus “Republik Adygea” sisanya akan sama dengan 3,92 - 5,63 = -1,71. Semakin besar nilai modular sisanya, semakin kurang berhasil nilai prediksinya.

Kami menghitung nilai prediksi dan residu untuk semua kasus:
Kejadian Duduk. kita. Terima kasih

(asli)

Terima kasih

(diprediksi)

Sisa
Republik Adygea 47 3,92 5,63 -1,71 -
Republik Altai 76 5,4 2,59 2,81
Republik Bashkortostan 36 6,04 6,78 -0,74
Republik Buryatia 41 8,36 6,25 2,11
Republik Dagestan 59 1,22 4,37 -3,15
Republik Ingushetia 59 0,38 4,37 3,99
Dll.

Analisis rasio nilai awal dan nilai prediksi berfungsi untuk menilai kualitas model yang dihasilkan dan kemampuan prediksinya. Salah satu indikator utama statistik regresi adalah koefisien korelasi berganda R - koefisien korelasi antara nilai awal dan nilai prediksi dari variabel terikat. Dalam analisis regresi berpasangan, ini sama dengan koefisien korelasi Pearson biasa antara variabel dependen dan independen, dalam kasus kami - 0,63. Untuk menafsirkan kelipatan R secara bermakna, R harus diubah menjadi koefisien determinasi. Hal ini dilakukan dengan cara yang sama seperti dalam analisis korelasi - dengan mengkuadratkan. Koefisien determinasi R-squared (R 2) menunjukkan proporsi variasi variabel terikat yang dijelaskan oleh variabel bebas.

Dalam kasus kami, R 2 = 0,39 (0,63 2); ini berarti bahwa variabel “pangsa penduduk pedesaan” menjelaskan sekitar 40% variasi dalam variabel “dukungan SPS”. Semakin besar koefisien determinasi maka semakin tinggi kualitas model tersebut.

Indikator kualitas model lainnya adalah kesalahan standar estimasi. Ini adalah ukuran seberapa luas titik-titik tersebut “tersebar” di sekitar garis regresi. Ukuran penyebaran variabel interval adalah standar deviasi. Oleh karena itu, kesalahan standar estimasi adalah standar deviasi dari distribusi residu. Semakin tinggi nilainya, semakin besar penyebarannya dan semakin buruk modelnya. Dalam kasus kami, kesalahan standarnya adalah 2.18. Pada jumlah inilah model kita akan “memiliki kesalahan rata-rata” ketika memprediksi nilai variabel “dukungan SPS”.

Statistik regresi juga mencakup analisis varians. Dengan bantuannya kita mengetahui: 1) berapa proporsi variasi (dispersi) variabel terikat yang dijelaskan oleh variabel bebas; 2) berapa proporsi varians variabel dependen yang disebabkan oleh residu (bagian yang tidak dapat dijelaskan); 3) berapa rasio kedua besaran ini (/"-rasio). Statistik dispersi sangat penting untuk studi sampel - ini menunjukkan seberapa besar kemungkinan adanya hubungan antara variabel independen dan variabel dependen dalam populasi. Namun, untuk studi berkelanjutan (seperti dalam contoh kita), hasil studi analisis varians tidak berguna. Dalam hal ini, mereka memeriksa apakah pola statistik yang diidentifikasi disebabkan oleh kombinasi keadaan acak, seberapa karakteristiknya untuk kompleks kondisi di mana populasi yang diteliti berada, yaitu ditetapkan bahwa hasil yang diperoleh tidak berlaku untuk populasi umum yang lebih luas, tetapi tingkat keteraturannya, bebas dari pengaruh acak.

Dalam kasus kami, statistik ANOVA adalah sebagai berikut:

SS df MS F arti
Regresi. 258,77 1,00 258,77 54,29 0.000000001
Sisa 395,59 83,00 L,11
Total 654,36

F-ratio sebesar 54,29 signifikan pada taraf 0,0000000001. Oleh karena itu, kami dapat dengan yakin menolak hipotesis nol (bahwa hubungan yang kami temukan terjadi secara kebetulan).

Kriteria t menjalankan fungsi serupa, tetapi dalam kaitannya dengan koefisien regresi (sudut dan perpotongan F). Dengan menggunakan kriteria /, kami menguji hipotesis bahwa pada populasi umum koefisien regresi sama dengan nol. Dalam kasus kami, kami sekali lagi dapat dengan yakin menolak hipotesis nol.

Analisis regresi berganda

Model regresi berganda hampir identik dengan model regresi berpasangan; satu-satunya perbedaan adalah bahwa beberapa variabel independen dimasukkan secara berurutan ke dalam fungsi linier:

Y = b1X1 + b2X2 + …+ bpXp + a.

Jika ada lebih dari dua variabel independen, kita tidak bisa mendapatkan gambaran visual tentang hubungannya; dalam hal ini, regresi berganda kurang “visual” dibandingkan regresi berpasangan. Jika Anda memiliki dua variabel independen, akan berguna untuk menampilkan data dalam plot sebar 3D. Dalam paket perangkat lunak statistik profesional (misalnya, Statistica) terdapat opsi untuk memutar grafik tiga dimensi, yang memungkinkan Anda merepresentasikan struktur data dengan baik secara visual.

Saat bekerja dengan regresi berganda, berbeda dengan regresi berpasangan, algoritma analisis perlu ditentukan. Algoritme standar mencakup semua prediktor yang tersedia dalam model regresi akhir. Algoritme langkah demi langkah melibatkan penyertaan (pengecualian) variabel independen secara berurutan berdasarkan “bobot” penjelasnya. Metode bertahap baik bila terdapat banyak variabel independen; itu “membersihkan” model dari prediktor yang sangat lemah, membuatnya lebih kompak dan ringkas.

Kondisi tambahan untuk kebenaran regresi berganda (bersama dengan interval, normalitas dan linearitas) adalah tidak adanya multikolinearitas - adanya korelasi yang kuat antara variabel independen.

Interpretasi statistik regresi berganda mencakup semua elemen yang kami pertimbangkan untuk kasus regresi berpasangan. Selain itu, ada komponen penting lainnya dalam statistik analisis regresi berganda.

Kami akan mengilustrasikan pekerjaan dengan regresi berganda menggunakan contoh pengujian hipotesis yang menjelaskan perbedaan tingkat aktivitas pemilu di seluruh wilayah Rusia. Studi empiris tertentu menunjukkan bahwa tingkat partisipasi pemilih dipengaruhi oleh:

Faktor nasional (variabel “populasi Rusia”; dioperasionalkan sebagai bagian dari populasi Rusia di entitas konstituen Federasi Rusia). Diasumsikan bahwa peningkatan jumlah penduduk Rusia menyebabkan penurunan jumlah pemilih;

Faktor urbanisasi (variabel “populasi perkotaan”; dioperasionalkan sebagai bagian dari populasi perkotaan di entitas konstituen Federasi Rusia; kami telah menggunakan faktor ini sebagai bagian dari analisis korelasi). Peningkatan jumlah penduduk perkotaan diasumsikan juga menyebabkan penurunan jumlah pemilih.

Variabel terikat - “intensitas kegiatan pemilu” (“aktif”) dioperasionalkan melalui data rata-rata jumlah pemilih menurut wilayah dalam pemilihan federal dari tahun 1995 hingga 2003. Tabel awal data untuk dua variabel independen dan satu variabel dependen adalah sebagai berikut:

Kejadian Variabel
Aktiva. Gor. kita. Rusia. kita.
Republik Adygea 64,92 53 68
Republik Altai 68,60 24 60
Republik Buryatia 60,75 59 70
Republik Dagestan 79,92 41 9
Republik Ingushetia 75,05 41 23
Republik Kalmykia 68,52 39 37
Republik Karachay-Cherkess 66,68 44 42
Republik Karelia 61,70 73 73
Republik Komi 59,60 74 57
Republik Mari El 65,19 62 47

Dll. (setelah pembersihan emisi, tersisa 83 kasus dari 88 kasus)

Statistik yang menggambarkan kualitas model:

1. Kelipatan R = 0,62; L-kuadrat = 0,38. Oleh karena itu, faktor nasional dan faktor urbanisasi bersama-sama menjelaskan sekitar 38% variasi dalam variabel “aktivitas pemilu”.

2. Rata-rata kesalahannya adalah 3,38. Inilah tepatnya seberapa “salah rata-rata” model yang dibangun ketika memprediksi tingkat partisipasi pemilih.

3. /l-rasio variasi yang dapat dijelaskan dan tidak dapat dijelaskan adalah 25,2 pada tingkat 0,000000003. Hipotesis nol tentang keacakan hubungan yang teridentifikasi ditolak.

4. Kriteria / untuk konstanta dan koefisien regresi variabel “penduduk perkotaan” dan “penduduk Rusia” signifikan pada tingkat 0,0000001; 0,00005 dan 0,007 masing-masing. Hipotesis nol yang menyatakan koefisien bersifat acak ditolak.

Statistik tambahan yang berguna dalam menganalisis hubungan antara nilai awal dan nilai prediksi dari variabel terikat adalah jarak Mahalanobis dan jarak Cook. Yang pertama adalah ukuran keunikan kasus (menunjukkan seberapa besar kombinasi nilai seluruh variabel independen untuk suatu kasus tertentu menyimpang dari nilai rata-rata semua variabel independen secara bersamaan). Yang kedua adalah ukuran pengaruh kasus tersebut. Pengamatan yang berbeda mempunyai pengaruh yang berbeda terhadap kemiringan garis regresi, dan jarak Cook dapat digunakan untuk membandingkannya pada indikator ini. Hal ini dapat berguna ketika membersihkan outlier (outlier dapat dianggap sebagai kasus yang terlalu berpengaruh).

Dalam contoh kami, kasus-kasus unik dan berpengaruh mencakup Dagestan.

Kejadian Asli

nilai-nilai

Predska

nilai-nilai

Sisa Jarak

Mahalanobi

Jarak
Adygea 64,92 66,33 -1,40 0,69 0,00
Republik Altai 68,60 69.91 -1,31 6,80 0,01
Republik Buryatia 60,75 65,56 -4,81 0,23 0,01
Republik Dagestan 79,92 71,01 8,91 10,57 0,44
Republik Ingushetia 75,05 70,21 4,84 6,73 0,08
Republik Kalmykia 68,52 69,59 -1,07 4,20 0,00

Model regresinya sendiri memiliki parameter sebagai berikut: titik potong Y (konstanta) = 75,99; b (horizontal) = -0,1; Kommersant (nas. Rusia) = -0,06. Rumus akhir:

Aaktif, = -0,1 x Hor. us.n+- 0,06 x Rus. us.n+75.99.

Bisakah kita membandingkan “kekuatan penjelas” prediktor berdasarkan nilai koefisien 61. Dalam hal ini ya, karena kedua variabel independen memiliki format persentase yang sama. Namun, regresi berganda paling sering berhubungan dengan variabel yang diukur pada skala yang berbeda (misalnya, tingkat pendapatan dalam rubel dan usia dalam tahun). Oleh karena itu, secara umum, membandingkan kemampuan prediksi variabel menggunakan koefisien regresi adalah salah. Dalam statistik regresi berganda, terdapat koefisien beta khusus (B) untuk tujuan ini, dihitung secara terpisah untuk setiap variabel independen. Ini mewakili koefisien korelasi parsial (dihitung setelah memperhitungkan pengaruh semua prediktor lainnya) antara faktor dan respons dan menunjukkan kontribusi independen faktor tersebut terhadap prediksi nilai respons. Dalam analisis regresi berpasangan, koefisien beta sama dengan koefisien korelasi berpasangan antara variabel terikat dan bebas.

Dalam contoh kita, beta (populasi dataran tinggi) = -0,43, beta (populasi Rusia) = -0,28. Dengan demikian, kedua faktor tersebut berdampak negatif terhadap tingkat aktivitas pemilu, sedangkan faktor urbanisasi jauh lebih penting dibandingkan faktor nasional. Gabungan pengaruh kedua faktor tersebut menentukan sekitar 38% variasi dalam variabel “aktivitas pemilu” (lihat nilai L-kuadrat).

Analisis regresi

Regresi (linier) analisis- metode statistik untuk mempelajari pengaruh satu atau lebih variabel bebas terhadap variabel terikat. Variabel bebas disebut regressor atau prediktor, dan variabel terikat disebut variabel kriteria. Terminologi bergantung Dan mandiri variabel hanya mencerminkan ketergantungan matematis dari variabel ( lihat Korelasi palsu), bukan hubungan sebab-akibat.

Tujuan Analisis Regresi

  1. Penentuan derajat determinasi variasi suatu variabel kriteria (terikat) oleh prediktor (variabel bebas)
  2. Memprediksi nilai variabel terikat menggunakan variabel bebas
  3. Menentukan kontribusi masing-masing variabel independen terhadap variasi variabel dependen

Analisis regresi tidak dapat digunakan untuk menentukan ada tidaknya hubungan antar variabel, karena adanya hubungan tersebut merupakan prasyarat untuk menerapkan analisis.

Definisi Matematika Regresi

Hubungan regresi yang ketat dapat didefinisikan sebagai berikut. Misalkan , adalah variabel acak dengan distribusi probabilitas gabungan tertentu. Jika untuk setiap kumpulan nilai ekspektasi matematis bersyarat ditentukan

(persamaan regresi dalam bentuk umum),

maka fungsinya dipanggil regresi nilai Y berdasarkan nilai, dan grafiknya adalah Garis regresi oleh , atau persamaan regresi.

Ketergantungan tersebut diwujudkan dalam perubahan nilai rata-rata Y seiring dengan perubahan . Meskipun demikian, untuk setiap kumpulan nilai yang tetap, nilainya tetap merupakan variabel acak dengan hamburan tertentu.

Untuk memperjelas pertanyaan tentang seberapa akurat analisis regresi memperkirakan perubahan Y ketika berubah, digunakan nilai rata-rata dispersi Y untuk kumpulan nilai yang berbeda (sebenarnya, kita berbicara tentang ukuran dispersi variabel terikat di sekitar garis regresi).

Metode kuadrat terkecil (perhitungan koefisien)

Dalam praktiknya, garis regresi paling sering dicari dalam bentuk fungsi linier (regresi linier), yang paling mendekati kurva yang diinginkan. Hal ini dilakukan dengan menggunakan metode kuadrat terkecil, ketika jumlah deviasi kuadrat dari data yang benar-benar diamati dari perkiraannya diminimalkan (artinya perkiraan menggunakan garis lurus yang dimaksudkan untuk mewakili hubungan regresi yang diinginkan):

(M - ukuran sampel). Pendekatan ini didasarkan pada fakta yang diketahui bahwa jumlah yang muncul dalam ekspresi di atas mengambil nilai minimum tepat untuk kasus ketika .

Untuk mengatasi masalah analisis regresi dengan menggunakan metode kuadrat terkecil, konsep tersebut diperkenalkan fungsi sisa:

Kondisi minimum untuk fungsi sisa:

Sistem yang dihasilkan adalah sistem persamaan linier yang tidak diketahui

Jika kita merepresentasikan suku bebas di sisi kiri persamaan sebagai matriks

dan koefisien untuk hal yang tidak diketahui di sisi kanan adalah matriks

kemudian kita mendapatkan persamaan matriks: , yang mudah diselesaikan dengan metode Gauss. Matriks yang dihasilkan akan berupa matriks yang memuat koefisien persamaan garis regresi:

Untuk mendapatkan estimasi terbaik, prasyarat OLS (kondisi Gauss – Markov) harus dipenuhi. Dalam literatur bahasa Inggris, perkiraan seperti itu disebut BLUE (Best Linear Unbiased Estimators).

Interpretasi Parameter Regresi

Parameternya adalah koefisien korelasi parsial; diinterpretasikan sebagai proporsi varians Y yang dijelaskan dengan menetapkan pengaruh prediktor yang tersisa, yaitu mengukur kontribusi individu terhadap penjelasan Y. Dalam kasus prediktor berkorelasi, muncul masalah ketidakpastian dalam estimasi, yang menjadi bergantung pada urutan pemasukan prediktor ke dalam model. Dalam hal ini perlu menggunakan metode analisis korelasi dan regresi bertahap.

Ketika berbicara tentang model analisis regresi nonlinier, penting untuk memperhatikan apakah kita berbicara tentang nonlinier dalam variabel independen (dari sudut pandang formal, mudah direduksi menjadi regresi linier), atau tentang nonlinier dalam parameter estimasi (menyebabkan masalah serius). kesulitan komputasi). Dalam kasus nonlinier tipe pertama, dari sudut pandang substantif, penting untuk menyoroti kemunculan istilah-istilah bentuk dalam model , , yang menunjukkan adanya interaksi antar fitur , dll. (lihat Multikolinearitas).

Lihat juga

Tautan

  • www.kgafk.ru - Kuliah dengan topik “Analisis Regresi”
  • www.basegroup.ru - metode pemilihan variabel dalam model regresi

literatur

  • Norman Draper, Harry Smith Analisis regresi terapan. Regresi Berganda = Analisis Regresi Terapan. - edisi ke-3. - M.: “Dialektika”, 2007. - P. 912. - ISBN 0-471-17082-8
  • Metode yang kuat untuk memperkirakan model statistik: Monograf. - K.: PP "Sansparel", 2005. - P. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, BBK 22.172+22.152
  • Radchenko Stanislav Grigorievich, Metodologi analisis regresi: Monograf. - K.: "Korniychuk", 2011. - Hal. 376. - ISBN 978-966-7599-72-0

Yayasan Wikimedia. 2010.

Sebagai hasil dari mempelajari materi pada Bab 4, siswa harus:

tahu

  • konsep dasar analisis regresi;
  • metode estimasi dan properti estimasi kuadrat terkecil;
  • aturan dasar untuk menguji signifikansi dan estimasi interval persamaan dan koefisien regresi;

mampu untuk

  • menggunakan data sampel untuk mencari estimasi parameter model persamaan regresi dua dimensi dan berganda serta menganalisis propertinya;
  • memeriksa signifikansi persamaan dan koefisien regresi;
  • menemukan perkiraan interval parameter penting;

memiliki

  • keterampilan dalam estimasi statistik parameter persamaan regresi bivariat dan berganda; keterampilan memeriksa kecukupan model regresi;
  • keterampilan dalam memperoleh persamaan regresi dengan semua koefisien signifikan menggunakan perangkat lunak analitik.

Konsep dasar

Setelah melakukan analisis korelasi, ketika keberadaan hubungan yang signifikan secara statistik antar variabel telah diidentifikasi dan tingkat kedekatannya telah dinilai, biasanya dilanjutkan dengan deskripsi matematis jenis ketergantungan menggunakan metode analisis regresi. Untuk tujuan ini, kelas fungsi dipilih yang menghubungkan indikator efektif pada dan argumen„ menghitung perkiraan parameter persamaan kopling dan menganalisis keakuratan persamaan yang dihasilkan.

Fungsi|, menggambarkan ketergantungan nilai rata-rata bersyarat terhadap karakteristik yang dihasilkan pada dari nilai argumen yang diberikan disebut persamaan regresi.

Istilah "regresi" (dari Lat. regresi – mundur, kembali ke sesuatu) diperkenalkan oleh psikolog dan antropolog Inggris F. Galton dan dikaitkan dengan salah satu contoh pertamanya, di mana Galton, memproses data statistik yang berkaitan dengan pertanyaan tentang hereditas tinggi badan, menemukan bahwa jika tinggi badan ayah menyimpang dari rata-rata tinggi badan semua ayah X inci, maka tinggi badan anak laki-laki mereka menyimpang dari rata-rata tinggi badan semua anak laki-laki kurang dari X inci. Tren yang teridentifikasi disebut regresi ke mean.

Istilah "regresi" banyak digunakan dalam literatur statistik, meskipun dalam banyak kasus istilah ini tidak secara akurat menggambarkan hubungan statistik.

Untuk menggambarkan persamaan regresi secara akurat, perlu diketahui hukum distribusi bersyarat dari indikator efektif kamu. Dalam praktik statistik, informasi tersebut biasanya tidak dapat diperoleh, sehingga hanya sebatas mencari perkiraan yang sesuai untuk fungsi tersebut. f(x kamu X 2,... l*), berdasarkan analisis awal yang bermakna atas fenomena tersebut atau berdasarkan data statistik awal.

Dalam kerangka asumsi model individu tentang jenis distribusi vektor indikator<) может быть получен общий вид persamaan regresi, Di mana. Misalnya, dengan asumsi bahwa himpunan indikator yang diteliti mematuhi hukum distribusi normal berdimensi () dengan vektor ekspektasi matematis

Dimana, dan matriks kovarians,

dimana sebarannya kamu,

Persamaan regresi (ekspektasi matematis bersyarat) memiliki bentuk

Jadi, jika variabel acak multivariat ()

mematuhi hukum distribusi normal berdimensi (), maka persamaan regresi indikator efektif pada dalam variabel penjelas adalah linier masuk X melihat.

Namun, dalam praktik statistik, kita biasanya harus membatasi diri pada menemukan perkiraan yang sesuai untuk fungsi regresi sebenarnya yang tidak diketahui f(x), karena peneliti tidak memiliki pengetahuan pasti tentang hukum distribusi probabilitas bersyarat dari indikator kinerja yang dianalisis pada untuk nilai argumen tertentu X.

Mari kita lihat hubungan antara estimasi sebenarnya, model, dan regresi. Biarlah indikator yang efektif pada berhubungan dengan argumen tersebut X perbandingan

dimana adalah variabel acak yang mempunyai hukum distribusi normal, dan dan. Fungsi regresi sebenarnya dalam hal ini memiliki bentuk

Misalkan kita tidak mengetahui bentuk pasti dari persamaan regresi yang sebenarnya, tetapi kita mempunyai sembilan pengamatan terhadap variabel acak dua dimensi yang dihubungkan oleh hubungan yang disajikan pada Gambar. 4.1.

Beras. 4.1. Posisi relatif yang sebenarnyaf(x) dan teoritisupsmodel regresi

Lokasi titik pada Gambar. 4.1 memungkinkan kita membatasi diri pada kelas ketergantungan linier dalam bentuk

Dengan menggunakan metode kuadrat terkecil, kita mencari estimasi persamaan regresi.

Sebagai perbandingan, pada Gambar. 4.1 menunjukkan grafik fungsi regresi sebenarnya dan fungsi regresi perkiraan teoretis. Estimasi persamaan regresi kemungkinan konvergen dengan persamaan regresi tersebut ups dengan peningkatan ukuran sampel yang tidak terbatas ().

Karena kita salah memilih fungsi regresi linier daripada fungsi regresi sebenarnya, yang sayangnya cukup umum dalam praktik penelitian statistik, kesimpulan dan estimasi statistik kita tidak akan memiliki sifat konsistensi, yaitu. Tidak peduli bagaimana kita meningkatkan jumlah observasi, estimasi sampel kita tidak akan menyatu dengan fungsi regresi sebenarnya

Jika kita telah memilih kelas fungsi regresi dengan benar, maka ketidakakuratan dalam deskripsi yang digunakan ups hanya dapat dijelaskan dengan pengambilan sampel yang terbatas dan, oleh karena itu, dapat dibuat sekecil yang diinginkan

Untuk mengembalikan nilai kondisional indikator kinerja dan fungsi regresi yang tidak diketahui dari data statistik awal, berikut ini yang paling sering digunakan: kriteria kecukupan fungsi kerugian.

1. Metode kuadrat terkecil, yang menurutnya deviasi kuadrat dari nilai-nilai yang diamati dari indikator efektif, , dari nilai-nilai model diminimalkan, di mana koefisien persamaan regresi; adalah nilai-nilai vektor argumen dalam “-M pengamatan:

Masalah menemukan perkiraan vektor terpecahkan. Regresi yang dihasilkan disebut berarti persegi.

2. Metode modul terkecil, yang dengannya jumlah deviasi absolut dari nilai yang diamati dari indikator efektif dari nilai modular diminimalkan, yaitu.

Regresi yang dihasilkan disebut berarti mutlak(median).

3. metode minimaks turun untuk meminimalkan modulus deviasi maksimum dari nilai observasi dari indikator efektif kamu, dari nilai model, yaitu

Regresi yang dihasilkan disebut minimaks.

Dalam penerapan praktis, sering kali terdapat permasalahan yang mempelajari variabel acak kamu, tergantung pada sekumpulan variabel tertentu dan parameter yang tidak diketahui. Kami akan menganggap () sebagai (k+ 1)-dimensi populasi umum dari mana sampel acak P, dimana () adalah hasil observasi ke-i. Diperlukan estimasi parameter yang tidak diketahui berdasarkan hasil observasi. Tugas yang dijelaskan di atas berkaitan dengan masalah analisis regresi.

Analisis regresi disebut metode analisis statistik ketergantungan variabel acak pada pada variabel yang dipertimbangkan dalam analisis regresi sebagai nilai non-acak, terlepas dari hukum distribusi sebenarnya

Dalam pemodelan statistik, analisis regresi adalah studi yang digunakan untuk mengevaluasi hubungan antar variabel. Metode matematika ini mencakup banyak metode lain untuk memodelkan dan menganalisis beberapa variabel yang fokusnya adalah pada hubungan antara variabel terikat dan satu atau lebih variabel bebas. Lebih khusus lagi, analisis regresi membantu kita memahami bagaimana nilai khas suatu variabel terikat berubah jika salah satu variabel bebas berubah sedangkan variabel bebas lainnya tetap.

Dalam semua kasus, estimasi target merupakan fungsi dari variabel independen dan disebut fungsi regresi. Dalam analisis regresi, penting juga untuk mengkarakterisasi perubahan variabel dependen sebagai fungsi regresi, yang dapat dijelaskan dengan menggunakan distribusi probabilitas.

Masalah Analisis Regresi

Metode penelitian statistik ini banyak digunakan untuk peramalan, dimana penggunaannya memiliki keuntungan yang signifikan, namun terkadang dapat menimbulkan ilusi atau hubungan yang salah, sehingga disarankan untuk menggunakannya dengan hati-hati dalam hal tersebut, karena misalnya korelasi tidak berarti. hal menyebabkan.

Sejumlah besar metode telah dikembangkan untuk analisis regresi, seperti regresi linier dan regresi kuadrat terkecil biasa, yang bersifat parametrik. Esensinya adalah bahwa fungsi regresi didefinisikan dalam jumlah terbatas parameter yang tidak diketahui yang diperkirakan dari data. Regresi nonparametrik memungkinkan fungsinya berada dalam kumpulan fungsi tertentu, yang dapat berdimensi tak terbatas.

Sebagai metode penelitian statistik, analisis regresi dalam praktiknya bergantung pada bentuk proses pembuatan data dan kaitannya dengan pendekatan regresi. Karena bentuk sebenarnya dari proses data yang dihasilkan biasanya berupa angka yang tidak diketahui, analisis regresi data sering kali bergantung pada asumsi mengenai proses tersebut. Asumsi ini terkadang dapat diuji jika tersedia cukup data. Model regresi sering kali berguna bahkan ketika asumsinya dilanggar secara moderat, meskipun model tersebut mungkin tidak bekerja pada efisiensi puncak.

Dalam pengertian yang lebih sempit, regresi dapat merujuk secara khusus pada estimasi variabel respon kontinu, dibandingkan dengan variabel respon diskrit yang digunakan dalam klasifikasi. Kasus variabel keluaran kontinu disebut juga regresi metrik untuk membedakannya dari masalah terkait.

Cerita

Bentuk regresi yang paling awal adalah metode kuadrat terkecil yang terkenal. Ini diterbitkan oleh Legendre pada tahun 1805 dan Gauss pada tahun 1809. Legendre dan Gauss menerapkan metode ini pada masalah penentuan orbit benda-benda mengelilingi Matahari (terutama komet, tetapi kemudian juga planet-planet kecil yang baru ditemukan) dari pengamatan astronomi. Gauss menerbitkan pengembangan lebih lanjut teori kuadrat terkecil pada tahun 1821, termasuk versi teorema Gauss – Markov.

Istilah "regresi" diciptakan oleh Francis Galton pada abad ke-19 untuk menggambarkan fenomena biologis. Idenya adalah bahwa tinggi badan keturunan nenek moyang mereka cenderung menurun menuju rata-rata normal. Bagi Galton, regresi hanya memiliki makna biologis, namun kemudian karyanya dilanjutkan oleh Udney Yoley dan Karl Pearson dan dibawa ke dalam konteks statistik yang lebih umum. Dalam karya Yule dan Pearson, distribusi gabungan variabel respons dan penjelas diasumsikan Gaussian. Asumsi ini ditolak oleh Fischer dalam makalah tahun 1922 dan 1925. Fisher menyarankan bahwa distribusi kondisional dari variabel respon adalah Gaussian, namun distribusi gabungan tidak harus demikian. Dalam hal ini, usulan Fischer lebih mendekati rumusan Gauss tahun 1821. Sebelum tahun 1970, terkadang diperlukan waktu hingga 24 jam untuk mendapatkan hasil analisis regresi.

Metode analisis regresi terus menjadi bidang penelitian aktif. Dalam beberapa dekade terakhir, metode baru telah dikembangkan untuk regresi yang kuat; regresi yang melibatkan tanggapan yang berkorelasi; metode regresi yang mengakomodasi berbagai jenis data yang hilang; regresi nonparametrik; Metode regresi Bayesian; regresi di mana variabel prediktor diukur dengan kesalahan; regresi dengan lebih banyak prediktor daripada observasi, dan inferensi sebab-akibat dengan regresi.

Model regresi

Model analisis regresi mencakup variabel-variabel berikut:

  • Parameter tidak diketahui, disebut beta, yang dapat berupa skalar atau vektor.
  • Variabel Independen, X.
  • Variabel Dependen, Y.

Berbagai bidang ilmu yang menggunakan analisis regresi menggunakan istilah yang berbeda untuk variabel dependen dan independen, tetapi dalam semua kasus, model regresi menghubungkan Y dengan fungsi X dan β.

Perkiraannya biasanya ditulis sebagai E(Y | X) = F(X, β). Untuk melakukan analisis regresi, jenis fungsi f harus ditentukan. Yang lebih jarang, hal ini didasarkan pada pengetahuan tentang hubungan antara Y dan X, dan tidak bergantung pada data. Jika pengetahuan tersebut tidak tersedia, maka bentuk F yang fleksibel atau nyaman dipilih.

Variabel terikat Y

Sekarang mari kita asumsikan bahwa vektor parameter yang tidak diketahui β memiliki panjang k. Untuk melakukan analisis regresi, pengguna harus memberikan informasi tentang variabel dependen Y:

  • Jika N titik data berbentuk (Y, X) diamati, dimana N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Jika tepat N = K teramati dan fungsi F linier, maka persamaan Y = F(X, β) dapat diselesaikan secara eksak, bukan perkiraan. Hal ini sama saja dengan menyelesaikan himpunan N-persamaan dengan N-yang tidak diketahui (elemen β) yang memiliki solusi unik selama X bebas linier. Jika F nonlinier, mungkin tidak ada solusi, atau mungkin ada banyak solusi.
  • Situasi yang paling umum adalah ketika N > titik data diamati. Dalam hal ini, terdapat cukup informasi dalam data untuk memperkirakan nilai unik β yang paling sesuai dengan data, dan model regresi yang penerapannya pada data dapat dipandang sebagai sistem yang ditentukan secara berlebihan dalam β.

Dalam kasus terakhir, analisis regresi menyediakan alat untuk:

  • Menemukan solusi untuk parameter β yang tidak diketahui, yang misalnya akan meminimalkan jarak antara nilai Y yang diukur dan nilai prediksi.
  • Berdasarkan asumsi statistik tertentu, analisis regresi menggunakan informasi berlebih untuk memberikan informasi statistik tentang parameter β yang tidak diketahui dan nilai prediksi variabel dependen Y.

Jumlah pengukuran independen yang diperlukan

Pertimbangkan model regresi yang memiliki tiga parameter yang tidak diketahui: β 0 , β 1 dan β 2 . Misalkan pelaku eksperimen melakukan 10 pengukuran pada nilai yang sama dari vektor variabel bebas X. Dalam hal ini, analisis regresi tidak menghasilkan sekumpulan nilai yang unik. Hal terbaik yang dapat Anda lakukan adalah memperkirakan mean dan deviasi standar variabel dependen Y. Demikian pula, dengan mengukur dua nilai X yang berbeda, Anda dapat memperoleh data yang cukup untuk regresi dengan dua hal yang tidak diketahui, tetapi tidak dengan tiga atau lebih hal yang tidak diketahui.

Jika pengukuran pelaku eksperimen dilakukan pada tiga nilai berbeda dari vektor variabel independen X, maka analisis regresi akan memberikan serangkaian estimasi unik untuk tiga parameter yang tidak diketahui di β.

Dalam kasus regresi linier umum, pernyataan di atas ekuivalen dengan syarat matriks X T X dapat dibalik.

Asumsi Statistik

Ketika jumlah pengukuran N lebih besar dari jumlah parameter yang tidak diketahui k dan kesalahan pengukuran ε i , maka, sebagai aturan, kelebihan informasi yang terkandung dalam pengukuran kemudian disebarluaskan dan digunakan untuk prediksi statistik mengenai parameter yang tidak diketahui. Kelebihan informasi ini disebut derajat kebebasan regresi.

Asumsi Mendasar

Asumsi klasik untuk analisis regresi meliputi:

  • Pengambilan sampel mewakili prediksi inferensi.
  • Istilah kesalahan adalah variabel acak dengan rata-rata nol, yang bergantung pada variabel penjelas.
  • Variabel independen diukur tanpa kesalahan.
  • Sebagai variabel bebas (prediktor), variabel tersebut bebas linier, artinya tidak mungkin menyatakan suatu prediktor sebagai kombinasi linier dari variabel lainnya.
  • Kesalahannya tidak berkorelasi, yaitu matriks kovarians kesalahan diagonal dan setiap elemen bukan nol adalah varians kesalahan.
  • Varians kesalahan adalah konstan di seluruh observasi (homoskedastisitas). Jika tidak, maka kuadrat terkecil tertimbang atau metode lain dapat digunakan.

Kondisi yang cukup untuk pendugaan kuadrat terkecil ini mempunyai sifat-sifat yang diperlukan, khususnya asumsi ini berarti bahwa pendugaan parameter akan objektif, konsisten dan efisien, terutama bila diperhitungkan dalam kelas penduga linier. Penting untuk dicatat bahwa bukti jarang memenuhi syarat. Artinya, metode tersebut tetap digunakan meskipun asumsinya tidak benar. Variasi asumsi terkadang dapat digunakan sebagai ukuran seberapa berguna model tersebut. Banyak dari asumsi ini dapat dilonggarkan dengan metode yang lebih maju. Laporan analisis statistik biasanya mencakup analisis pengujian terhadap data sampel dan metodologi untuk kegunaan model.

Selain itu, variabel dalam beberapa kasus merujuk pada nilai yang diukur di lokasi titik. Mungkin terdapat tren spasial dan autokorelasi spasial dalam variabel yang melanggar asumsi statistik. Regresi tertimbang geografis adalah satu-satunya metode yang menangani data tersebut.

Ciri khas regresi linier adalah variabel terikatnya, yaitu Yi, merupakan kombinasi parameter yang linier. Misalnya, regresi linier sederhana menggunakan satu variabel independen, x i , dan dua parameter, β 0 dan β 1 , untuk memodelkan n-poin.

Dalam regresi linier berganda, terdapat beberapa variabel atau fungsi independen.

Ketika sampel acak diambil dari suatu populasi, parameternya memungkinkan seseorang memperoleh model regresi linier sampel.

Dalam aspek ini, yang paling populer adalah metode kuadrat terkecil. Ini digunakan untuk mendapatkan estimasi parameter yang meminimalkan jumlah residu kuadrat. Minimisasi semacam ini (yang merupakan ciri khas regresi linier) dari fungsi ini menghasilkan sekumpulan persamaan normal dan sekumpulan persamaan linier dengan parameter, yang diselesaikan untuk mendapatkan estimasi parameter.

Dengan asumsi lebih lanjut bahwa kesalahan populasi umumnya tersebar, peneliti dapat menggunakan perkiraan kesalahan standar ini untuk membuat interval kepercayaan dan melakukan uji hipotesis tentang parameternya.

Analisis regresi nonlinier

Contoh di mana fungsinya tidak linier terhadap parameter menunjukkan bahwa jumlah kuadrat harus diminimalkan menggunakan prosedur berulang. Hal ini menimbulkan banyak komplikasi yang menentukan perbedaan antara metode kuadrat terkecil linier dan nonlinier. Akibatnya, hasil analisis regresi dengan menggunakan metode nonlinier terkadang tidak dapat diprediksi.

Perhitungan daya dan ukuran sampel

Umumnya tidak ada metode yang konsisten mengenai jumlah observasi versus jumlah variabel independen dalam model. Aturan pertama diusulkan oleh Dobra dan Hardin dan terlihat seperti N = t^n, di mana N adalah ukuran sampel, n adalah jumlah variabel independen, dan t adalah jumlah observasi yang diperlukan untuk mencapai akurasi yang diinginkan jika model memiliki hanya satu variabel bebas. Misalnya, seorang peneliti membangun model regresi linier menggunakan kumpulan data yang berisi 1000 pasien (N). Jika peneliti memutuskan bahwa diperlukan lima observasi untuk menentukan garis (m) secara akurat, maka jumlah maksimum variabel independen yang dapat didukung model adalah 4.

Metode lain

Meskipun parameter model regresi biasanya diestimasi menggunakan metode kuadrat terkecil, ada metode lain yang lebih jarang digunakan. Misalnya, ini adalah metode berikut:

  • Metode Bayesian (misalnya regresi linier Bayesian).
  • Regresi persentase, digunakan untuk situasi di mana pengurangan persentase kesalahan dianggap lebih tepat.
  • Deviasi absolut terkecil, yang lebih kuat jika terdapat outlier yang mengarah ke regresi kuantil.
  • Regresi nonparametrik, yang memerlukan observasi dan perhitungan dalam jumlah besar.
  • Metrik pembelajaran jarak jauh yang dipelajari untuk menemukan metrik jarak yang bermakna dalam ruang masukan tertentu.

Perangkat lunak

Semua paket perangkat lunak statistik utama melakukan analisis regresi kuadrat terkecil. Regresi linier sederhana dan analisis regresi berganda dapat digunakan di beberapa aplikasi spreadsheet serta beberapa kalkulator. Meskipun banyak paket perangkat lunak statistik dapat melakukan berbagai jenis regresi nonparametrik dan kuat, metode ini kurang terstandarisasi; paket perangkat lunak yang berbeda menerapkan metode yang berbeda. Perangkat lunak regresi khusus telah dikembangkan untuk digunakan di berbagai bidang seperti analisis pemeriksaan dan neuroimaging.

Analisis regresi adalah salah satu metode penelitian statistik yang paling populer. Dapat digunakan untuk mengetahui besarnya pengaruh variabel independen terhadap variabel dependen. Microsoft Excel memiliki alat yang dirancang untuk melakukan analisis jenis ini. Mari kita lihat apa itu dan bagaimana menggunakannya.

Namun, untuk menggunakan fungsi yang memungkinkan Anda melakukan analisis regresi, Anda harus mengaktifkan Paket Analisis terlebih dahulu. Hanya dengan demikian alat yang diperlukan untuk prosedur ini akan muncul di pita Excel.


Sekarang ketika kita pergi ke tab "Data", pada pita di kotak peralatan "Analisis" kita akan melihat tombol baru - "Analisis data".

Jenis Analisis Regresi

Ada beberapa jenis regresi:

  • parabola;
  • tenang;
  • logaritma;
  • eksponensial;
  • demonstratif;
  • hiperbolis;
  • regresi linier.

Kami akan membahas lebih detail tentang melakukan jenis analisis regresi terakhir di Excel nanti.

Regresi Linier di Excel

Di bawah ini, sebagai contoh, adalah tabel yang menunjukkan rata-rata suhu udara harian di luar dan jumlah pelanggan toko pada hari kerja yang bersangkutan. Mari kita cari tahu dengan menggunakan analisis regresi bagaimana kondisi cuaca berupa suhu udara dapat mempengaruhi kehadiran suatu perusahaan retail.

Persamaan regresi linier umum adalah sebagai berikut: Y = a0 + a1x1 +…+ akhk. Dalam rumus ini Y berarti suatu variabel, pengaruh faktor-faktor yang ingin kita pelajari. Dalam kasus kami, ini adalah jumlah pembeli. Arti X adalah berbagai faktor yang mempengaruhi suatu variabel. Pilihan A adalah koefisien regresi. Artinya, merekalah yang menentukan signifikansi suatu faktor tertentu. Indeks k menunjukkan jumlah total faktor-faktor ini.


Analisis hasil analisis

Hasil analisis regresi ditampilkan dalam bentuk tabel di tempat yang ditentukan dalam pengaturan.

Salah satu indikator utamanya adalah R-persegi. Ini menunjukkan kualitas model. Dalam kasus kami, koefisien ini adalah 0,705 atau sekitar 70,5%. Ini adalah tingkat kualitas yang dapat diterima. Ketergantungan kurang dari 0,5 itu buruk.

Indikator penting lainnya terletak pada sel di perpotongan garis "persimpangan Y" dan kolom "Kemungkinan". Ini menunjukkan nilai Y yang akan dimiliki, dan dalam kasus kita, ini adalah jumlah pembeli, dengan semua faktor lainnya sama dengan nol. Dalam tabel ini, nilainya adalah 58,04.

Nilai pada perpotongan grafik "Variabel X1" Dan "Kemungkinan" menunjukkan tingkat ketergantungan Y pada X. Dalam kasus kami, ini adalah tingkat ketergantungan jumlah pelanggan toko terhadap suhu. Koefisien 1,31 dianggap sebagai indikator pengaruh yang cukup tinggi.

Seperti yang Anda lihat, menggunakan Microsoft Excel cukup mudah untuk membuat tabel analisis regresi. Tetapi hanya orang terlatih yang dapat bekerja dengan data keluaran dan memahami esensinya.

Materi terbaru di bagian:

Komedi Pygmalion.  Bernard Shaw
Komedi Pygmalion. Bernard Shaw "Pygmalion" Eliza mengunjungi Profesor Higgins

Pygmalion (judul lengkap: Pygmalion: A Fantasy Novel in Five Acts, Bahasa Inggris Pygmalion: A Romance in Five Acts) adalah sebuah drama yang ditulis oleh Bernard...

Talleyrand Charles - biografi, fakta kehidupan, foto, informasi latar belakang Revolusi Besar Perancis
Talleyrand Charles - biografi, fakta kehidupan, foto, informasi latar belakang Revolusi Besar Perancis

Talleyrand Charles (sepenuhnya Charles Maurice Talleyrand-Périgord; Taleyrand-Périgord), politisi dan negarawan Prancis, diplomat,...

Kerja praktek dengan peta bintang bergerak
Kerja praktek dengan peta bintang bergerak