Analisis varians. Tugas kursus: Analisis varians Analisis varians multivariat

Analisis varians adalah seperangkat metode statistik yang dirancang untuk menguji hipotesis tentang hubungan antara karakteristik tertentu dan faktor-faktor yang diteliti yang tidak mempunyai gambaran kuantitatif, serta untuk menetapkan tingkat pengaruh faktor-faktor dan interaksinya. Dalam literatur khusus sering disebut ANOVA (dari nama Inggris Analysis of Variations). Metode ini pertama kali dikembangkan oleh R. Fischer pada tahun 1925.

Jenis dan kriteria analisis varians

Metode ini digunakan untuk mempelajari hubungan antara karakteristik kualitatif (nominal) dan variabel kuantitatif (kontinu). Intinya, ini menguji hipotesis tentang persamaan rata-rata aritmatika dari beberapa sampel. Dengan demikian, ini dapat dianggap sebagai kriteria parametrik untuk membandingkan pusat beberapa sampel sekaligus. Jika metode ini digunakan untuk dua sampel, maka hasil analisis varians akan sama dengan hasil uji-t Student. Namun, berbeda dengan kriteria lainnya, penelitian ini memungkinkan kita mempelajari masalah secara lebih rinci.

Analisis dispersi dalam statistik didasarkan pada hukum: jumlah deviasi kuadrat dari sampel gabungan sama dengan jumlah deviasi kuadrat intragrup dan jumlah deviasi kuadrat antargrup. Penelitian ini menggunakan uji Fisher untuk menentukan signifikansi perbedaan antara varian antar kelompok dan varian dalam kelompok. Namun prasyarat yang diperlukan untuk hal ini adalah normalitas distribusi dan homoskedastisitas (kesetaraan varians) sampel. Ada analisis varians yang univariat (satu faktor) dan multivariat (multifaktorial). Yang pertama mempertimbangkan ketergantungan nilai yang diteliti pada satu karakteristik, yang kedua - pada banyak karakteristik sekaligus, dan juga memungkinkan kita untuk mengidentifikasi hubungan di antara mereka.

Faktor

Faktor adalah keadaan terkendali yang mempengaruhi hasil akhir. Tingkat atau cara pemrosesannya merupakan nilai yang mencirikan manifestasi spesifik dari kondisi ini. Angka-angka ini biasanya disajikan dalam skala pengukuran nominal atau ordinal. Seringkali nilai keluaran diukur pada skala kuantitatif atau ordinal. Kemudian timbul masalah dalam mengelompokkan data keluaran dalam sejumlah observasi yang sesuai dengan nilai numerik yang kurang lebih sama. Jika jumlah kelompok dianggap terlalu besar, maka jumlah observasi di dalamnya mungkin tidak cukup untuk memperoleh hasil yang dapat diandalkan. Jika kita mengambil angka yang terlalu kecil, hal ini dapat menyebabkan hilangnya fitur pengaruh yang signifikan pada sistem. Cara spesifik untuk mengelompokkan data bergantung pada jumlah dan sifat variasi nilai. Jumlah dan ukuran interval dalam analisis univariat paling sering ditentukan oleh prinsip interval yang sama atau prinsip frekuensi yang sama.

Analisis masalah varians

Jadi, ada kalanya Anda perlu membandingkan dua sampel atau lebih. Oleh karena itu disarankan untuk menggunakan analisis varians. Nama metodenya menunjukkan bahwa kesimpulan diambil berdasarkan studi komponen varians. Inti dari penelitian ini adalah bahwa perubahan keseluruhan indikator dibagi menjadi beberapa bagian komponen yang sesuai dengan tindakan masing-masing faktor. Mari kita pertimbangkan sejumlah masalah yang diselesaikan dengan analisis varians yang khas.

Contoh 1

Bengkel tersebut memiliki sejumlah mesin otomatis yang memproduksi part tertentu. Ukuran setiap bagian merupakan variabel acak yang bergantung pada pengaturan masing-masing mesin dan penyimpangan acak yang terjadi selama proses pembuatan suku cadang. Penting untuk menentukan, berdasarkan data pengukuran dimensi bagian, apakah mesin dikonfigurasikan dengan cara yang sama.

Contoh 2

Selama pembuatan perangkat listrik, berbagai jenis kertas isolasi digunakan: kapasitor, listrik, dll. Perangkat dapat diresapi dengan berbagai zat: resin epoksi, pernis, resin ML-2, dll. Kebocoran dapat dihilangkan dalam kondisi vakum di tekanan tinggi, dengan pemanasan. Impregnasi dapat dilakukan dengan cara direndam dalam pernis, di bawah aliran pernis terus menerus, dll. Peralatan listrik secara keseluruhan diisi dengan senyawa tertentu, yang ada beberapa pilihan. Indikator kualitasnya adalah kekuatan listrik insulasi, suhu belitan yang terlalu panas dalam mode pengoperasian, dan beberapa lainnya. Selama pengembangan proses teknologi pembuatan perangkat, perlu ditentukan bagaimana masing-masing faktor ini mempengaruhi kinerja perangkat.

Contoh 3

Depo bus listrik melayani beberapa rute bus listrik. Mereka mengoperasikan bus listrik dari berbagai jenis, dan 125 pengawas memungut ongkos. Manajemen depo tertarik dengan pertanyaan: bagaimana membandingkan indikator ekonomi kerja masing-masing pengontrol (pendapatan) dengan mempertimbangkan rute yang berbeda dan jenis bus troli yang berbeda? Bagaimana cara menentukan kelayakan ekonomi produksi bus listrik jenis tertentu pada rute tertentu? Bagaimana cara menetapkan persyaratan yang masuk akal untuk jumlah pendapatan yang diperoleh kondektur pada setiap rute dengan berbagai jenis bus listrik?

Tugas memilih suatu metode adalah bagaimana memperoleh informasi yang maksimal mengenai pengaruh masing-masing faktor terhadap hasil akhir, menentukan karakteristik numerik dari pengaruh tersebut, keandalannya dengan biaya minimal dan dalam waktu sesingkat mungkin. Metode analisis varians memungkinkan pemecahan masalah seperti itu.

Analisis univariat

Tujuan penelitian adalah untuk menilai besarnya pengaruh suatu kasus tertentu terhadap tinjauan yang dianalisis. Tujuan lain dari analisis univariat mungkin untuk membandingkan dua atau lebih keadaan satu sama lain untuk menentukan perbedaan dampaknya terhadap ingatan. Jika hipotesis nol ditolak, maka langkah selanjutnya adalah mengukur dan membangun interval kepercayaan untuk karakteristik yang diperoleh. Dalam kasus di mana hipotesis nol tidak dapat ditolak, hipotesis tersebut biasanya diterima dan ditarik kesimpulan tentang sifat pengaruhnya.

Analisis varians satu arah dapat menjadi analog nonparametrik dari metode peringkat Kruskal-Wallis. Ini dikembangkan oleh ahli matematika Amerika William Kruskal dan ekonom Wilson Wallis pada tahun 1952. Kriteria ini dirancang untuk menguji hipotesis nol tentang kesetaraan efek pada sampel yang diteliti dengan nilai rata-rata yang tidak diketahui tetapi sama. Dalam hal ini jumlah sampel harus lebih dari dua.

Kriteria Jonckheere-Terpstra diusulkan secara independen oleh ahli matematika Belanda T. J. Terpstra pada tahun 1952 dan psikolog Inggris E. R. Jonckheere pada tahun 1954. Kriteria ini digunakan jika diketahui sebelumnya bahwa kelompok hasil yang ada diurutkan berdasarkan pertumbuhan pengaruh lingkungan. faktor yang diteliti, yang diukur pada skala ordinal.

Uji M - Bartlett, yang dikemukakan oleh ahli statistik Inggris Maurice Stevenson Bartlett pada tahun 1937, digunakan untuk menguji hipotesis nol tentang persamaan varians beberapa populasi normal dari mana sampel yang diteliti diambil, umumnya mempunyai ukuran yang berbeda (jumlah masing-masing sampel harus minimal empat).

Uji G - Cochran, yang ditemukan oleh William Gemmell Cochran dari Amerika pada tahun 1941. Uji ini digunakan untuk menguji hipotesis nol tentang persamaan varians populasi normal dalam sampel independen dengan ukuran yang sama.

Uji Levene nonparametrik, yang diusulkan oleh ahli matematika Amerika Howard Levene pada tahun 1960, merupakan alternatif uji Bartlett dalam kondisi di mana tidak ada kepastian bahwa sampel yang diteliti berdistribusi normal.

Pada tahun 1974, ahli statistik Amerika Morton B. Brown dan Alan B. Forsythe mengusulkan suatu pengujian (uji Brown-Forsyth) yang sedikit berbeda dengan uji Levene.

Analisis dua faktor

Analisis varians dua arah digunakan untuk sampel terkait yang berdistribusi normal. Dalam praktiknya, tabel kompleks dari metode ini sering digunakan, khususnya tabel yang setiap selnya berisi sekumpulan data (pengukuran berulang) yang sesuai dengan nilai tingkat tetap. Jika asumsi yang diperlukan untuk menerapkan analisis varians dua arah tidak terpenuhi, maka gunakan uji peringkat Friedman nonparametrik (Friedman, Kendall dan Smith), yang dikembangkan oleh ekonom Amerika Milton Friedman pada akhir tahun 1930. Tes ini tidak bergantung pada jenisnya. distribusi.

Hanya diasumsikan bahwa distribusi nilai-nilai itu identik dan berkesinambungan, dan mereka sendiri-sendiri tidak bergantung satu sama lain. Saat menguji hipotesis nol, data keluaran disajikan dalam bentuk matriks persegi panjang, yang baris-barisnya sesuai dengan tingkat faktor B, dan kolom-kolomnya sesuai dengan tingkat A. Setiap sel tabel (blok) dapat berupa hasil pengukuran parameter pada suatu benda atau pada sekelompok benda dengan nilai konstanta kadar kedua faktor tersebut. Dalam hal ini, data yang bersangkutan disajikan sebagai nilai rata-rata suatu parameter tertentu untuk semua dimensi atau objek sampel yang diteliti. Untuk menerapkan kriteria keluaran, perlu beralih dari hasil pengukuran langsung ke peringkatnya. Pemeringkatan dilakukan untuk setiap baris secara terpisah, yaitu nilai diurutkan untuk setiap nilai tetap.

Uji Page (uji-L), yang diusulkan oleh ahli statistik Amerika E. B. Page pada tahun 1963, dirancang untuk menguji hipotesis nol. Untuk sampel besar, pendekatan Page digunakan. Mereka, sesuai dengan realitas hipotesis nol yang sesuai, mematuhi distribusi normal standar. Jika baris-baris tabel sumber memiliki nilai yang sama, maka perlu menggunakan peringkat rata-rata. Dalam hal ini, keakuratan kesimpulan akan semakin buruk, semakin besar jumlah kecocokannya.

Q - Kriteria Cochran, diusulkan oleh W. Cochran pada tahun 1937. Ini digunakan dalam kasus di mana kelompok subjek homogen terkena pengaruh, yang jumlahnya melebihi dua dan dua opsi untuk umpan balik dimungkinkan - negatif bersyarat (0) dan bersyarat positif (1) . Hipotesis nol terdiri dari kesetaraan efek pengobatan. Analisis varians dua arah memungkinkan untuk menentukan adanya efek perlakuan, tetapi tidak memungkinkan untuk menentukan kolom spesifik mana yang terdapat efek tersebut. Untuk mengatasi masalah ini, digunakan metode persamaan Scheffe berganda untuk sampel terkait.

Analisis multivariat

Masalah analisis varians multivariat muncul ketika Anda perlu menentukan pengaruh dua atau lebih kondisi pada variabel acak tertentu. Penelitian ini melibatkan adanya satu variabel acak dependen, diukur pada skala perbedaan atau rasio, dan beberapa variabel independen, yang masing-masing dinyatakan dalam skala penamaan atau peringkat. Analisis varians data adalah bagian statistik matematika yang cukup berkembang, yang memiliki banyak pilihan. Konsep penelitiannya umum baik untuk faktor tunggal maupun multifaktor. Esensinya terletak pada kenyataan bahwa total varians dibagi menjadi komponen-komponen, yang sesuai dengan pengelompokan data tertentu. Setiap pengelompokan data mempunyai model tersendiri. Di sini kami hanya akan mempertimbangkan ketentuan dasar yang diperlukan untuk memahami dan menerapkan secara praktis opsi yang paling sering digunakan.

Analisis varians faktor memerlukan sikap yang cukup hati-hati dalam pengumpulan dan penyajian data masukan, dan terutama dalam interpretasi hasil. Berbeda dengan uji satu faktor yang hasilnya dapat ditempatkan secara kondisional dalam urutan tertentu, hasil uji dua faktor memerlukan penyajian yang lebih kompleks. Situasi menjadi lebih rumit ketika ada tiga, empat keadaan atau lebih. Oleh karena itu, jarang sekali memasukkan lebih dari tiga (empat) kondisi dalam suatu model. Contohnya adalah terjadinya resonansi pada nilai kapasitansi dan induktansi tertentu dari sebuah lingkaran listrik; manifestasi reaksi kimia dengan sekumpulan elemen tertentu dari mana sistem dibangun; terjadinya efek anomali dalam sistem yang kompleks dalam keadaan kebetulan tertentu. Kehadiran interaksi dapat secara radikal mengubah model sistem dan terkadang mengarah pada pemikiran ulang tentang sifat fenomena yang dihadapi oleh pelaku eksperimen.

Analisis varians multivariat dengan eksperimen berulang

Data pengukuran sering kali dapat dikelompokkan bukan berdasarkan dua, tetapi berdasarkan lebih banyak faktor. Jadi, jika kita mempertimbangkan analisis dispersi masa pakai ban roda troli dengan mempertimbangkan keadaan (pabrik manufaktur dan rute pengoperasian ban), maka kita dapat memilih kondisi terpisah musim di mana ban tersebut dioperasikan. ban dioperasikan (yaitu: pengoperasian musim dingin dan musim panas). Akibatnya, kita akan menghadapi masalah pada metode tiga faktor.

Jika kondisinya lebih banyak, pendekatannya sama dengan analisis dua faktor. Dalam semua kasus, mereka mencoba menyederhanakan model. Fenomena interaksi dua faktor tidak begitu sering muncul, dan interaksi rangkap tiga hanya terjadi pada kasus-kasus luar biasa. Sertakan interaksi yang memiliki informasi sebelumnya dan alasan bagus untuk mempertimbangkannya dalam model. Proses mengidentifikasi faktor-faktor individual dan mempertimbangkannya relatif sederhana. Oleh karena itu, seringkali ada keinginan untuk menyoroti lebih banyak keadaan. Anda tidak boleh terbawa oleh hal ini. Semakin banyak kondisi, semakin tidak dapat diandalkan model tersebut dan semakin besar kemungkinan terjadinya kesalahan. Model itu sendiri, yang mencakup sejumlah besar variabel independen, menjadi cukup rumit untuk diinterpretasikan dan tidak nyaman untuk penggunaan praktis.

Gagasan umum tentang analisis varians

Analisis varians dalam statistik adalah metode untuk memperoleh hasil pengamatan yang bergantung pada berbagai keadaan yang terjadi secara bersamaan dan menilai pengaruhnya. Variabel terkendali yang berhubungan dengan cara mempengaruhi objek penelitian dan memperoleh nilai tertentu selama jangka waktu tertentu disebut faktor. Mereka bisa bersifat kualitatif dan kuantitatif. Tingkat kondisi kuantitatif memperoleh arti tertentu pada skala numerik. Contohnya adalah suhu, tekanan pengepresan, jumlah zat. Faktor kualitatif adalah zat yang berbeda, metode teknologi yang berbeda, perangkat, pengisi. Levelnya sesuai dengan skala nama.

Kualitas juga dapat mencakup jenis bahan pengemas dan kondisi penyimpanan bentuk sediaan. Juga rasional untuk memasukkan tingkat penggilingan bahan mentah, komposisi fraksi butiran, yang memiliki signifikansi kuantitatif, tetapi sulit diatur jika menggunakan skala kuantitatif. Banyaknya faktor kualitatif tergantung pada jenis bentuk sediaan, serta sifat fisik dan teknologi bahan obat. Misalnya, tablet dapat diperoleh dari zat kristal dengan kompresi langsung. Dalam hal ini, cukup memilih bahan geser dan pelumas.

Contoh faktor kualitas untuk berbagai jenis bentuk sediaan

  • Tincture. Komposisi ekstraktan, jenis ekstraktor, metode penyiapan bahan baku, metode produksi, metode filtrasi.
  • Ekstrak (cair, kental, kering). Komposisi ekstraktan, cara ekstraksi, jenis pemasangan, cara menghilangkan zat ekstraktan dan pemberat.
  • pil. Komposisi eksipien, bahan pengisi, bahan penghancur, bahan pengikat, pelumas dan pelumas. Cara memperoleh tablet, jenis peralatan teknologi. Jenis cangkang dan komponennya, pembentuk film, pigmen, pewarna, pemlastis, pelarut.
  • Solusi injeksi. Jenis pelarut, metode filtrasi, sifat zat penstabil dan pengawet, kondisi sterilisasi, metode pengisian ampul.
  • Supositoria. Komposisi bahan dasar supositoria, cara pembuatan supositoria, bahan pengisi, pengemasan.
  • Salep. Komposisi bahan dasar, komponen struktur, cara pembuatan salep, jenis peralatan, kemasan.
  • Kapsul. Jenis bahan cangkang, cara pembuatan kapsul, jenis pemlastis, pengawet, pewarna.
  • obat gosok. Cara pembuatan, komposisi, jenis peralatan, jenis pengemulsi.
  • Penangguhan. Jenis pelarut, jenis penstabil, metode dispersi.

Contoh faktor kualitas dan kadarnya dipelajari selama proses pembuatan tablet

  • Bubuk pengembang. Tepung kentang, tanah liat putih, campuran natrium bikarbonat dengan asam sitrat, basa magnesium karbonat.
  • Solusi yang mengikat. Air, pasta pati, sirup gula, larutan metilselulosa, larutan hidroksipropilmetilselulosa, larutan polivinilpirolidon, larutan polivinil alkohol.
  • Bahan geser. Aerosil, pati, bedak.
  • Pengisi. Gula, glukosa, laktosa, natrium klorida, kalsium fosfat.
  • Pelumas. Asam stearat, polietilen glikol, parafin.

Model analisis varians dalam kajian tingkat daya saing suatu negara

Salah satu kriteria terpenting untuk menilai keadaan suatu negara, yang digunakan untuk menilai tingkat kesejahteraan dan pembangunan sosial-ekonominya, adalah daya saing, yaitu seperangkat sifat yang melekat pada perekonomian nasional yang menentukan kinerja suatu negara. kemampuan bersaing dengan negara lain. Setelah menentukan tempat dan peran negara di pasar dunia, kita dapat menetapkan strategi yang jelas untuk menjamin keamanan ekonomi dalam skala internasional, karena ini adalah kunci hubungan positif antara Rusia dan semua pemain di pasar dunia: investor , kreditur, dan pemerintah.

Untuk membandingkan tingkat daya saing suatu negara, negara-negara diberi peringkat menggunakan indeks kompleks yang mencakup berbagai indikator tertimbang. Indeks-indeks ini didasarkan pada faktor-faktor utama yang mempengaruhi situasi ekonomi, politik, dll. Seperangkat model untuk mempelajari daya saing negara melibatkan penggunaan metode analisis statistik multivariat (khususnya analisis varians (statistik), pemodelan ekonometrik, pengambilan keputusan) dan mencakup tahapan utama berikut:

  1. Pembentukan sistem indikator.
  2. Penilaian dan peramalan indikator daya saing negara.
  3. Perbandingan indikator daya saing negara.

Sekarang mari kita lihat isi model dari setiap tahapan kompleks ini.

Pada tahap pertama menggunakan metode studi ahli, serangkaian indikator ekonomi yang beralasan untuk menilai daya saing suatu negara dibentuk, dengan mempertimbangkan kekhususan perkembangannya berdasarkan peringkat internasional dan data dari departemen statistik, yang mencerminkan keadaan sistem secara keseluruhan. dan prosesnya. Pilihan indikator-indikator ini dibenarkan oleh kebutuhan untuk memilih indikator-indikator yang paling lengkap, dari sudut pandang praktis, memungkinkan kita untuk menentukan tingkat negara, daya tarik investasinya dan kemungkinan lokalisasi relatif dari potensi dan ancaman aktual yang ada.

Indikator utama sistem pemeringkatan internasional adalah indeks:

  1. Daya Saing Global (GC).
  2. Kebebasan ekonomi (IES).
  3. Pembangunan Manusia (HDI).
  4. Persepsi Korupsi (BPK).
  5. Ancaman internal dan eksternal (IETH).
  6. Potensi Pengaruh Internasional (IPIP).

Fase kedua memberikan penilaian dan peramalan indikator daya saing negara menurut peringkat internasional untuk 139 negara di dunia yang diteliti.

Tahap ketiga memberikan perbandingan kondisi daya saing negara dengan menggunakan metode analisis korelasi dan regresi.

Dengan menggunakan hasil penelitian, kita dapat menentukan sifat proses secara umum dan masing-masing komponen daya saing negara; menguji hipotesis tentang pengaruh faktor-faktor dan hubungannya pada tingkat signifikansi yang sesuai.

Penerapan serangkaian model yang diusulkan akan memungkinkan tidak hanya untuk menilai situasi saat ini mengenai tingkat daya saing dan daya tarik investasi suatu negara, tetapi juga untuk menganalisis kekurangan manajemen, mencegah kesalahan pengambilan keputusan yang salah, dan mencegah berkembangnya krisis di negara-negara tersebut. negara.

Analisis varians

1. Konsep analisis varians

Analisis varians adalah analisis variabilitas suatu sifat di bawah pengaruh faktor variabel yang dikendalikan. Dalam literatur luar negeri, analisis varians sering disebut dengan ANOVA yang diterjemahkan sebagai analisis variabilitas (Analysis of Variance).

masalah ANOVA terdiri dari mengisolasi variabilitas jenis lain dari variabilitas umum suatu sifat:

a) variabilitas akibat pengaruh masing-masing variabel bebas yang diteliti;

b) variabilitas akibat interaksi variabel bebas yang diteliti;

c) variabilitas acak karena semua variabel lain yang tidak diketahui.

Variabilitas akibat tindakan variabel-variabel yang diteliti dan interaksinya berkorelasi dengan variabilitas acak. Indikator hubungan ini adalah uji F Fisher.

Rumus penghitungan kriteria F meliputi pendugaan varians yaitu parameter sebaran suatu atribut, oleh karena itu kriteria F merupakan kriteria parametrik.

Semakin besar variabilitas suatu sifat yang disebabkan oleh variabel (faktor) yang diteliti atau interaksinya, maka semakin tinggi pula variabilitasnya nilai kriteria empiris.

Nol hipotesis dalam analisis varians akan menyatakan bahwa nilai rata-rata sifat efektif yang dipelajari adalah sama pada semua gradasi.

Alternatif hipotesis akan menyatakan bahwa nilai rata-rata karakteristik yang dihasilkan pada gradasi faktor yang diteliti berbeda-beda.

Analisis varians memungkinkan kita untuk menyatakan perubahan suatu karakteristik, tetapi tidak menunjukkannya arah perubahan-perubahan ini.

Mari kita mulai pembahasan analisis varians dengan kasus paling sederhana, ketika kita mempelajari tindakan saja satu variabel (satu faktor).

2. Analisis varians satu arah untuk sampel yang tidak berkerabat

2.1. Tujuan dari metode ini

Metode analisis varians satu faktor digunakan dalam kasus di mana perubahan karakteristik efektif dipelajari di bawah pengaruh perubahan kondisi atau gradasi suatu faktor. Pada metode versi ini, pengaruh masing-masing gradasi faktornya adalah berbeda sampel mata pelajaran. Setidaknya harus ada tiga gradasi faktor. (Mungkin ada dua gradasi, namun dalam hal ini kita tidak akan dapat membangun ketergantungan nonlinier dan tampaknya lebih masuk akal untuk menggunakan yang lebih sederhana).

Versi nonparametrik dari jenis analisis ini adalah uji Kruskal-Wallis H.

Hipotesis

H 0: Perbedaan antara nilai faktor (kondisi berbeda) tidak lebih besar dari perbedaan acak dalam setiap kelompok.

H 1: Perbedaan antar nilai faktor (kondisi berbeda) lebih besar dibandingkan perbedaan acak dalam masing-masing kelompok.

2.2. Keterbatasan Analisis Varians Satu Arah untuk Sampel Tidak Berhubungan

1. Analisis varians satu arah memerlukan paling sedikit tiga gradasi faktor dan paling sedikit dua subjek pada setiap gradasi.

2. Ciri-ciri yang dihasilkan harus berdistribusi normal pada sampel yang diteliti.

Benar, biasanya tidak disebutkan apakah kita berbicara tentang sebaran suatu karakteristik pada seluruh sampel yang disurvei atau pada bagiannya yang membentuk kompleks dispersi.

3. Contoh penyelesaian masalah dengan metode analisis varians satu arah untuk sampel yang tidak berkerabat dengan menggunakan contoh:

Tiga kelompok berbeda yang terdiri dari enam subjek diberikan daftar sepuluh kata. Kata-kata tersebut disajikan kepada kelompok pertama dengan kecepatan rendah - 1 kata per 5 detik, kepada kelompok kedua dengan kecepatan rata-rata - 1 kata per 2 detik, dan kepada kelompok ketiga dengan kecepatan tinggi - 1 kata per detik. Performa reproduksi diperkirakan bergantung pada kecepatan penyajian kata. Hasilnya disajikan pada Tabel. 1.

Jumlah kata yang direproduksi Tabel 1

Subyek No.

kecepatan rendah

kecepatan rata-rata

kecepatan tinggi

jumlah total

H 0 : Perbedaan rentang produksi kata di antara kelompok tidak lebih jelas daripada perbedaan acak di dalam setiap kelompok.

H1: Perbedaan volume produksi kata di antara kelompok lebih jelas dibandingkan perbedaan acak di dalam setiap kelompok. Menggunakan nilai eksperimen yang disajikan pada Tabel. 1, kami akan menetapkan beberapa nilai yang diperlukan untuk menghitung kriteria F.

Perhitungan besaran pokok untuk analisis varians satu arah disajikan pada tabel:

Meja 2

Tabel 3

Urutan operasi dalam analisis varians satu arah untuk sampel yang tidak berhubungan

Sering ditemukan dalam tabel ini dan tabel berikutnya, sebutan SS adalah singkatan dari “jumlah kuadrat”. Singkatan ini paling sering digunakan dalam sumber terjemahan.

SS fakta berarti variabilitas suatu sifat akibat tindakan faktor yang diteliti;

SS umumnya- variabilitas umum dari sifat tersebut;

S C.A.-variabilitas karena faktor yang tidak terhitung, variabilitas “acak” atau “sisa”.

MS- "rata-rata kuadrat", atau ekspektasi matematis dari jumlah kuadrat, nilai rata-rata SS yang sesuai.

df - jumlah derajat kebebasan, yang jika mempertimbangkan kriteria nonparametrik, kami dilambangkan dengan huruf Yunani ay.

Kesimpulan : H 0 ditolak. H 1 diterima. Perbedaan ingatan kata antar kelompok lebih besar dibandingkan perbedaan acak dalam masing-masing kelompok (α=0,05). Jadi, kecepatan penyajian kata mempengaruhi volume reproduksinya.

Contoh penyelesaian masalah di Excel disajikan di bawah ini:

Data awal:

Menggunakan perintah: Alat->Analisis Data->ANOVA satu arah, kami mendapatkan hasil sebagai berikut:

Teknik-teknik yang dibahas di atas untuk menguji hipotesis statistik tentang signifikansi perbedaan antara dua rata-rata memiliki penerapan yang terbatas dalam praktiknya. Hal ini disebabkan oleh fakta bahwa untuk mengidentifikasi pengaruh semua kondisi dan faktor yang mungkin terjadi pada suatu sifat yang efektif, percobaan lapangan dan laboratorium, biasanya, dilakukan dengan menggunakan bukan dua, tetapi jumlah sampel yang lebih besar (1220 atau lebih). ).

Seringkali peneliti membandingkan rata-rata beberapa sampel yang digabungkan menjadi satu kompleks. Misalnya, ketika mempelajari pengaruh berbagai jenis dan dosis pupuk terhadap hasil panen, percobaan diulangi dalam versi yang berbeda. Dalam kasus ini, perbandingan berpasangan menjadi rumit, dan analisis statistik seluruh kompleks memerlukan penggunaan metode khusus. Metode yang dikembangkan dalam statistik matematika ini disebut analisis varians. Ini pertama kali digunakan oleh ahli statistik Inggris R. Fisher ketika mengolah hasil percobaan agronomi (1938).

Analisis varians adalah metode untuk menilai secara statistik keandalan manifestasi ketergantungan karakteristik efektif pada satu atau lebih faktor. Dengan menggunakan metode analisis varians, hipotesis statistik diuji mengenai rata-rata beberapa populasi umum yang mempunyai distribusi normal.

Analisis varians adalah salah satu metode utama untuk evaluasi statistik hasil eksperimen. Hal ini juga semakin banyak digunakan dalam analisis informasi ekonomi. Analisis varians memungkinkan untuk menentukan sejauh mana indikator sampel dari hubungan antara karakteristik resultan dan faktor cukup untuk memperluas data yang diperoleh dari sampel ke populasi umum. Keuntungan metode ini adalah memberikan kesimpulan yang cukup andal dari sampel yang kecil.

Dengan mempelajari variasi suatu karakteristik efektif di bawah pengaruh satu atau beberapa faktor dengan menggunakan analisis varians, selain perkiraan umum tentang signifikansi ketergantungan, kita juga dapat memperoleh penilaian terhadap perbedaan besaran rata-rata yang terbentuk. pada tingkat faktor yang berbeda, dan pentingnya interaksi faktor. Analisis varians digunakan untuk mempelajari ketergantungan karakteristik kuantitatif dan kualitatif, serta kombinasinya.

Inti dari metode ini adalah studi statistik tentang kemungkinan pengaruh satu atau lebih faktor, serta interaksinya terhadap karakteristik yang dihasilkan. Oleh karena itu, tiga tugas utama diselesaikan dengan menggunakan analisis varians: 1) penilaian umum tentang signifikansi perbedaan rata-rata kelompok; 2) menilai kemungkinan interaksi antar faktor; 3) penilaian signifikansi perbedaan antar pasangan mean. Paling sering, peneliti harus memecahkan masalah seperti itu ketika melakukan eksperimen lapangan dan zooteknik, ketika pengaruh beberapa faktor pada suatu sifat efektif dipelajari.

Skema prinsip analisis varians meliputi penetapan sumber utama variasi karakteristik efektif dan penentuan volume variasi (jumlah simpangan kuadrat) menurut sumber pembentukannya; menentukan jumlah derajat kebebasan yang sesuai dengan komponen variasi total; menghitung dispersi sebagai rasio volume variasi yang sesuai dengan jumlah derajat kebebasannya; analisis hubungan antar varians; menilai keandalan perbedaan antara rata-rata dan menarik kesimpulan.

Skema ini dipertahankan baik dalam model analisis varians sederhana, ketika data dikelompokkan berdasarkan satu karakteristik, dan dalam model kompleks, ketika data dikelompokkan berdasarkan dua atau lebih karakteristik. Namun dengan bertambahnya jumlah ciri-ciri kelompok, maka proses penguraian variasi total menurut sumber pembentukannya menjadi lebih rumit.

Menurut diagram prinsip, analisis varians dapat direpresentasikan sebagai lima tahap yang berurutan:

1) definisi dan perluasan variasi;

2) penentuan besaran derajat kebebasan variasi;

3) perhitungan varians dan rasionya;

4) analisis varians dan hubungannya;

5) menilai signifikansi perbedaan rata-rata dan merumuskan kesimpulan untuk menguji hipotesis nol.

Bagian analisis varians yang paling memakan waktu adalah tahap pertama - menentukan dan menguraikan variasi menurut sumber pembentukannya. Urutan penguraian total volume variasi dibahas secara rinci pada Bab 5.

Dasar penyelesaian masalah analisis varians adalah hukum perluasan (penambahan) variasi, yang menyatakan bahwa variasi total (fluktuasi) dari atribut yang dihasilkan dibagi menjadi dua: variasi yang disebabkan oleh tindakan faktor-faktor yang diteliti. , dan variasi yang disebabkan oleh aksi sebab-sebab acak, yaitu

Misalkan populasi yang diteliti dibagi menurut karakteristik faktornya menjadi beberapa kelompok, yang masing-masing dicirikan oleh nilai rata-rata dari karakteristik yang dihasilkan. Pada saat yang sama, variasi nilai-nilai ini dapat dijelaskan oleh dua jenis alasan: alasan yang bekerja berdasarkan tanda efektif secara sistematis dan dapat disesuaikan selama percobaan, dan alasan yang tidak dapat disesuaikan. Jelaslah bahwa variasi antarkelompok (faktorial atau sistematis) terutama bergantung pada tindakan faktor yang diteliti, dan variasi intrakelompok (sisa atau acak) terutama bergantung pada tindakan faktor acak.

Untuk menilai keandalan perbedaan rata-rata kelompok, perlu ditentukan variasi antarkelompok dan intrakelompok. Jika variasi antarkelompok (faktorial) secara signifikan melebihi variasi intrakelompok (residual), maka faktor tersebut mempengaruhi karakteristik yang dihasilkan, sehingga secara signifikan mengubah nilai rata-rata kelompok. Namun timbul pertanyaan, apa hubungan antara variasi antarkelompok dan intrakelompok yang dapat dianggap cukup untuk menyimpulkan reliabilitas (signifikansi) perbedaan rata-rata kelompok.

Untuk menilai signifikansi perbedaan antara mean dan merumuskan kesimpulan untuk menguji hipotesis nol (H0:x1 = x2 =... = xn) dalam analisis varians, digunakan semacam standar - kriteria G, hukum distribusi yang didirikan oleh R. Fisher. Kriteria ini adalah perbandingan dua varians: faktorial, yang dihasilkan oleh aksi faktor yang diteliti, dan residual, yang disebabkan oleh aksi sebab-sebab acak:

Hubungan dispersi Γ = £>u : Ahli statistik Amerika Snedecor mengusulkan untuk menyatakan £*2 dengan huruf G untuk menghormati penemu analisis varians, R. Fisher.

Varians °2 io2 merupakan perkiraan varians populasi. Jika sampel dengan varian °2 °2 dibuat dari populasi umum yang sama, dimana variasi nilainya acak, maka selisih nilai °2 °2 juga acak.

Jika suatu eksperimen menguji pengaruh beberapa faktor (A, B, C, dll.) pada suatu sifat efektif secara bersamaan, maka varians akibat tindakan masing-masing faktor tersebut harus sebanding dengan °e.gP, itu adalah

Jika nilai dispersi faktor lebih besar secara signifikan dibandingkan dengan sisa, maka faktor tersebut berpengaruh signifikan terhadap atribut yang dihasilkan dan sebaliknya.

Dalam eksperimen multifaktorial, selain variasi akibat tindakan masing-masing faktor, hampir selalu terdapat variasi akibat interaksi faktor-faktor ($ав: ^лс ^вс $ліс). Inti dari interaksi ini adalah bahwa pengaruh satu faktor berubah secara signifikan pada tingkat faktor kedua yang berbeda (misalnya, efektivitas kualitas tanah pada dosis pupuk yang berbeda).

Interaksi faktor-faktor juga harus dinilai dengan membandingkan varians yang sesuai 3 ^v.gr:

Saat menghitung nilai aktual kriteria B, semakin besar varians yang diambil pada pembilangnya, jadi B > 1. Jelasnya, semakin besar kriteria B, semakin signifikan perbedaan antar variansnya. Jika B = 1, maka pertanyaan tentang penilaian signifikansi perbedaan varians dihilangkan.

Untuk menentukan batas fluktuasi acak rasio dispersi, G. Fischer mengembangkan tabel distribusi B khusus (Lampiran 4 dan 5). Kriteria tersebut secara fungsional terkait dengan probabilitas dan bergantung pada jumlah derajat kebebasan variasi k1 dan k2 dari dua varian yang dibandingkan. Biasanya, dua tabel digunakan untuk membuat kesimpulan tentang nilai kriteria tingkat signifikansi yang sangat tinggi yaitu 0,05 dan 0,01. Tingkat signifikansi 0,05 (atau 5%) berarti hanya 5 kasus dari 100 kriteria B yang dapat mengambil nilai sama atau lebih tinggi dari yang ditunjukkan dalam tabel. Mengurangi tingkat signifikansi dari 0,05 menjadi 0,01 menyebabkan peningkatan nilai kriteria antara dua varians karena pengaruh alasan acak saja.

Nilai kriteria juga bergantung langsung pada jumlah derajat kebebasan dari dua dispersi yang dibandingkan. Jika jumlah derajat kebebasan cenderung tak terhingga (k-me), maka perbandingan B untuk dua dispersi cenderung satu.

Nilai tabulasi kriteria B menunjukkan kemungkinan nilai acak dari rasio dua varian pada tingkat signifikansi tertentu dan jumlah derajat kebebasan yang sesuai untuk setiap varian yang dibandingkan. Tabel yang ditunjukkan menunjukkan nilai B untuk sampel yang diambil dari populasi umum yang sama, dimana alasan perubahan nilai hanya bersifat acak.

Nilai ditemukan dari tabel (Lampiran 4 dan 5) pada perpotongan kolom yang bersangkutan (jumlah derajat kebebasan untuk dispersi lebih besar - k1) dan baris (jumlah derajat kebebasan untuk dispersi lebih kecil - k2 ). Jadi, jika varians yang lebih besar (pembilang Г) adalah k1 = 4, dan varians yang lebih kecil (penyebut Г) adalah k2 = 9, maka Г pada taraf signifikansi а = 0,05 adalah 3,63 (Lampiran 4). Jadi, akibat sebab-sebab acak, karena sampelnya kecil, varians satu sampel dapat, pada tingkat signifikansi 5%, melebihi varians sampel kedua sebesar 3,63 kali. Ketika tingkat signifikansi menurun dari 0,05 menjadi 0,01, nilai tabel kriteria G, seperti disebutkan di atas, akan meningkat. Jadi, dengan derajat kebebasan yang sama k1 = 4 dan k2 = 9 dan a = 0,01, nilai tabulasi kriteria G adalah 6,99 (Lampiran 5).

Mari kita perhatikan prosedur penentuan jumlah derajat kebebasan dalam analisis varians. Jumlah derajat kebebasan, yang sesuai dengan jumlah total simpangan kuadrat, didekomposisi menjadi komponen-komponen yang bersesuaian dengan cara yang sama seperti penguraian jumlah simpangan kuadrat (^total = No^gr + ]¥vhr), yaitu, jumlah derajat kebebasan total (k") didekomposisi menjadi jumlah derajat kebebasan untuk variasi antargrup (k1) dan intragrup (k2).

Jadi, jika populasi sampel terdiri dari N pengamatan dibagi dengan T kelompok (jumlah pilihan eksperimen) dan P subkelompok (jumlah pengulangan), maka jumlah derajat kebebasan k adalah:

a) untuk jumlah total simpangan kuadrat (s7zag)

b) untuk jumlah simpangan kuadrat antarkelompok ^m.gP)

c) untuk jumlah deviasi kuadrat intragrup V v.gR)

Menurut aturan penambahan variasi:

Misalnya, jika dalam suatu percobaan terbentuk empat varian percobaan (t = 4) dengan masing-masing lima kali pengulangan (n = 5), dan jumlah pengamatannya adalah N = = T o p = 4 * 5 = 20, maka banyaknya derajat kebebasannya sama dengan:

Mengetahui jumlah deviasi kuadrat dan jumlah derajat kebebasan, kita dapat menentukan estimasi yang tidak bias (dikoreksi) untuk tiga varian:

Hipotesis nol H0 diuji menggunakan kriteria B dengan cara yang sama seperti menggunakan uji-t Student. Untuk mengambil keputusan dalam memeriksa H0, perlu dihitung nilai aktual kriteria dan membandingkannya dengan nilai tabulasi Ba untuk tingkat signifikansi a yang diterima dan jumlah derajat kebebasan. k1 dan k2 untuk dua dispersi.

Jika Bfaq > Ba, maka sesuai dengan tingkat signifikansi yang diterima, kita dapat menyimpulkan bahwa perbedaan varians sampel tidak hanya ditentukan oleh faktor acak; mereka penting. Dalam hal ini hipotesis nol ditolak dan terdapat alasan untuk menyatakan bahwa faktor tersebut mempengaruhi secara signifikan karakteristik yang dihasilkan. Jika< Ба, то нулевую гипотезу принимают и есть основание утверждать, что различия между сравниваемыми дисперсиями находятся в границах возможных случайных колебаний: действие фактора на результативный признак не является существенным.

Penggunaan model analisis varians tertentu bergantung pada jumlah faktor yang diteliti dan metode pengambilan sampel.

c Tergantung pada banyaknya faktor yang menentukan variasi karakteristik yang dihasilkan, sampel dapat dibentuk berdasarkan satu, dua atau lebih faktor. Berdasarkan hal tersebut, analisis varians dibagi menjadi faktor tunggal dan multifaktor. Jika tidak, ini juga disebut kompleks dispersi faktor tunggal dan multifaktor.

Skema penguraian variasi total bergantung pada pembentukan kelompok. Bisa acak (pengamatan satu kelompok tidak berhubungan dengan pengamatan kelompok kedua) dan non-acak (pengamatan dua sampel dihubungkan satu sama lain dengan kondisi eksperimen yang sama). Sampel independen dan dependen diperoleh sesuai. Sampel independen dapat dibentuk dengan jumlah yang sama dan tidak merata. Pembentukan sampel dependen mengasumsikan ukurannya sama.

Jika kelompok-kelompok tersebut dibentuk secara acak, maka total volume variasi sifat yang dihasilkan, bersama dengan variasi faktorial (antarkelompok) dan residu, termasuk variasi pengulangan, yaitu

Dalam praktiknya, dalam banyak kasus, sampel dependen perlu dipertimbangkan ketika kondisi untuk kelompok dan subkelompok disamakan. Jadi, dalam percobaan lapangan, seluruh lokasi dibagi menjadi beberapa blok, dengan kondisi paling bervariasi. Dalam hal ini, setiap varian eksperimen mendapat peluang yang sama untuk terwakili di semua blok, sehingga menyamakan kondisi untuk semua varian eksperimen yang diuji. Cara membuat percobaan seperti ini disebut metode acak kelompok. Eksperimen dengan hewan dilakukan dengan cara yang sama.

Saat mengolah data sosio-ekonomi dengan menggunakan metode analisis varians, perlu diingat bahwa karena banyaknya faktor dan keterkaitannya, sulit, bahkan dengan pemerataan kondisi yang paling hati-hati, untuk menetapkan derajat objektif. pengaruh masing-masing faktor individu terhadap karakteristik yang dihasilkan. Oleh karena itu, tingkat variasi residu ditentukan tidak hanya oleh sebab-sebab acak, tetapi juga oleh faktor-faktor penting yang tidak diperhitungkan ketika membangun model analisis varians. Akibatnya, varians sisa sebagai dasar perbandingan terkadang menjadi tidak memadai untuk tujuannya, nilai tersebut jelas-jelas terlalu tinggi dan tidak dapat digunakan sebagai kriteria signifikansi pengaruh faktor-faktor. Dalam hal ini, ketika membangun model analisis varians, masalah memilih faktor yang paling penting dan meratakan kondisi untuk manifestasi tindakan masing-masing faktor tersebut menjadi relevan. Di samping itu. penggunaan analisis varians mengasumsikan distribusi normal atau mendekati normal dari populasi statistik yang diteliti. Jika kondisi ini tidak terpenuhi, maka estimasi yang diperoleh dalam analisis varians akan dilebih-lebihkan.

Seseorang dapat mengenali kemampuannya hanya dengan mencoba menerapkannya. (Seneca)

Analisis varians

Ikhtisar pengantar

Pada bagian ini, kita akan meninjau metode dasar, asumsi, dan terminologi ANOVA.

Perlu diketahui bahwa dalam literatur berbahasa Inggris, analisis varians biasa disebut analisis variasi. Oleh karena itu, untuk singkatnya, terkadang kami akan menggunakan istilah tersebut di bawah ini ANOVA (Sebuah analisis Hai F ya riasi) untuk ANOVA biasa dan istilahnya MANOVA untuk analisis varians multivariat. Pada bagian ini kita akan meninjau secara berurutan gagasan utama analisis varians ( ANOVA), analisis kovarians ( ANCOVA), analisis varians multivariat ( MANOVA) dan analisis kovarians multivariat ( MANCOVA). Setelah pembahasan singkat mengenai manfaat analisis kontras dan uji post hoc, mari kita lihat asumsi yang menjadi dasar metode ANOVA. Menjelang akhir bagian ini, keuntungan pendekatan multivariat untuk analisis pengukuran berulang dibandingkan pendekatan univariat tradisional akan dijelaskan.

Ide Utama

Tujuan analisis varians. Tujuan utama analisis varians adalah untuk menguji signifikansi perbedaan antar mean. Bab (Bab 8) memberikan pengantar singkat tentang studi signifikansi statistik. Jika Anda sekadar membandingkan rata-rata dua sampel, analisis varians akan memberikan hasil yang sama seperti analisis biasa. T- tes untuk sampel independen (jika dua kelompok objek atau pengamatan independen dibandingkan) atau T- kriteria sampel dependen (jika dua variabel dibandingkan pada kumpulan objek atau observasi yang sama). Jika Anda belum memahami kriteria ini, kami sarankan Anda merujuk pada ikhtisar bab pendahuluan (Bab 9).

Dari mana nama itu berasal Analisis varians? Mungkin tampak aneh bahwa prosedur membandingkan rata-rata disebut analisis varians. Pada kenyataannya, hal ini terjadi karena ketika kita menguji signifikansi statistik dari perbedaan rata-rata, kita sebenarnya sedang menganalisis varians.

Mempartisi jumlah kuadrat

Untuk ukuran sampel n, varians sampel dihitung sebagai jumlah deviasi kuadrat dari mean sampel dibagi n-1 (ukuran sampel dikurangi satu). Jadi, untuk ukuran sampel tetap n, variansnya adalah fungsi dari jumlah kuadrat (deviasi), yang dilambangkan, agar singkatnya, SS(dari bahasa Inggris Sum of Squares - Sum of Squares). Dasar analisis varians adalah pemisahan (atau partisi) varians menjadi beberapa bagian. Pertimbangkan kumpulan data berikut:

Nilai rata-rata kedua kelompok berbeda secara signifikan (masing-masing 2 dan 6). Jumlah deviasi kuadrat di dalam setiap kelompok sama dengan 2. Jika dijumlahkan, kita mendapatkan 4. Jika sekarang kita ulangi perhitungan ini tidak termasuk keanggotaan kelompok, yaitu jika kita menghitung SS berdasarkan mean keseluruhan dari kedua sampel, kita mendapatkan 28. Dengan kata lain, varians (jumlah kuadrat) berdasarkan variabilitas dalam kelompok menghasilkan nilai yang jauh lebih kecil dibandingkan jika dihitung berdasarkan variabilitas keseluruhan (relatif terhadap rata-rata keseluruhan). Alasan untuk hal ini jelas adalah perbedaan yang signifikan antara rata-rata, dan perbedaan antara rata-rata ini menjelaskan perbedaan yang ada antara jumlah kuadrat. Faktanya, jika Anda menggunakan modul untuk menganalisis data yang diberikan Analisis varians, maka akan diperoleh hasil sebagai berikut:

Seperti dapat dilihat dari tabel, jumlah total kuadrat SS=28 dibagi dengan jumlah kuadrat yang diberikan oleh intragrup variabilitas ( 2+2=4 ; lihat baris kedua tabel) dan jumlah kuadrat karena perbedaan nilai rata-rata. (28-(2+2)=24; lihat baris pertama tabel).

SS kesalahan danSS memengaruhi. Variabilitas dalam kelompok ( SS) biasanya disebut dispersi kesalahan. Artinya, hal ini biasanya tidak dapat diprediksi atau dijelaskan ketika suatu eksperimen dilakukan. Di sisi lain, SS memengaruhi(atau variabilitas antar kelompok) dapat dijelaskan oleh perbedaan antara rata-rata kelompok belajar. Dengan kata lain, menjadi anggota kelompok tertentu menjelaskan variabilitas antarkelompok, karena kita tahu bahwa kelompok-kelompok ini memiliki cara yang berbeda.

Pemeriksaan signifikansi. Ide dasar pengujian signifikansi statistik dibahas pada Bab Konsep dasar statistika(Bab 8). Bab ini juga menjelaskan alasan mengapa banyak pengujian menggunakan rasio varians yang dijelaskan dan varians yang tidak dapat dijelaskan. Contoh penggunaan ini adalah analisis varians itu sendiri. Pengujian signifikansi dalam ANOVA didasarkan pada perbandingan varians akibat varians antar kelompok (disebut efek kuadrat rata-rata atau MSMemengaruhi) dan varians karena variasi dalam kelompok (disebut kesalahan kuadrat rata-rata atau MSkesalahan). Jika hipotesis nol (kesetaraan rata-rata dalam dua populasi) benar, maka diharapkan perbedaan rata-rata sampel akan relatif kecil karena adanya variasi acak. Oleh karena itu, berdasarkan hipotesis nol, varians dalam kelompok secara praktis akan bertepatan dengan varians total yang dihitung tanpa memperhitungkan keanggotaan kelompok. Varians dalam kelompok yang dihasilkan dapat dibandingkan dengan menggunakan F- tes yang memeriksa apakah rasio varians secara signifikan lebih besar dari 1. Dalam contoh yang dibahas di atas F- kriteria tersebut menunjukkan bahwa perbedaan antara rata-rata tersebut signifikan secara statistik.

Logika dasar analisis varians. Ringkasnya, tujuan ANOVA adalah untuk menguji signifikansi statistik dari perbedaan rata-rata (untuk kelompok atau variabel). Pemeriksaan ini dilakukan dengan menggunakan analisis varians, yaitu. dengan membagi total varians (variasi) menjadi beberapa bagian, yang salah satunya disebabkan oleh kesalahan acak (yaitu variabilitas intragrup), dan yang kedua disebabkan oleh perbedaan nilai rata-rata. Komponen varians terakhir kemudian digunakan untuk menganalisis signifikansi statistik dari perbedaan rata-rata. Jika perbedaan ini signifikan, hipotesis nol ditolak dan hipotesis alternatif bahwa terdapat perbedaan antara mean diterima.

Variabel terikat dan bebas. Variabel yang nilainya ditentukan oleh pengukuran selama suatu percobaan (misalnya nilai ujian) disebut bergantung variabel. Variabel yang dapat dikontrol dalam suatu eksperimen (misalnya metode pengajaran atau kriteria lain untuk membagi pengamatan menjadi beberapa kelompok) disebut faktor atau mandiri variabel. Konsep-konsep ini dijelaskan secara lebih rinci dalam bab ini Konsep dasar statistika(Bab 8).

Analisis varians multivariat

Dalam contoh sederhana di atas, Anda dapat langsung menghitung uji-t sampel independen menggunakan opsi modul yang sesuai Statistik dan tabel dasar. Hasil yang diperoleh tentu saja akan sesuai dengan hasil analisis varians. Namun, ANOVA mengandung teknik yang fleksibel dan kuat yang dapat digunakan untuk penelitian yang jauh lebih kompleks.

Banyak faktor. Dunia ini bersifat kompleks dan multidimensi. Situasi ketika fenomena tertentu dijelaskan secara lengkap oleh satu variabel sangatlah jarang terjadi. Misalnya, jika kita mencoba mempelajari cara menanam tomat berukuran besar, kita harus mempertimbangkan faktor-faktor yang berkaitan dengan struktur genetik tanaman, jenis tanah, cahaya, suhu, dll. Jadi, ketika melakukan eksperimen biasa, seseorang harus menghadapi banyak faktor. Alasan utama mengapa penggunaan ANOVA lebih disukai daripada menggunakan perbandingan berulang dari dua sampel pada tingkat faktor yang berbeda T- kriterianya adalah analisis varians lebih banyak efektif dan, untuk sampel kecil, lebih informatif.

Manajemen faktor. Misalkan dalam contoh analisis dua sampel yang dibahas di atas, kita menambahkan faktor lain, misalnya Lantai- Jenis kelamin. Misalkan setiap kelompok terdiri dari 3 laki-laki dan 3 perempuan. Rancangan percobaan ini dapat disajikan dalam bentuk tabel 2 kali 2:

Percobaan. Grup 1 Percobaan. Grup 2
Laki-laki2 6
3 7
1 5
Rata-rata2 6
Wanita4 8
5 9
3 7
Rata-rata4 8

Sebelum melakukan penghitungan, Anda dapat melihat bahwa dalam contoh ini varians total memiliki setidaknya tiga sumber:

(1) kesalahan acak (dalam varians kelompok),

(2) variabilitas yang terkait dengan keanggotaan kelompok eksperimen, dan

(3) variabilitas karena jenis kelamin objek pengamatan.

(Perhatikan bahwa ada kemungkinan sumber variabilitas lain - interaksi faktor, yang akan kita bahas nanti). Apa jadinya jika kita tidak menyertakannya lantaijenis kelamin sebagai faktor dalam analisis dan menghitung yang biasa T-kriteria? Jika kita menghitung jumlah kuadrat, abaikan lantai -jenis kelamin(yaitu, menggabungkan objek-objek yang berjenis kelamin berbeda ke dalam satu kelompok ketika menghitung varians dalam kelompok, sehingga diperoleh jumlah kuadrat untuk setiap kelompok yang sama dengan SS=10, dan jumlah total kuadrat SS= 10+10 = 20), maka diperoleh nilai varians intragrup yang lebih besar dibandingkan dengan analisis yang lebih akurat dengan tambahan pembagian menjadi subgrup sesuai dengan semi jenis kelamin(dalam hal ini, rata-rata dalam kelompok akan sama dengan 2, dan total jumlah kuadrat dalam kelompok akan sama dengan SS = 2+2+2+2 = 8). Perbedaan ini disebabkan oleh nilai rata-rata untuk laki-laki - laki-laki kurang dari rata-rata untuk wanita -perempuan, dan perbedaan rata-rata ini meningkatkan keseluruhan variabilitas dalam kelompok ketika jenis kelamin tidak diperhitungkan. Mengontrol varians kesalahan akan meningkatkan sensitivitas (kekuatan) pengujian.

Contoh ini menunjukkan keunggulan lain analisis varians dibandingkan konvensional T- kriteria untuk dua sampel. Analisis varians memungkinkan Anda mempelajari setiap faktor dengan mengontrol nilai faktor lainnya. Faktanya, inilah alasan utama kekuatan statistiknya yang lebih besar (diperlukan ukuran sampel yang lebih kecil untuk mendapatkan hasil yang bermakna). Oleh karena itu, analisis varians, bahkan pada sampel kecil, memberikan hasil yang lebih signifikan secara statistik daripada analisis sederhana T- kriteria.

Efek Interaksi

Ada keuntungan lain menggunakan analisis varians dibandingkan konvensional T- kriteria: analisis varians memungkinkan kita mendeteksi interaksi antar faktor dan karena itu memungkinkan studi model yang lebih kompleks. Sebagai ilustrasi, perhatikan contoh lain.

Efek utama, interaksi berpasangan (dua faktor). Misalkan terdapat dua kelompok siswa, dan secara psikologis siswa kelompok pertama bertekad menyelesaikan tugas yang diberikan dan lebih memiliki tujuan dibandingkan siswa kelompok kedua yang terdiri dari siswa yang lebih malas. Mari kita bagi setiap kelompok menjadi dua secara acak dan berikan tugas yang sulit kepada separuh dari setiap kelompok dan tugas mudah bagi separuh lainnya. Kami kemudian akan mengukur seberapa keras siswa mengerjakan tugas-tugas ini. Rata-rata untuk penelitian (fiksi) ini ditunjukkan pada tabel:

Kesimpulan apa yang dapat diambil dari hasil ini? Dapat kita simpulkan bahwa: (1) siswa mengerjakan tugas yang kompleks dengan lebih intens; (2) Apakah siswa yang termotivasi bekerja lebih keras dibandingkan siswa yang malas? Tak satu pun dari pernyataan-pernyataan ini menangkap esensi dari sifat sistematis dari cara-cara yang ditunjukkan dalam tabel. Menganalisis hasil, akan lebih tepat untuk mengatakan bahwa hanya siswa yang termotivasi yang bekerja lebih keras pada tugas-tugas sulit, sedangkan hanya siswa malas yang bekerja lebih keras pada tugas-tugas mudah. Dengan kata lain, karakter siswa dan kesulitan tugas berinteraksi saling mempengaruhi terhadap usaha yang dikeluarkan. Itu sebuah contoh interaksi berpasangan antara karakter siswa dan sulitnya tugas. Perhatikan bahwa pernyataan 1 dan 2 menjelaskan efek utama.

Interaksi tingkat tinggi. Meskipun interaksi berpasangan masih relatif mudah dijelaskan, interaksi tingkat tinggi jauh lebih sulit dijelaskan. Mari kita bayangkan bahwa dalam contoh di atas, faktor lain dimasukkan lantai -Jenis kelamin dan kami mendapatkan tabel rata-rata berikut:

Kesimpulan apa yang sekarang dapat diambil dari hasil yang diperoleh? Plot yang berarti memudahkan untuk menafsirkan efek yang kompleks. Modul ANOVA memungkinkan Anda membuat grafik ini hampir dengan satu klik mouse.

Gambar grafik di bawah mewakili interaksi tiga faktor yang sedang dipelajari.

Melihat grafik tersebut, kita dapat mengetahui bahwa bagi perempuan terdapat interaksi antara kepribadian dan kesulitan ujian: perempuan yang termotivasi bekerja lebih keras pada tugas yang sulit daripada tugas yang mudah. Bagi pria, interaksi yang sama terjadi sebaliknya. Terlihat gambaran interaksi antar faktor menjadi semakin membingungkan.

Cara umum untuk menggambarkan interaksi. Secara umum, interaksi antar faktor digambarkan sebagai perubahan suatu efek di bawah pengaruh faktor lain. Dalam contoh yang dibahas di atas, interaksi dua faktor dapat digambarkan sebagai perubahan efek utama dari faktor yang mencirikan kesulitan suatu tugas di bawah pengaruh faktor yang menggambarkan karakter siswa. Untuk interaksi ketiga faktor dari paragraf sebelumnya, kita dapat mengatakan bahwa interaksi dua faktor (kompleksitas tugas dan karakter siswa) berubah di bawah pengaruh jenis kelaminJenis kelamin. Jika kita mempelajari interaksi keempat faktor tersebut, kita dapat mengatakan bahwa interaksi ketiga faktor tersebut berubah di bawah pengaruh faktor keempat, yaitu. Ada berbagai jenis interaksi pada berbagai tingkat faktor keempat. Ternyata di banyak bidang, interaksi lima faktor atau bahkan lebih bukanlah hal yang aneh.

Rencana yang rumit

Desain antar kelompok dan dalam kelompok (desain pengukuran berulang)

Saat membandingkan dua kelompok berbeda, biasanya digunakan T- kriteria untuk sampel independen (dari modul Statistik dan tabel dasar). Ketika dua variabel dibandingkan pada kumpulan objek yang sama (pengamatan), itu digunakan T-kriteria untuk sampel dependen. Untuk analisis varians, penting juga apakah sampelnya bergantung atau tidak. Jika terdapat pengukuran berulang terhadap variabel yang sama (dalam kondisi berbeda atau waktu berbeda) untuk objek yang sama, lalu mereka berbicara tentang kehadiran faktor tindakan berulang(disebut juga faktor intragrup, karena jumlah kuadrat dalam kelompok dihitung untuk menilai signifikansinya). Jika kelompok objek yang berbeda dibandingkan (misalnya, pria dan wanita, tiga strain bakteri, dll.), maka perbedaan antara kelompok tersebut akan dijelaskan. faktor antarkelompok. Metode penghitungan kriteria signifikansi untuk kedua jenis faktor yang dijelaskan berbeda, tetapi logika umum dan interpretasinya sama.

Rencana antar dan intra-grup. Dalam banyak kasus, eksperimen memerlukan penyertaan faktor antar subjek dan faktor pengukuran berulang dalam desain. Misalnya, kemampuan matematika siswa perempuan dan laki-laki diukur (di mana lantai -Jenis kelamin-faktor antarkelompok) pada awal dan akhir semester. Kedua ukuran keterampilan masing-masing siswa membentuk faktor dalam kelompok (faktor pengukuran berulang). Interpretasi dari efek utama dan interaksi antar subjek dan faktor pengukuran berulang adalah konsisten, dan kedua jenis faktor tersebut jelas dapat berinteraksi satu sama lain (misalnya, perempuan memperoleh keterampilan selama satu semester, sementara laki-laki kehilangan keterampilan tersebut).

Rencana yang tidak lengkap (bersarang).

Dalam banyak kasus, efek interaksi dapat diabaikan. Hal ini terjadi baik ketika diketahui bahwa tidak ada efek interaksi dalam populasi, atau ketika implementasi selesai faktorial rencana itu mustahil. Misalnya, pengaruh empat bahan tambahan bahan bakar terhadap konsumsi bahan bakar sedang dipelajari. Empat mobil dan empat pengemudi dipilih. Penuh faktorial percobaan mengharuskan setiap kombinasi: aditif, pengemudi, mobil - muncul setidaknya sekali. Hal ini memerlukan setidaknya 4 x 4 x 4 = 64 kelompok pengujian, yang terlalu memakan waktu. Selain itu, kecil kemungkinannya akan ada interaksi apa pun antara pengemudi dan bahan tambahan bahan bakar. Dengan mempertimbangkan hal ini, Anda dapat menggunakan paket tersebut kotak latin, yang hanya berisi 16 kelompok uji (empat aditif ditandai dengan huruf A, B, C dan D):

Kotak Latin dijelaskan di sebagian besar buku tentang desain eksperimental (misalnya, Hays, 1988; Lindman, 1974; Milliken dan Johnson, 1984; Winer, 1962) dan tidak akan dibahas secara rinci di sini. Perhatikan bahwa kotak Latin adalah BukanNpenuh desain yang tidak mencakup semua kombinasi tingkat faktor. Misalnya pengemudi 1 mengendarai mobil 1 hanya dengan bahan tambahan A, pengemudi 3 mengendarai mobil 1 hanya dengan bahan tambahan C. Kadar faktor bahan tambahan ( A, B, C dan D) bersarang di sel tabel mobil X pengemudi - seperti telur di sarang. Mnemonik ini berguna untuk memahami alam bersarang atau bersarang rencana. Modul Analisis varians memberikan cara sederhana untuk menganalisis jenis rencana ini.

Analisis Kovarian

ide utama

Dalam bab Ide Utama Gagasan tentang pengendalian faktor dan bagaimana penyertaan faktor aditif mengurangi jumlah kesalahan kuadrat dan meningkatkan kekuatan statistik desain dibahas secara singkat. Semua ini dapat diperluas ke variabel dengan serangkaian nilai yang berkesinambungan. Ketika variabel kontinu tersebut dimasukkan sebagai faktor dalam suatu desain, mereka disebut kovariat.

Memperbaiki kovariat

Misalkan kita membandingkan kemampuan matematika dua kelompok siswa yang diajar menggunakan dua buku teks berbeda. Mari kita asumsikan juga bahwa data kecerdasan intelektual (IQ) tersedia untuk setiap siswa. Anda dapat berasumsi bahwa IQ terkait dengan keterampilan matematika dan menggunakan informasi tersebut. Untuk masing-masing dari dua kelompok siswa, koefisien korelasi antara IQ dan kemampuan matematika dapat dihitung. Dengan menggunakan koefisien korelasi ini, kita dapat mengisolasi proporsi varians dalam kelompok yang dijelaskan oleh pengaruh IQ dan proporsi varians yang tidak dapat dijelaskan (lihat juga Konsep dasar statistika(Bab 8) dan Statistik dan tabel dasar(bab 9)). Sisa varians digunakan dalam analisis sebagai varians kesalahan. Jika terdapat korelasi antara IQ dan kemampuan matematika, maka varians kesalahan dapat dikurangi secara signifikan SS/(N-1) .

Dampak kovariat padaF- kriteria. F- kriteria mengevaluasi signifikansi statistik dari perbedaan nilai rata-rata dalam kelompok, dan rasio varians antarkelompok dihitung ( MSmemengaruhi) ke varians kesalahan ( MSkesalahan) . Jika MSkesalahan menurun, misalnya jika memperhitungkan faktor IQ, nilainya F meningkat.

Banyak kovariat. Alasan yang digunakan di atas untuk satu kovariat (IQ) dapat dengan mudah diperluas ke beberapa kovariat. Misalnya, selain IQ, Anda dapat memasukkan pengukuran motivasi, pemikiran spasial, dll. Alih-alih koefisien korelasi biasa, digunakan koefisien korelasi berganda.

Ketika nilainyaF -kriteria menurun. Terkadang memasukkan kovariat ke dalam desain eksperimen mengurangi signifikansinya F-kriteria . Hal ini biasanya menunjukkan bahwa kovariat berkorelasi tidak hanya dengan variabel terikat (misalnya, keterampilan matematika) tetapi juga dengan faktor-faktornya (misalnya, buku teks yang berbeda). Misalkan IQ diukur pada akhir semester, setelah hampir satu tahun mengajar dua kelompok siswa dengan menggunakan dua buku teks yang berbeda. Meskipun siswa dibagi ke dalam kelompok secara acak, mungkin saja perbedaan yang ada di buku teks begitu besar sehingga baik IQ maupun keterampilan matematika akan sangat bervariasi antar kelompok. Dalam hal ini, kovariat tidak hanya mengurangi varian kesalahan tetapi juga varian antar kelompok. Dengan kata lain, setelah mengontrol perbedaan IQ antar kelompok, perbedaan kemampuan matematika tidak lagi signifikan. Anda bisa mengatakannya secara berbeda. Setelah “mengesampingkan” pengaruh IQ, pengaruh buku teks terhadap pengembangan keterampilan matematika secara tidak sengaja dikecualikan.

Rata-rata yang disesuaikan. Ketika suatu kovariat mempengaruhi faktor antar subjek, seseorang harus menghitungnya sarana yang disesuaikan, yaitu. cara-cara yang diperoleh setelah menghapus semua perkiraan kovariat.

Interaksi antara kovariat dan faktor. Sama seperti interaksi antar faktor yang diperiksa, interaksi antara kovariat dan antar kelompok faktor juga dapat diperiksa. Katakanlah salah satu buku teks sangat cocok untuk siswa pintar. Buku teks yang kedua membosankan bagi siswa yang pintar, dan buku teks yang sama sulit bagi siswa yang kurang pintar. Hasilnya, terdapat korelasi positif antara IQ dan hasil belajar pada kelompok pertama (siswa yang lebih pintar, hasil yang lebih baik) dan korelasi negatif nol atau sedikit pada kelompok kedua (semakin pintar seorang siswa, semakin kecil kemungkinannya untuk memperoleh keterampilan matematika. dari buku teks kedua). Beberapa penelitian membahas situasi ini sebagai contoh pelanggaran asumsi analisis kovarians. Namun, karena modul ANOVA menggunakan metode analisis kovarians yang paling umum, maka dimungkinkan, khususnya, untuk mengevaluasi signifikansi statistik dari interaksi antara faktor dan kovariat.

Kovariat variabel

Meskipun kovariat tetap cukup sering dibahas dalam buku teks, kovariat variabel lebih jarang disebutkan. Biasanya, ketika melakukan eksperimen dengan pengukuran berulang, kita tertarik pada perbedaan pengukuran besaran yang sama pada titik waktu yang berbeda. Yakni, kami tertarik pada signifikansi perbedaan-perbedaan ini. Jika kovariat diukur bersamaan dengan pengukuran variabel terikat, maka korelasi antara kovariat dengan variabel terikat dapat dihitung.

Misalnya, minat matematika dan keterampilan matematika bisa dieksplorasi di awal dan akhir semester. Menarik untuk menguji apakah perubahan minat terhadap matematika berkorelasi dengan perubahan keterampilan matematika.

Modul Analisis varians V STATISTIK secara otomatis menilai signifikansi statistik dari perubahan kovariat dalam desain jika memungkinkan.

Desain multivariat: analisis multivariat varians dan kovarians

Rencana antarkelompok

Semua contoh yang dibahas sebelumnya hanya mencakup satu variabel terikat. Ketika terdapat beberapa variabel terikat pada saat yang sama, hanya kompleksitas perhitungannya yang bertambah, tetapi isi dan prinsip dasarnya tidak berubah.

Misalnya, suatu penelitian dilakukan pada dua buku teks yang berbeda. Pada saat yang sama, keberhasilan siswa dalam mempelajari fisika dan matematika dipelajari. Dalam hal ini, terdapat dua variabel terikat dan Anda perlu mengetahui bagaimana dua buku teks yang berbeda mempengaruhinya secara bersamaan. Untuk melakukan ini, Anda dapat menggunakan analisis varians multivariat (MANOVA). Daripada satu dimensi F kriteria, multidimensi digunakan F uji (uji Wilks' l), berdasarkan perbandingan matriks kovarians kesalahan dan matriks kovarians antarkelompok.

Jika variabel terikat berkorelasi satu sama lain, maka korelasi ini harus diperhitungkan saat menghitung kriteria signifikansi. Jelasnya, jika pengukuran yang sama diulang dua kali, maka tidak ada hasil baru yang diperoleh. Jika dimensi yang berkorelasi ditambahkan ke dimensi yang sudah ada, maka diperoleh beberapa informasi baru, tetapi variabel baru tersebut mengandung informasi yang berlebihan, yang tercermin dalam kovarian antar variabel.

Interpretasi hasil. Jika uji multivariat secara keseluruhan signifikan, kita dapat menyimpulkan bahwa pengaruh yang terkait (misalnya, jenis buku teks) adalah signifikan. Namun, pertanyaan-pertanyaan berikut muncul. Apakah jenis buku teks mempengaruhi peningkatan keterampilan matematika saja, keterampilan fisik saja, atau kedua-duanya? Faktanya, setelah memperoleh uji multivariat yang signifikan, uji univariat diperiksa untuk mengetahui pengaruh atau interaksi utama individu. F kriteria. Dengan kata lain, variabel dependen yang berkontribusi terhadap signifikansi uji multivariat diperiksa secara terpisah.

Desain Tindakan Berulang

Apabila kemampuan matematika dan fisika siswa diukur pada awal semester dan pada akhir semester, maka hal tersebut merupakan pengukuran yang berulang. Studi tentang kriteria signifikansi dalam rencana tersebut merupakan pengembangan logis dari kasus satu dimensi. Perhatikan bahwa teknik analisis varians multivariat juga biasa digunakan untuk menguji signifikansi faktor pengukuran berulang univariat yang memiliki lebih dari dua tingkat. Aplikasi terkait akan dibahas nanti di bagian ini.

Penjumlahan nilai variabel dan analisis varians multivariat

Bahkan pengguna analisis varians univariat dan multivariat yang berpengalaman sering kali mengalami kesulitan untuk memperoleh hasil yang berbeda ketika menerapkan analisis varians multivariat, misalnya, pada tiga variabel, dan ketika menerapkan analisis varians univariat pada jumlah ketiga variabel tersebut, seolah-olah itu adalah variabel tunggal.

Ide penjumlahan variabel adalah bahwa setiap variabel mengandung beberapa variabel sebenarnya yang sedang dipelajari, serta kesalahan pengukuran acak. Oleh karena itu, ketika rata-rata nilai variabel, kesalahan pengukuran akan mendekati 0 untuk semua pengukuran dan nilai rata-rata akan lebih dapat diandalkan. Faktanya, dalam kasus ini, menerapkan ANOVA pada jumlah variabel adalah teknik yang masuk akal dan ampuh. Namun, jika variabel terikat bersifat multidimensi, maka penjumlahan nilai variabel tidak tepat.

Misalnya variabel terikat terdiri dari empat indikator kesuksesan di masyarakat. Setiap indikator mencirikan aspek aktivitas manusia yang sepenuhnya independen (misalnya, kesuksesan profesional, kesuksesan dalam bisnis, kesejahteraan keluarga, dll.). Menambahkan variabel-variabel ini seperti menambahkan apel dan jeruk. Jumlah variabel-variabel ini bukanlah ukuran unidimensi yang tepat. Oleh karena itu, data tersebut harus diperlakukan sebagai indikator multidimensi analisis varians multivariat.

Analisis kontras dan tes post hoc

Mengapa kumpulan rata-rata yang terpisah dibandingkan?

Biasanya, hipotesis tentang data eksperimen dirumuskan tidak hanya dalam kaitannya dengan efek atau interaksi utama. Contohnya adalah hipotesis ini: buku teks tertentu meningkatkan keterampilan matematika hanya pada siswa laki-laki, sedangkan buku teks lain kira-kira sama efektifnya untuk kedua jenis kelamin, namun masih kurang efektif untuk siswa laki-laki. Dapat diprediksi bahwa efektivitas buku teks berinteraksi dengan gender siswa. Namun perkiraan ini juga berlaku alam interaksi. Perbedaan yang signifikan antara gender diharapkan terjadi pada siswa yang menggunakan satu buku dan hasil yang hampir independen berdasarkan gender bagi siswa yang menggunakan buku lainnya. Hipotesis jenis ini biasanya diperiksa dengan menggunakan analisis kontras.

Analisis Kontras

Singkatnya, analisis kontras memungkinkan seseorang untuk mengevaluasi signifikansi statistik dari kombinasi linier tertentu dari efek kompleks. Analisis kontras adalah elemen utama dan wajib dari setiap rencana ANOVA yang kompleks. Modul Analisis varians memiliki cukup beragam kemampuan analisis kontras yang memungkinkan Anda mengisolasi dan menganalisis segala jenis perbandingan sarana.

Sebuah posteriori perbandingan

Terkadang, sebagai hasil pemrosesan suatu eksperimen, ditemukan efek yang tidak terduga. Meskipun dalam banyak kasus, seorang peneliti kreatif akan mampu menjelaskan hasil apa pun, hal ini tidak memungkinkan dilakukannya analisis dan estimasi lebih lanjut untuk prediksi. Masalah ini adalah salah satu masalah yang perlu diatasi kriteria a posteriori, yaitu kriteria yang tidak digunakan secara apriori hipotesis. Sebagai ilustrasi, perhatikan percobaan berikut. Misalkan ada 100 kartu yang berisi angka 1 sampai 10. Letakkan semua kartu tersebut dalam satu header, kita pilih 5 kartu secara acak sebanyak 20 kali, dan hitung nilai rata-rata (rata-rata angka yang tertulis pada kartu) untuk setiap sampel. Dapatkah Anda mengharapkan bahwa akan ada dua sampel yang rata-ratanya berbeda secara signifikan? Ini sangat masuk akal! Dengan memilih dua sampel yang mempunyai mean maksimum dan minimum, diperoleh selisih mean yang sangat berbeda dengan selisih mean, misalnya pada dua sampel pertama. Perbedaan ini dapat dieksplorasi, misalnya dengan menggunakan analisis kontras. Tanpa merinci lebih lanjut, ada beberapa yang disebut sebuah posteriori kriteria yang didasarkan tepat pada skenario pertama (mengambil mean ekstrim dari 20 sampel), yaitu kriteria ini didasarkan pada pemilihan mean yang paling berbeda untuk membandingkan semua mean dalam desain. Kriteria ini digunakan untuk memastikan bahwa efek artifisial tidak diperoleh semata-mata secara kebetulan, misalnya untuk mendeteksi perbedaan signifikan antar rata-rata padahal sebenarnya tidak ada. Modul Analisis varians menawarkan berbagai kriteria tersebut. Ketika hasil yang tidak diharapkan ditemui dalam percobaan yang melibatkan beberapa kelompok, maka sebuah posteriori prosedur untuk memeriksa signifikansi statistik dari hasil yang diperoleh.

Jumlah kuadrat tipe I, II, III dan IV

Regresi multivariat dan analisis varians

Terdapat hubungan yang erat antara metode regresi multivariat dengan analisis varians (analisis varians). Dalam kedua metode tersebut, model linier dipelajari. Singkatnya, hampir semua desain eksperimen dapat diperiksa menggunakan regresi multivariat. Perhatikan desain sederhana antarkelompok 2 x 2 berikut.

D.V. A B AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

Kolom A dan B berisi kode yang mencirikan tingkat faktor A dan B, kolom AxB berisi produk dari dua kolom A dan B. Data ini dapat kita analisis menggunakan regresi multivariat. Variabel D.V. didefinisikan sebagai variabel terikat, variabel dari A sebelum AxB sebagai variabel independen. Kajian signifikansi koefisien regresi akan bertepatan dengan perhitungan dalam analisis varians signifikansi pengaruh utama faktor-faktor tersebut. A Dan B dan efek interaksi AxB.

Rencana yang tidak seimbang dan seimbang

Saat menghitung matriks korelasi untuk semua variabel, seperti data yang digambarkan di atas, Anda akan melihat pengaruh utama dari faktor-faktor tersebut A Dan B dan efek interaksi AxB tidak berkorelasi. Sifat efek ini juga disebut ortogonalitas. Mereka mengatakan dampaknya A Dan B - ortogonal atau mandiri dari satu orang ke orang lainnya. Jika semua efek dalam suatu denah saling ortogonal, seperti pada contoh di atas, maka denah tersebut dikatakan seimbang.

Rencana yang seimbang memiliki “properti yang baik.” Perhitungan untuk menganalisis rencana tersebut sangat sederhana. Semua perhitungan direduksi menjadi perhitungan korelasi antara pengaruh dan variabel terikat. Karena efeknya ortogonal, korelasi parsial (seperti keseluruhan multidimensi regresi) tidak dihitung. Namun, dalam kehidupan nyata, rencana tidak selalu seimbang.

Mari kita pertimbangkan data nyata dengan jumlah observasi dalam sel yang tidak sama.

Faktor A Faktor B
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Jika kita mengkodekan data ini seperti di atas dan menghitung matriks korelasi untuk semua variabel, kita menemukan bahwa faktor desain berkorelasi satu sama lain. Faktor-faktor dalam suatu rencana tidak lagi ortogonal dan rencana seperti itu disebut tidak seimbang. Perhatikan bahwa dalam contoh yang dipertimbangkan, korelasi antar faktor sepenuhnya disebabkan oleh perbedaan frekuensi 1 dan -1 pada kolom matriks data. Dengan kata lain, desain eksperimen dengan volume sel yang tidak sama (lebih tepatnya, volume yang tidak proporsional) akan menjadi tidak seimbang, artinya efek utama dan interaksi akan menjadi kacau. Dalam hal ini, regresi multivariat penuh harus dihitung untuk menghitung signifikansi statistik dari pengaruhnya. Ada beberapa strategi di sini.

Jumlah kuadrat tipe I, II, III dan IV

Jenis jumlah kuadratSAYADanAKU AKU AKU. Untuk menguji signifikansi setiap faktor dalam model multivariat, korelasi parsial setiap faktor dapat dihitung, asalkan semua faktor lainnya sudah diperhitungkan dalam model. Anda juga dapat memasukkan faktor-faktor ke dalam model secara langkah demi langkah, menangkap semua faktor yang sudah dimasukkan ke dalam model dan mengabaikan semua faktor lainnya. Secara umum, inilah perbedaannya jenis AKU AKU AKU Dan jenisSAYA jumlah kuadrat (terminologi ini diperkenalkan di SAS, lihat, misalnya, SAS, 1982; pembahasan rinci juga dapat ditemukan di Searle, 1987, hal. 461; Woodward, Bonett, dan Brecht, 1990, hal. 216; atau Milliken dan Johnson, 1984, hal.138).

Jenis jumlah kuadratII. Strategi pembentukan model “menengah” berikutnya terdiri dari: mengendalikan semua efek utama ketika memeriksa signifikansi dari satu efek utama; dalam mengendalikan semua efek utama dan semua interaksi berpasangan ketika memeriksa pentingnya interaksi berpasangan individu; dalam mengendalikan semua efek utama dari semua interaksi berpasangan dan semua interaksi ketiga faktor; ketika mempelajari interaksi individu dari tiga faktor, dll. Jumlah kuadrat efek yang dihitung dengan cara ini disebut jenisII jumlah kotak. Jadi, jenisII jumlah kuadrat mengontrol semua efek dengan urutan yang sama dan lebih rendah, sambil mengabaikan semua efek dengan urutan lebih tinggi.

Jenis jumlah kuadratIV. Terakhir, untuk beberapa rencana khusus dengan sel yang hilang (rencana tidak lengkap), dimungkinkan untuk menghitung apa yang disebut jenis IV jumlah kotak. Cara ini akan dibahas kemudian sehubungan dengan desain yang tidak lengkap (desain dengan sel yang hilang).

Interpretasi hipotesis jumlah kuadrat tipe I, II, dan III

Jumlah kuadrat jenisAKU AKU AKU paling mudah untuk ditafsirkan. Ingatlah bahwa jumlah kuadrat jenisAKU AKU AKU memeriksa efek setelah mengendalikan semua efek lainnya. Misalnya, setelah menemukan signifikansi secara statistik jenisAKU AKU AKU efek untuk faktor A dalam modul Analisis varians, kita dapat mengatakan bahwa terdapat satu pengaruh signifikan dari faktor tersebut A, setelah memperkenalkan semua efek (faktor) lainnya dan menafsirkan efek ini sesuai dengan itu. Mungkin pada 99% dari seluruh penerapan ANOVA, jenis pengujian inilah yang menarik perhatian peneliti. Jenis jumlah kuadrat ini biasanya dihitung dalam modulo Analisis varians secara default, terlepas dari apakah opsi tersebut dipilih Pendekatan regresi atau tidak (pendekatan standar yang diadopsi dalam modul Analisis varians didiskusikan di bawah).

Efek signifikan diperoleh dengan menggunakan jumlah kuadrat jenis atau jenisII jumlah kuadrat tidak begitu mudah untuk ditafsirkan. Hal ini paling baik diinterpretasikan dalam konteks regresi multivariat bertahap. Jika, saat menggunakan jumlah kuadrat jenisSAYA pengaruh utama faktor B adalah signifikan (setelah faktor A dimasukkan ke dalam model, tetapi sebelum ditambahkan interaksi antara A dan B), dapat disimpulkan bahwa terdapat pengaruh utama faktor B yang signifikan, dengan ketentuan tidak ada interaksi. antara faktor A dan B. (Jika menggunakan kriteria jenisAKU AKU AKU, faktor B juga ternyata signifikan, maka kita dapat menyimpulkan bahwa terdapat pengaruh utama yang signifikan dari faktor B, setelah semua faktor lain dan interaksinya dimasukkan ke dalam model).

Dari segi marjinal berarti hipotesis jenisSAYA Dan jenisII biasanya tidak memiliki interpretasi yang sederhana. Dalam kasus ini, dikatakan bahwa seseorang tidak dapat menafsirkan signifikansi dampak hanya dengan melihat pada sarana marjinal. Agak disajikan P mean terkait dengan hipotesis kompleks yang menggabungkan mean dan ukuran sampel. Misalnya, jenisII hipotesis untuk faktor A dalam contoh sederhana desain 2 x 2 yang dibahas sebelumnya adalah (lihat Woodward, Bonett, dan Brecht, 1990, hal. 219):

nih- jumlah observasi dalam sel

uij- nilai rata-rata dalam sel

N. J- rata-rata marjinal

Tanpa membahas terlalu banyak detail (untuk lebih jelasnya, lihat Milliken dan Johnson, 1984, Bab 10), jelas bahwa ini bukanlah hipotesis sederhana dan dalam banyak kasus tidak ada satupun yang menarik perhatian peneliti. Namun, ada kalanya hipotesis jenisSAYA mungkin menarik.

Pendekatan komputasi default dalam modul Analisis varians

Default jika opsi tidak dicentang Pendekatan regresi, modul Analisis varians kegunaan model rata-rata sel. Ciri khas model ini adalah jumlah kuadrat untuk efek yang berbeda dihitung untuk kombinasi linier rata-rata sel. Dalam percobaan faktorial penuh, hasilnya adalah jumlah kuadrat yang sama dengan jumlah kuadrat yang dibahas sebelumnya sebagai jenis AKU AKU AKU. Namun, dalam pilihan Perbandingan yang direncanakan(di jendela hasil ANOVA), pengguna dapat menguji hipotesis terhadap kombinasi linear rata-rata sel berbobot atau tidak berbobot. Dengan demikian, pengguna tidak hanya dapat menguji hipotesis jenisAKU AKU AKU, tetapi hipotesis jenis apa pun (termasuk jenisIV). Pendekatan umum ini sangat berguna ketika memeriksa desain dengan sel yang hilang (disebut desain tidak lengkap).

Untuk desain faktorial penuh, pendekatan ini juga berguna ketika seseorang ingin menganalisis rata-rata marjinal tertimbang. Misalnya, dalam desain sederhana 2 x 2 yang dibahas sebelumnya, kita perlu membandingkan bobot (berdasarkan tingkat faktor B) rata-rata marjinal untuk faktor A. Hal ini berguna ketika distribusi observasi antar sel tidak disiapkan oleh pelaku eksperimen, namun dibuat secara acak, dan keacakan ini tercermin dalam distribusi jumlah observasi antar level faktor B dalam agregat.

Misalnya ada faktor usia janda. Kemungkinan sampel responden dibagi menjadi dua kelompok: berusia di bawah 40 tahun dan di atas 40 tahun (faktor B). Faktor kedua (Faktor A) dalam rencana tersebut adalah apakah para janda menerima dukungan sosial dari suatu lembaga atau tidak (beberapa janda dipilih secara acak, yang lain bertindak sebagai kontrol). Dalam hal ini, sebaran janda menurut umur dalam sampel mencerminkan sebaran sebenarnya janda menurut umur dalam populasi. Menilai efektivitas kelompok dukungan sosial bagi para janda semua umur akan sesuai dengan rata-rata tertimbang untuk dua kelompok umur (dengan bobot sesuai dengan jumlah observasi dalam kelompok).

Perbandingan yang direncanakan

Perhatikan bahwa jumlah koefisien kontras yang dimasukkan belum tentu sama dengan 0 (nol). Sebaliknya, program akan secara otomatis melakukan penyesuaian untuk memastikan bahwa hipotesis yang bersangkutan tidak tertukar dengan rata-rata keseluruhan.

Untuk mengilustrasikannya, mari kita kembali ke denah sederhana 2 x 2 yang telah dibahas sebelumnya. Ingatlah bahwa jumlah pengamatan dalam sel dengan desain tidak seimbang ini adalah -1, 2, 3, dan 1. Misalkan kita ingin membandingkan rata-rata marjinal tertimbang untuk faktor A (ditimbang berdasarkan frekuensi tingkat faktor B). Anda dapat memasukkan koefisien kontras:

Perhatikan bahwa koefisien-koefisien ini tidak berjumlah 0. Program akan mengatur koefisien-koefisien tersebut sehingga berjumlah 0, dan nilai relatifnya akan dipertahankan, yaitu:

1/3 2/3 -3/4 -1/4

Perbedaan ini akan membandingkan rata-rata tertimbang untuk Faktor A.

Hipotesis tentang rata-rata utama. Hipotesis bahwa mean utama tidak tertimbang adalah 0 dapat dieksplorasi dengan menggunakan koefisien:

Hipotesis bahwa mean utama tertimbang adalah 0 diuji dengan menggunakan:

Program ini tidak akan menyesuaikan rasio kontras.

Analisis rencana dengan sel yang hilang (rencana tidak lengkap)

Desain faktorial yang mengandung sel kosong (memproses kombinasi sel yang tidak memiliki observasi) disebut tidak lengkap. Dalam desain seperti ini, beberapa faktor biasanya tidak ortogonal dan beberapa interaksi tidak dapat dihitung. Umumnya tidak ada metode yang lebih baik untuk menganalisis rencana tersebut.

Pendekatan regresi

Dalam beberapa program lama yang mengandalkan analisis desain ANOVA menggunakan regresi multivariat, faktor-faktor dalam desain yang tidak lengkap ditentukan secara default seperti biasa (seolah-olah desain sudah selesai). Analisis regresi multivariat kemudian dilakukan terhadap faktor-faktor yang diberi kode dummy ini. Sayangnya, metode ini memberikan hasil yang sangat sulit, bahkan tidak mungkin, untuk diinterpretasikan karena tidak jelas bagaimana setiap efek berkontribusi terhadap kombinasi rata-rata linier. Perhatikan contoh sederhana berikut ini.

Faktor A Faktor B
B1 B2
A1 3 4, 5
A2 6, 6, 7 Dirindukan

Jika kita melakukan regresi multivariat pada formulir Variabel Tak Terikat = Konstanta + Faktor A + Faktor B, maka hipotesis tentang signifikansi faktor A dan B ditinjau dari kombinasi mean linier terlihat seperti ini:

Faktor A: Sel A1,B1 = Sel A2,B1

Faktor B: Sel A1,B1 = Sel A1,B2

Kasus ini sederhana. Dalam desain yang lebih kompleks, tidak mungkin untuk menentukan secara pasti apa yang akan diperiksa.

Artinya sel, pendekatan ANOVA , Hipotesis tipe IV

Pendekatan yang direkomendasikan dalam literatur dan tampaknya lebih disukai adalah mempelajari secara bermakna (dalam kaitannya dengan pertanyaan penelitian) secara apriori hipotesis tentang cara yang diamati dalam sel rencana. Pembahasan rinci mengenai pendekatan ini dapat ditemukan dalam Dodge (1985), Heiberger (1989), Milliken dan Johnson (1984), Searle (1987), atau Woodward, Bonett, dan Brecht (1990). Jumlah kuadrat yang diasosiasikan dengan hipotesis tentang kombinasi linier rata-rata dalam desain tidak lengkap yang menguji estimasi sebagian efek juga disebut jumlah kuadrat IV.

Pembuatan hipotesis tipe secara otomatisIV. Ketika desain multivariat memiliki pola sel hilang yang kompleks, maka diinginkan untuk mendefinisikan hipotesis ortogonal (independen), yang studinya setara dengan studi tentang efek atau interaksi utama. Strategi algoritmik (komputasi) (berdasarkan matriks desain pseudo-invers) telah dikembangkan untuk menghasilkan bobot yang sesuai untuk perbandingan tersebut. Sayangnya, hipotesis akhir tidak didefinisikan secara unik. Tentu saja, hal ini bergantung pada urutan efek yang diidentifikasi dan jarang memungkinkan interpretasi yang sederhana. Oleh karena itu, disarankan untuk mempelajari secara cermat sifat sel yang hilang, kemudian merumuskan hipotesis jenisIV, yang paling sesuai dengan tujuan penelitian. Kemudian jelajahi hipotesis ini menggunakan opsi Perbandingan yang direncanakan di jendela hasil. Cara termudah untuk menentukan perbandingan dalam kasus ini adalah dengan mewajibkan pengenalan vektor kontras untuk semua faktor bersama di jendela Perbandingan yang direncanakan. Setelah memanggil kotak dialog Perbandingan yang direncanakan Semua grup dalam rencana saat ini akan ditampilkan dan grup yang hilang akan ditandai.

Sel hilang dan pengujian untuk efek spesifik

Ada beberapa jenis desain di mana lokasi sel yang hilang tidak acak, namun direncanakan dengan cermat, memungkinkan analisis sederhana dari efek utama tanpa mempengaruhi efek lainnya. Misalnya, ketika jumlah sel yang diperlukan dalam suatu rencana tidak tersedia, rencana sering kali digunakan kotak latin untuk memperkirakan efek utama dari beberapa faktor dengan jumlah level yang banyak. Misalnya, desain faktorial 4 x 4 x 4 x 4 membutuhkan 256 sel. Pada saat yang sama Anda dapat menggunakannya Alun-alun Yunani-Latin untuk memperkirakan efek utama dengan hanya 16 sel dalam desain (Bab Perencanaan percobaan, Volume IV, berisi penjelasan rinci tentang rencana tersebut). Desain tidak lengkap di mana efek utama (dan beberapa interaksi) dapat diperkirakan menggunakan kombinasi cara linier sederhana disebut rencana yang tidak lengkap dan seimbang.

Dalam desain yang seimbang, metode standar (default) yang menghasilkan kontras (bobot) untuk efek utama dan interaksi kemudian akan menghasilkan tabel analisis varians di mana jumlah kuadrat untuk masing-masing efek tidak tercampur satu sama lain. Pilihan Efek spesifik jendela hasil akan menghasilkan kontras yang hilang dengan menulis angka nol pada sel bidang yang hilang. Segera setelah opsi diminta Efek spesifik untuk pengguna yang memeriksa beberapa hipotesis, tabel hasil muncul dengan bobot sebenarnya. Perhatikan bahwa dalam desain yang seimbang, jumlah kuadrat dari efek yang bersesuaian dihitung hanya jika efek tersebut ortogonal (independen) terhadap semua efek dan interaksi utama lainnya. Jika tidak, Anda perlu menggunakan opsi ini Perbandingan yang direncanakan untuk mengeksplorasi perbandingan yang bermakna antara cara.

Sel yang hilang dan istilah efek/kesalahan yang dikumpulkan

Jika pilihan Pendekatan regresi di panel mulai modul Analisis varians tidak dipilih, model rata-rata sel akan digunakan saat menghitung jumlah kuadrat untuk efek (pengaturan default). Jika desainnya tidak seimbang, maka saat menggabungkan efek non-ortogonal (lihat pembahasan opsi di atas Sel yang hilang dan efek spesifiknya) seseorang dapat memperoleh jumlah kuadrat yang terdiri dari komponen-komponen non-ortogonal (atau tumpang tindih). Hasil yang diperoleh biasanya tidak dapat diinterpretasikan. Oleh karena itu, seseorang harus sangat berhati-hati ketika memilih dan menerapkan desain eksperimen kompleks yang tidak lengkap.

Ada banyak buku dengan pembahasan rinci tentang berbagai jenis rencana. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken dan Johnson, 1984; Searle, 1987; Woodward dan Bonett, 1990), namun jenis informasi ini berada di luar cakupan buku teks ini. Namun, analisis berbagai jenis rencana akan ditunjukkan nanti di bagian ini.

Asumsi dan dampak dari pelanggaran asumsi

Penyimpangan dari asumsi distribusi normal

Misalkan variabel terikat diukur pada skala numerik. Mari kita asumsikan juga bahwa variabel terikat terdistribusi normal dalam setiap kelompok. Analisis varians berisi berbagai grafik dan statistik untuk mendukung asumsi ini.

Dampak gangguan. Sama sekali F tes ini sangat kuat terhadap penyimpangan dari normalitas (untuk hasil rinci, lihat Lindman, 1974). Jika kurtosis lebih besar dari 0, maka nilai statistiknya adalah F mungkin menjadi sangat kecil. Hipotesis nol diterima, meskipun mungkin tidak benar. Situasinya sebaliknya bila kurtosis kurang dari 0. Kemiringan distribusi biasanya mempunyai pengaruh yang kecil F statistik. Jika jumlah observasi dalam suatu sel cukup besar, maka penyimpangan dari normalitas tidak terlalu signifikan karena teorema limit pusat, yang menurutnya distribusi nilai rata-rata mendekati normal, apapun distribusi awalnya. Diskusi rinci tentang keberlanjutan F statistik dapat ditemukan dalam Box dan Anderson (1955), atau Lindman (1974).

Keseragaman varians

Asumsi. Diasumsikan bahwa varians dari kelompok desain yang berbeda adalah sama. Asumsi ini disebut asumsi homogenitas varians. Ingatlah bahwa di awal bagian ini, ketika menjelaskan perhitungan jumlah kesalahan kuadrat, kami melakukan penjumlahan dalam setiap kelompok. Jika varians dalam dua kelompok berbeda satu sama lain, maka menjumlahkannya sangatlah tidak wajar dan tidak memberikan perkiraan total varians dalam kelompok (karena dalam kasus ini tidak ada varians total sama sekali). Modul Analisis varians -ANOVA/MANOVA berisi sekumpulan besar kriteria statistik untuk mendeteksi penyimpangan dari asumsi homogenitas varians.

Dampak gangguan. Lindman (1974, p. 33) menunjukkan hal itu F kriterianya cukup stabil terhadap pelanggaran asumsi homogenitas varians ( heterogenitas varians, lihat juga Box, 1954a, 1954b; Hsu, 1938).

Kasus khusus: korelasi mean dan varians. Ada kalanya F statistik bisa menyesatkan. Hal ini terjadi ketika rata-rata sel desain dikorelasikan dengan varians. Modul Analisis varians memungkinkan Anda memplot plot sebar varians atau deviasi standar terhadap mean untuk mendeteksi korelasi tersebut. Alasan mengapa korelasi ini berbahaya adalah sebagai berikut. Bayangkan ada 8 sel dalam denah, 7 di antaranya memiliki rata-rata yang hampir sama, dan dalam satu sel rata-ratanya jauh lebih tinggi daripada sel lainnya. Kemudian F tes ini dapat mendeteksi efek yang signifikan secara statistik. Namun misalkan dalam sel dengan nilai rata-rata yang besar, variansnya jauh lebih besar dibandingkan sel lainnya, yaitu. nilai rata-rata dan varians dalam sel bergantung (semakin tinggi rata-rata, semakin besar variansnya). Dalam hal ini, rata-rata yang besar tidak dapat diandalkan karena mungkin disebabkan oleh varians data yang besar. Namun F statistik berdasarkan serikat varians dalam sel akan menangkap mean keseluruhan, meskipun pengujian berdasarkan varians dalam setiap sel tidak akan menganggap semua perbedaan mean sebagai signifikan.

Jenis data seperti ini (rata-rata besar dan varians besar) sering terjadi ketika terdapat observasi outlier. Satu atau dua observasi outlier sangat menggeser mean dan meningkatkan varians secara signifikan.

Homogenitas Varians dan Kovarian

Asumsi. Desain multivariat dengan ukuran ketergantungan multivariat juga menerapkan asumsi homogenitas varians yang dijelaskan sebelumnya. Namun, karena terdapat variabel dependen multivariat, korelasi silang (kovarians) juga harus seragam di seluruh sel desain. Modul Analisis varians menawarkan cara berbeda untuk menguji asumsi ini.

Dampak gangguan. Analog multidimensi F- kriteria - uji Wilks. Tidak banyak yang diketahui tentang kekokohan uji Wilks λ sehubungan dengan pelanggaran asumsi di atas. Namun sejak interpretasi hasil modul Analisis varians biasanya didasarkan pada signifikansi efek univariat (setelah menetapkan signifikansi kriteria umum), pembahasan tentang ketahanan terutama menyangkut analisis varians univariat. Oleh karena itu, pentingnya efek univariat harus diperiksa secara cermat.

Kasus khusus: analisis kovarians. Pelanggaran yang sangat parah terhadap homogenitas varians/kovarians dapat terjadi ketika kovariat dimasukkan dalam desain. Khususnya, jika korelasi antara kovariat dan ukuran dependen berbeda-beda antar sel dalam desain, salah tafsir atas hasil dapat terjadi. Ingatlah bahwa analisis kovarians pada dasarnya melakukan analisis regresi dalam setiap sel untuk mengisolasi bagian varians yang ditentukan oleh kovariat. Asumsi homogenitas varians/kovarians mengasumsikan bahwa analisis regresi ini dilakukan dengan batasan berikut: semua persamaan regresi (kemiringan) untuk semua sel adalah sama. Jika hal ini tidak diasumsikan, maka kesalahan besar mungkin muncul. Modul Analisis varians memiliki beberapa kriteria khusus untuk menguji asumsi tersebut. Disarankan untuk menggunakan kriteria ini untuk memastikan bahwa persamaan regresi untuk sel yang berbeda kira-kira sama.

Kebulatan dan simetri kompleks: alasan menggunakan pendekatan multivariat untuk pengukuran berulang dalam analisis varians

Dalam desain yang mengandung faktor pengukuran berulang dengan lebih dari dua level, penggunaan ANOVA univariat memerlukan asumsi tambahan: asumsi simetri majemuk dan asumsi kebulatan. Asumsi ini jarang terpenuhi (lihat di bawah). Oleh karena itu, dalam beberapa tahun terakhir, analisis varians multivariat telah mendapatkan popularitas dalam desain tersebut (kedua pendekatan digabungkan dalam modul Analisis varians).

Asumsi simetri kompleks Asumsi simetri majemuk adalah bahwa varians (dibagi dalam kelompok) dan kovarians (dibagi dalam kelompok) untuk pengukuran berulang yang berbeda adalah homogen (sama). Ini adalah kondisi yang cukup untuk uji F univariat agar pengukuran berulang menjadi valid (yaitu, nilai F yang dilaporkan rata-rata konsisten dengan distribusi F). Namun, dalam hal ini kondisi tersebut tidak diperlukan.

Asumsi kebulatan. Asumsi kebulatan merupakan syarat perlu dan cukup agar uji F valid. Terdiri dari kenyataan bahwa dalam kelompok semua observasi bersifat independen dan terdistribusi secara merata. Sifat asumsi-asumsi ini, dan dampak pelanggarannya, biasanya tidak dijelaskan dengan baik dalam buku-buku tentang ANOVA - hal ini akan dibahas dalam paragraf berikut. Juga akan ditunjukkan bahwa hasil pendekatan univariat mungkin berbeda dengan hasil pendekatan multivariat, dan akan dijelaskan apa maksudnya.

Perlunya independensi hipotesis. Cara umum menganalisis data di ANOVA adalah pemasangan model. Jika dibandingkan dengan model yang sesuai dengan data, ada beberapa secara apriori hipotesis, kemudian varians dibagi untuk menguji hipotesis tersebut (kriteria efek utama, interaksi). Dari sudut pandang komputasi, pendekatan ini menghasilkan serangkaian kontras (seperangkat perbandingan rata-rata rencana). Akan tetapi, jika kontras-kontras tersebut tidak independen satu sama lain, maka pembagian varians menjadi tidak ada artinya. Misalnya saja ada dua hal yang kontras A Dan B identik dan bagian varians yang bersesuaian diekstraksi, kemudian bagian yang sama diekstraksi dua kali. Misalnya, adalah bodoh dan tidak ada gunanya mengidentifikasi dua hipotesis: “rata-rata di sel 1 lebih tinggi daripada rata-rata di sel 2” dan “rata-rata di sel 1 lebih tinggi daripada rata-rata di sel 2”. Jadi hipotesisnya harus independen atau ortogonal.

Hipotesis independen dalam pengukuran berulang. Algoritma umum diimplementasikan dalam modul Analisis varians, akan mencoba menghasilkan kontras independen (ortogonal) untuk setiap efek. Untuk faktor pengukuran berulang, perbedaan ini memberikan banyak hipotesis mengenai hal ini perbedaan antara tingkat faktor yang dipertimbangkan. Namun, jika perbedaan-perbedaan ini dikorelasikan dalam kelompok, maka perbedaan yang dihasilkan tidak lagi independen. Misalnya, dalam pengajaran di mana siswa diukur tiga kali dalam satu semester, mungkin terjadi bahwa perubahan antara pengukuran pertama dan kedua berkorelasi negatif dengan perubahan antara pengukuran mata pelajaran kedua dan ketiga. Mereka yang menguasai sebagian besar materi antara dimensi 1 dan 2 menguasai sebagian kecil materi selama waktu yang berlalu antara dimensi 2 dan 3. Faktanya, untuk sebagian besar kasus di mana ANOVA digunakan untuk pengukuran berulang, perubahan antar tingkat dapat diasumsikan berkorelasi antar subjek. Namun, jika hal ini terjadi, asumsi simetri kompleks dan asumsi kebulatan tidak berlaku dan kontras independen tidak dapat dihitung.

Dampak pelanggaran dan cara memperbaikinya. Jika asumsi simetri atau kebulatan kompleks tidak terpenuhi, ANOVA dapat memberikan hasil yang salah. Sebelum prosedur multivariat cukup dikembangkan, beberapa asumsi diajukan untuk mengkompensasi pelanggaran asumsi tersebut. (Lihat, misalnya, Greenhouse & Geisser, 1959 dan Huynh & Feldt, 1970). Metode-metode ini masih digunakan secara luas (itulah sebabnya metode ini disajikan dalam modul Analisis varians).

Analisis multivariat dari pendekatan varians terhadap pengukuran berulang. Secara umum, masalah simetri dan kebulatan kompleks berkaitan dengan fakta bahwa kumpulan kontras yang termasuk dalam studi tentang pengaruh faktor pengukuran berulang (dengan lebih dari 2 level) tidak independen satu sama lain. Namun, mereka tidak perlu mandiri jika digunakan multidimensi tes untuk secara bersamaan menguji signifikansi statistik dari dua atau lebih perbedaan faktor pengukuran yang berulang. Inilah alasan mengapa teknik analisis varians multivariat semakin banyak digunakan untuk menguji signifikansi faktor pengukuran berulang univariat dengan lebih dari 2 level. Pendekatan ini diterima secara luas karena umumnya tidak memerlukan simetri atau kebulatan yang rumit.

Kasus di mana pendekatan analisis varians multivariat tidak dapat digunakan. Ada contoh (desain) di mana pendekatan analisis varians multivariat tidak dapat diterapkan. Hal ini biasanya terjadi ketika terdapat sejumlah kecil subjek dalam desain dan banyak tingkatan dalam faktor pengukuran berulang. Mungkin terdapat terlalu sedikit pengamatan untuk melakukan analisis multivariat. Misalnya, jika ada 12 mata pelajaran, P = 4 faktor pengukuran berulang, dan masing-masing faktor memiliki k = 3 tingkat. Maka interaksi 4 faktor tersebut akan “memakan” (k-1)Hal = 2 4 = 16 derajat kebebasan. Namun subjeknya hanya 12, sehingga pengujian multivariat tidak dapat dilakukan pada contoh ini. Modul Analisis varians akan secara mandiri mendeteksi pengamatan ini dan hanya menghitung kriteria satu dimensi.

Perbedaan hasil univariat dan multivariat. Jika suatu penelitian melibatkan sejumlah besar pengukuran berulang, mungkin ada kasus di mana pendekatan ANOVA pengukuran berulang univariat menghasilkan hasil yang sangat berbeda dari yang diperoleh dengan pendekatan multivariat. Ini berarti bahwa perbedaan antara tingkat pengukuran berulang berkorelasi antar subjek. Terkadang fakta ini mempunyai kepentingan tersendiri.

Analisis multivariat varians dan pemodelan persamaan struktural

Dalam beberapa tahun terakhir, pemodelan persamaan struktural telah menjadi populer sebagai alternatif terhadap analisis varians multivariat (lihat, misalnya, Bagozzi dan Yi, 1989; Bagozzi, Yi, dan Singh, 1991; Cole, Maxwell, Arvey, dan Salas, 1993) . Pendekatan ini memungkinkan pengujian hipotesis tidak hanya tentang rata-rata dalam kelompok yang berbeda, tetapi juga tentang matriks korelasi variabel terikat. Misalnya, seseorang dapat melonggarkan asumsi homogenitas varians dan kovarians dan secara eksplisit memasukkan varians kesalahan dan kovarians dalam model untuk setiap kelompok. Modul STATISTIKPemodelan Persamaan Struktural (SEPATH) (lihat Volume III) memungkinkan dilakukannya analisis semacam itu.

Penggunaan statistik dalam catatan ini akan diilustrasikan dengan contoh lintas sektoral. Katakanlah Anda adalah manajer produksi di Perfect Parachute. Parasut tersebut terbuat dari serat sintetis yang dipasok oleh empat pemasok berbeda. Salah satu ciri utama parasut adalah kekuatannya. Anda perlu memastikan bahwa semua serat yang dipasok memiliki kekuatan yang sama. Untuk menjawab pertanyaan ini, desain eksperimental harus dirancang untuk mengukur kekuatan parasut yang ditenun dari serat sintetis dari pemasok berbeda. Informasi yang diperoleh dari percobaan ini akan menentukan pemasok mana yang menyediakan parasut paling tahan lama.

Banyak penerapan yang melibatkan eksperimen yang mempertimbangkan beberapa kelompok atau tingkat dari satu faktor. Beberapa faktor, seperti suhu pembakaran keramik, mungkin memiliki beberapa tingkat numerik (misalnya 300°, 350°, 400°, dan 450°). Faktor lain, seperti lokasi barang di supermarket, mungkin memiliki tingkatan kategoris (misalnya pemasok pertama, pemasok kedua, pemasok ketiga, pemasok keempat). Eksperimen faktor tunggal di mana unit eksperimen ditetapkan secara acak ke dalam kelompok atau tingkat faktor disebut acak lengkap.

PenggunaanF-kriteria untuk menilai perbedaan antara beberapa ekspektasi matematis

Jika pengukuran numerik faktor dalam kelompok bersifat kontinu dan beberapa kondisi tambahan terpenuhi, analisis varians (ANOVA) digunakan untuk membandingkan ekspektasi matematis beberapa kelompok. Sebuah analisis Hai F Ya rian). Analisis varians dengan menggunakan rancangan acak lengkap disebut prosedur ANOVA satu arah. Dalam beberapa hal, istilah analisis varians adalah istilah yang keliru karena istilah ini membandingkan perbedaan antara nilai yang diharapkan dari suatu kelompok, bukan antar varians. Namun perbandingan ekspektasi matematis dilakukan justru atas dasar analisis variasi data. Pada prosedur ANOVA, variasi total hasil pengukuran dibagi menjadi antar kelompok dan dalam kelompok (Gbr. 1). Variasi dalam kelompok dijelaskan oleh kesalahan eksperimen, dan variasi antar kelompok dijelaskan oleh pengaruh kondisi eksperimen. Simbol Dengan menunjukkan jumlah kelompok.

Beras. 1. Variasi Partisi dalam Percobaan Acak Lengkap

Unduh catatan dalam atau format, contoh dalam format

Mari kita berpura-pura seperti itu Dengan kelompok diekstraksi dari populasi independen yang memiliki distribusi normal dan varians yang sama. Hipotesis nolnya adalah ekspektasi matematis dari populasi adalah sama: H 0 : μ 1 = μ 2 = ... = μ s. Hipotesis alternatif menyatakan bahwa tidak semua ekspektasi matematis adalah sama: jam 1: tidak semua μj sama J= 1, 2, …, s).

Pada Gambar. Gambar 2 menyajikan hipotesis nol yang sebenarnya tentang ekspektasi matematis dari lima kelompok yang dibandingkan, asalkan populasinya memiliki distribusi normal dan varians yang sama. Kelima populasi yang dikaitkan dengan tingkat faktor yang berbeda adalah identik. Akibatnya, mereka ditumpangkan satu sama lain, memiliki ekspektasi matematis, variasi, dan bentuk yang sama.

Beras. 2. Lima populasi umum memiliki ekspektasi matematis yang sama: μ 1 = μ 2 = μ 3 = μ 4 = μ 5

Di sisi lain, misalkan hipotesis nol ternyata salah, dengan tingkat keempat memiliki nilai harapan tertinggi, tingkat pertama memiliki nilai harapan sedikit lebih rendah, dan tingkat lainnya memiliki nilai harapan sama atau bahkan lebih rendah ( Gambar 3). Perhatikan bahwa, kecuali nilai yang diharapkan, kelima populasi adalah identik (yaitu, mereka mempunyai variabilitas dan bentuk yang sama).

Beras. 3. Pengaruh kondisi eksperimen yang diamati: μ 4 > μ 1 > μ 2 = μ 3 = μ 5

Saat menguji hipotesis tentang persamaan ekspektasi matematis beberapa populasi umum, variasi total dibagi menjadi dua bagian: variasi antarkelompok, karena perbedaan antar kelompok, dan variasi intragrup, karena perbedaan antar elemen yang termasuk dalam kelompok yang sama. Variasi total dinyatakan dengan jumlah total kuadrat (SST – jumlah total kuadrat). Karena hipotesis nol adalah ekspektasi matematis dari semua Dengan kelompok sama satu sama lain, variasi total sama dengan jumlah selisih kuadrat antara pengamatan individu dan rata-rata keseluruhan (rata-rata dari rata-rata), dihitung untuk semua sampel. Variasi penuh:

Di mana - Rata-rata umum, X ij - Saya-e observasi di J-kelompok atau tingkat, nj- jumlah pengamatan di J kelompok ke-, N- jumlah total observasi di semua kelompok (mis. N = N 1 + n 2 + … + n c), Dengan- jumlah kelompok atau tingkatan yang dipelajari.

Variasi antar kelompok, biasanya disebut jumlah kuadrat antar kelompok (SSA – jumlah kuadrat antar kelompok), sama dengan jumlah kuadrat selisih rata-rata sampel setiap kelompok J dan rata-rata keseluruhan , dikalikan dengan volume grup yang bersangkutan nj:

Di mana Dengan- jumlah kelompok atau tingkatan yang dipelajari, nj- jumlah pengamatan di J kelompok ke-, J- nilai rata-rata J kelompok ke-, - rata-rata keseluruhan.

Variasi dalam kelompok, biasanya disebut jumlah kuadrat dalam kelompok (SSW – jumlah kuadrat dalam kelompok), sama dengan jumlah kuadrat selisih antara elemen tiap kelompok dan mean sampel kelompok tersebut J:

Di mana Xaku j - Saya elemen ke- J kelompok ke-, J- nilai rata-rata J kelompok ke-.

Karena mereka dibandingkan Dengan tingkat faktor, jumlah kuadrat antarkelompok miliki s – 1 derajat kebebasan. Setiap Dengan tingkat memiliki nj – 1 derajat kebebasan, sehingga jumlah kuadrat intragrup memiliki N- Dengan derajat kebebasan, dan

Selain itu, jumlah total kuadrat yang dimilikinya N – 1 derajat kebebasan, sejak setiap pengamatan Xaku j dibandingkan dengan rata-rata keseluruhan yang dihitung secara keseluruhan N pengamatan. Jika masing-masing jumlah ini dibagi dengan jumlah derajat kebebasan yang sesuai, maka timbul tiga jenis dispersi: antarkelompok(rata-rata kuadrat di antara - MSA), intragrup(rata-rata kuadrat dalam - MSW) dan penuh(total rata-rata kuadrat - MST):

Padahal tujuan utama analisis varians adalah untuk membandingkan ekspektasi matematis Dengan kelompok untuk mengidentifikasi pengaruh kondisi eksperimen, namanya disebabkan oleh fakta bahwa alat utamanya adalah analisis varians dari berbagai jenis. Jika hipotesis nol benar, dan berada di antara ekspektasi matematis Dengan kelompok tidak ada perbedaan yang signifikan, ketiga varian - MSA, MSW dan MST - merupakan perkiraan varians σ 2 melekat pada data yang dianalisis. Jadi, untuk menguji hipotesis nol H 0 : μ 1 = μ 2 = ... = μ s dan hipotesis alternatif jam 1: tidak semua μj sama J = 1, 2, …, Dengan), perlu untuk menghitung statistik F-kriteria, yaitu perbandingan dua varian, MSA dan MSW. Tes F-statistik dalam analisis varians satu arah

Statistik F-tunduk pada kriteria F-distribusi dengan s – 1 derajat kebebasan pada pembilangnya MSA Dan n – s derajat kebebasan penyebutnya M.S.W.. Untuk tingkat signifikansi α tertentu, hipotesis nol ditolak jika dihitung F Fkamu, sifat yang permanen F-distribusi dengan s – 1 n – s derajat kebebasan penyebutnya. Jadi, seperti yang ditunjukkan pada Gambar. 4, aturan pengambilan keputusan dirumuskan sebagai berikut: hipotesis nol jam 0 ditolak jika F>Fkamu; jika tidak maka tidak ditolak.

Beras. 4. Area kritis analisis varians saat menguji hipotesis jam 0

Jika hipotesis nol jam 0 itu benar, diperhitungkan F-statistik mendekati 1, karena pembilang dan penyebutnya merupakan perkiraan besaran yang sama - dispersi σ 2 yang melekat pada data yang dianalisis. Jika hipotesis nol jam 0 salah (dan terdapat perbedaan yang signifikan antara ekspektasi matematis kelompok yang berbeda), dihitung F-statistik akan jauh lebih besar dari satu karena pembilangnya, MSA, memperkirakan, selain variabilitas alami data, pengaruh kondisi eksperimen atau perbedaan antar kelompok, sedangkan penyebut MSW hanya memperkirakan variabilitas alami data . Jadi, prosedur ANOVA adalah F-kriteria di mana, pada tingkat signifikansi tertentu, hipotesis nol ditolak jika dihitung F-statistik lebih besar dari nilai kritis atas Fkamu, sifat yang permanen F-distribusi dengan s – 1 derajat kebebasan pada pembilang dan n – s derajat kebebasan penyebut, seperti ditunjukkan pada Gambar. 4.

Untuk mengilustrasikan analisis varians satu arah, mari kita kembali ke skenario yang diuraikan di awal catatan. Tujuan percobaan adalah untuk mengetahui apakah parasut yang ditenun dari serat sintetis yang diperoleh dari pemasok berbeda memiliki kekuatan yang sama. Setiap kelompok memiliki lima parasut. Kelompok dibagi berdasarkan pemasok - Pemasok 1, Pemasok 2, Pemasok 3 dan Pemasok 4. Kekuatan parasut diukur menggunakan alat khusus yang menguji robekan kain di kedua sisi. Gaya yang diperlukan untuk mematahkan parasut diukur dengan skala khusus. Semakin tinggi daya putusnya maka semakin kuat parasutnya. Excel memungkinkan Anda menganalisis F-statistik dalam satu klik. Telusuri menunya DataAnalisis data, dan pilih garis ANOVA satu arah, isi jendela yang terbuka (Gbr. 5). Hasil percobaan (kekuatan putus), beberapa statistik deskriptif dan hasil analisis varians satu arah disajikan pada Gambar. 6.

Beras. 5. Jendela Paket Analisis Varians Analisis Satu Arah Unggul

Beras. 6. Indikator kekuatan parasut tenun dari serat sintetis diperoleh dari pemasok berbeda, statistik deskriptif dan hasil analisis varian satu arah

Analisis Gambar 6 menunjukkan bahwa ada beberapa perbedaan antara mean sampel. Rata-rata kekuatan serat yang diperoleh dari pemasok pertama adalah 19,52, dari pemasok kedua - 24,26, dari pemasok ketiga - 22,84 dan dari pemasok keempat - 21,16. Apakah perbedaan ini signifikan secara statistik? Distribusi gaya pecah ditunjukkan pada plot pencar (Gbr. 7). Hal ini jelas menunjukkan perbedaan-perbedaan baik di dalam maupun di dalam kelompok. Jika masing-masing kelompok berukuran lebih besar, diagram batang dan daun, plot kotak, atau plot lonceng dapat digunakan untuk menganalisisnya.

Beras. 7. Diagram dispersi kekuatan parasut yang ditenun dari serat sintetis diperoleh dari empat pemasok.

Hipotesis nol menyatakan bahwa tidak ada perbedaan yang signifikan antara skor kekuatan rata-rata: H 0: μ 1 = μ 2 = μ 3 = μ 4. Hipotesis alternatifnya adalah setidaknya ada satu pemasok yang rata-rata kekuatan seratnya berbeda dari yang lain: jam 1: tidak semua μj sama ( J = 1, 2, …, Dengan).

Rata-rata keseluruhan (lihat Gambar 6) = RATA-RATA(D12:D15) = 21,945; untuk menentukannya, anda juga dapat menghitung rata-rata ke-20 bilangan asli: = RATA-RATA(A3:D7). Nilai varians dihitung Paket analisis dan dipantulkan pada pelat Analisis varians(lihat Gambar 6): SSA = 63.286, SSW = 97.504, SST = 160.790 (lihat kolom SS tabel Analisis varians Gambar 6). Rata-rata dihitung dengan membagi jumlah kuadrat dengan jumlah derajat kebebasan yang sesuai. Karena Dengan= 4, sebuah N= 20, diperoleh nilai derajat kebebasan sebagai berikut; untuk SSA: s – 1= 3; untuk SSW: n–c= 16; untuk SST: n – 1= 19 (lihat kolom df). Jadi: MSA = SSA / ( s – 1)= 21.095; MSW = SSW / ( n–c) = 6,094; MST = SST / ( n – 1) = 8,463 (lihat kolom MS). F-statistik = MSA / MSW = 3,462 (lihat kolom F).

Nilai kritis atas Fkamu, ciri-ciri dari F-distribusi, ditentukan dengan rumus =F.OBR(0.95;3;16) = 3.239. Parameter fungsi =F.OBR(): α = 0,05, pembilangnya memiliki tiga derajat kebebasan, dan penyebutnya 16. Jadi, perhitungannya F-statistik sama dengan 3,462 melebihi nilai kritis atas Fkamu= 3,239, hipotesis nol ditolak (Gbr. 8).

Beras. 8. Daerah kritis analisis varians pada taraf signifikansi 0,05 jika pembilangnya mempunyai tiga derajat kebebasan dan penyebutnya -16

R-nilai, yaitu probabilitas bahwa hipotesis nol benar F-statistik tidak kurang dari 3,46, sama dengan 0,041 atau 4,1% (lihat kolom nilai p tabel Analisis varians Gambar 6). Karena nilai ini tidak melebihi tingkat signifikansi α = 5%, maka hipotesis nol ditolak. Lebih-lebih lagi, R-nilai menunjukkan bahwa kemungkinan mendeteksi perbedaan tertentu atau lebih besar antara ekspektasi matematis populasi umum, asalkan sebenarnya sama, adalah sebesar 4,1%.

Jadi. Terdapat perbedaan antara keempat rata-rata sampel. Hipotesis nolnya adalah bahwa semua ekspektasi matematis dari keempat populasi adalah sama. Dalam kondisi ini, ukuran variabilitas total (yaitu total variasi SST) dari kekuatan semua parasut dihitung dengan menjumlahkan selisih kuadrat antara setiap pengamatan. X ij dan rata-rata keseluruhan . Variasi total kemudian dipisahkan menjadi dua komponen (lihat Gambar 1). Komponen pertama adalah variasi SSA antar kelompok dan komponen kedua adalah variasi SSW dalam kelompok.

Apa yang menjelaskan variabilitas data? Dengan kata lain, mengapa semua observasi tidak sama? Salah satu alasannya adalah perusahaan yang berbeda memasok serat dengan kekuatan berbeda. Hal ini sebagian menjelaskan mengapa kelompok memiliki ekspektasi matematis yang berbeda: semakin kuat pengaruh kondisi eksperimen, semakin besar perbedaan antara ekspektasi matematis kelompok. Alasan lain untuk variabilitas data adalah variabilitas alami dari setiap proses, dalam hal ini produksi parasut. Sekalipun semua serat dibeli dari pemasok yang sama, kekuatannya tidak akan sama, semua hal dianggap sama. Karena pengaruh ini terjadi dalam setiap kelompok, maka disebut variasi dalam kelompok.

Perbedaan antara rata-rata sampel disebut SSA variasi antarkelompok. Sebagian dari variasi dalam kelompok, sebagaimana telah ditunjukkan, dijelaskan oleh kepemilikan data pada kelompok yang berbeda. Namun, bahkan jika kelompok-kelompok tersebut sama persis (yaitu hipotesis nol benar), variasi antar kelompok akan tetap ada. Alasannya adalah variabilitas alami dalam proses pembuatan parasut. Karena sampelnya berbeda, rata-rata sampelnya berbeda satu sama lain. Oleh karena itu, jika hipotesis nol benar, variabilitas antar dan dalam kelompok mewakili perkiraan variabilitas populasi. Jika hipotesis nol salah, maka hipotesis antar kelompok akan lebih besar. Fakta inilah yang mendasarinya F-kriteria untuk membandingkan perbedaan antara ekspektasi matematis beberapa kelompok.

Setelah melakukan ANOVA satu arah dan menemukan perbedaan yang signifikan antar perusahaan, masih belum diketahui pemasok mana yang berbeda secara signifikan dengan pemasok lainnya. Kita hanya tahu bahwa ekspektasi matematis masyarakat umum tidaklah sama. Dengan kata lain, setidaknya salah satu ekspektasi matematis berbeda secara signifikan dari ekspektasi lainnya. Untuk menentukan supplier mana yang berbeda dengan yang lain, Anda bisa menggunakan Prosedur Tukey, menggunakan perbandingan berpasangan antar pemasok. Prosedur ini dikembangkan oleh John Tukey. Selanjutnya, dia dan K. Kramer secara independen memodifikasi prosedur ini untuk situasi di mana ukuran sampel berbeda satu sama lain.

Perbandingan berganda: Prosedur Tukey-Kramer

Dalam skenario kami, analisis varians satu arah digunakan untuk membandingkan kekuatan parasut. Setelah menemukan perbedaan yang signifikan antara ekspektasi matematis keempat kelompok, maka perlu ditentukan kelompok mana yang berbeda satu sama lain. Meskipun ada beberapa cara untuk mengatasi masalah ini, kami hanya akan menjelaskan prosedur perbandingan berganda Tukey-Kramer. Metode ini merupakan contoh prosedur perbandingan post hoc karena hipotesis yang diuji dirumuskan setelah analisis data. Prosedur Tukey-Kramer memungkinkan semua pasangan kelompok dibandingkan secara bersamaan. Pada tahap pertama, perbedaannya dihitung XJ -XJ, Di mana j ≠J, antara ekspektasi matematis s(s – 1)/2 kelompok. Ruang lingkup kritis Prosedur Tukey-Kramer dihitung dengan rumus:

Di mana QU- nilai kritis atas dari distribusi rentang siswa yang dimiliki Dengan derajat kebebasan pada pembilang dan N - Dengan derajat kebebasan penyebutnya.

Jika ukuran sampel tidak sama, rentang kritis dihitung untuk setiap pasangan ekspektasi matematis secara terpisah. Pada tahap terakhir, masing-masing s(s – 1)/2 pasangan ekspektasi matematis dibandingkan dengan rentang kritis yang sesuai. Unsur-unsur suatu pasangan dianggap berbeda nyata jika modulus selisihnya | Xj -XJ| di antara mereka melebihi rentang kritis.

Mari kita terapkan prosedur Tukey-Kramer pada masalah kekuatan parasut. Karena perusahaan parasut mempunyai empat supplier, maka terdapat 4(4 – 1)/2 = 6 pasang supplier yang harus diperiksa (Gambar 9).

Beras. 9. Perbandingan rata-rata sampel berpasangan

Karena semua kelompok mempunyai volume yang sama (yaitu semua nj = nj), cukup menghitung satu rentang kritis saja. Untuk melakukan ini, sesuai tabel ANOVA(Gbr. 6) kita tentukan nilai MSW = 6,094. Kemudian kita menemukan nilainya QU pada α = 0,05, Dengan= 4 (jumlah derajat kebebasan pada pembilangnya) dan N- Dengan= 20 – 4 = 16 (banyaknya derajat kebebasan penyebut). Sayangnya, saya tidak menemukan fungsi terkait di Excel, jadi saya menggunakan tabel (Gbr. 10).

Beras. 10. Nilai kritis rentang kesiswaan QU

Kita mendapatkan:

Karena hanya 4,74 > 4,47 (lihat tabel bawah Gambar 9), terdapat perbedaan yang signifikan secara statistik antara pemasok pertama dan kedua. Semua pasangan lainnya memiliki sarana sampel yang tidak memungkinkan kita membicarakan perbedaannya. Akibatnya, kekuatan rata-rata parasut yang ditenun dari serat yang dibeli dari pemasok pertama jauh lebih kecil dibandingkan pemasok kedua.

Kondisi yang diperlukan untuk analisis varians satu arah

Saat memecahkan masalah kekuatan parasut, kami tidak memeriksa apakah kondisi di mana penggunaan satu faktor dapat dilakukan F-kriteria. Bagaimana Anda tahu jika Anda bisa menggunakan satu faktor F-kriteria saat menganalisis data eksperimen tertentu? Faktor tunggal F-kriteria hanya dapat diterapkan jika tiga asumsi dasar terpenuhi: data eksperimen harus acak dan independen, berdistribusi normal, dan variansnya harus sama.

Tebakan pertama - keacakan dan independensi data- harus selalu dilakukan, karena kebenaran percobaan tergantung pada keacakan pilihan dan/atau proses pengacakan. Untuk menghindari bias pada hasil, data perlu diekstraksi Dengan populasi umum secara acak dan independen satu sama lain. Demikian pula, data harus didistribusikan secara acak Dengan tingkat faktor yang kita minati (kelompok eksperimen). Pelanggaran terhadap kondisi ini dapat sangat merusak hasil analisis varians.

Tebakan kedua - normalitas- berarti data diambil dari populasi yang berdistribusi normal. Adapun T-kriteria, analisis varians satu arah berdasarkan F-Kriteria relatif sedikit sensitif terhadap pelanggaran kondisi ini. Jika distribusinya tidak menyimpang terlalu signifikan dari normal, maka tingkat signifikansinya F-kriteria sedikit berubah, terutama jika ukuran sampel cukup besar. Jika kondisi normalitas distribusi dilanggar secara serius, maka hal itu harus diterapkan.

Tebakan ketiga - homogenitas varians- berarti varians tiap populasi sama satu sama lain (yaitu σ 1 2 = σ 2 2 = ... = σ j 2). Asumsi ini memungkinkan seseorang untuk memutuskan apakah akan memisahkan atau menyatukan varians dalam kelompok. Jika ukuran kelompoknya sama, maka kondisi homogenitas varians tidak banyak berpengaruh terhadap kesimpulan yang diperoleh dengan menggunakan F-kriteria. Namun, jika ukuran sampel tidak sama, pelanggaran terhadap kondisi kesetaraan varians dapat sangat merusak hasil analisis varians. Oleh karena itu, upaya harus dilakukan untuk memastikan bahwa ukuran sampel sama. Salah satu cara untuk menguji asumsi homogenitas varians adalah dengan kriteria Levene dijelaskan di bawah ini.

Jika dari ketiga syarat tersebut hanya syarat homogenitas varians yang dilanggar, prosedurnya serupa dengan T-kriteria menggunakan varians terpisah (untuk lebih jelasnya lihat). Namun jika asumsi distribusi normal dan homogenitas varians dilanggar secara bersamaan, maka perlu dilakukan normalisasi data dan mengurangi selisih antar varians atau menerapkan prosedur nonparametrik.

Uji Levene untuk menguji homogenitas varians

Meskipun F-kriteria relatif tahan terhadap pelanggaran kondisi kesetaraan varians dalam kelompok; pelanggaran berat terhadap asumsi ini secara signifikan mempengaruhi tingkat signifikansi dan kekuatan kriteria. Mungkin salah satu kriteria yang paling kuat adalah kriteria Levene. Untuk memeriksa kesetaraan varians Dengan populasi umum, kami akan menguji hipotesis berikut:

Н 0: σ 1 2 = σ 2 2 = … = σJ 2

jam 1: Tidak semua σ j 2 adalah sama ( J = 1, 2, …, Dengan)

Uji Levene yang dimodifikasi didasarkan pada pernyataan bahwa jika variabilitas dalam kelompok sama, maka analisis varians nilai absolut selisih antara observasi dan median kelompok dapat digunakan untuk menguji hipotesis nol persamaan varians. Jadi, sebaiknya hitung dulu nilai absolut selisih observasi dan median pada masing-masing kelompok, lalu lakukan analisis varians satu arah terhadap nilai absolut selisih yang dihasilkan. Untuk mengilustrasikan kriteria Levene, mari kita kembali ke skenario yang diuraikan di awal catatan. Menggunakan data yang disajikan pada Gambar. 6, kami akan melakukan analisis serupa, tetapi sehubungan dengan modul perbedaan data awal dan median untuk setiap sampel secara terpisah (Gbr. 11).

Materi terbaru di bagian:

Mendengarkan yang tersirat Apa maksud dari ungkapan membaca yang tersirat?
Mendengarkan yang tersirat Apa maksud dari ungkapan membaca yang tersirat?

Membaca yang tersirat Membaca yang tersirat (bahasa asing) untuk menebak apa yang tidak tertulis atau disepakati. Menikahi. Tapi di antara kalimatnya yang menyakitkan...

Aturan untuk membuat grafik
Aturan untuk membuat grafik

Grafik memberikan representasi visual tentang hubungan antar besaran, yang sangat penting ketika menafsirkan data yang diperoleh, karena grafik...

Perjalanan Rusia pertama keliling dunia
Perjalanan Rusia pertama keliling dunia

Para navigator Rusia, bersama dengan navigator Eropa, adalah pionir paling terkenal yang menemukan benua baru, bagian pegunungan, dan...