Dispersijas analīze. Kursa darbs: Dispersijas analīze Daudzfaktoru dispersijas analīze

Variācijas analīze ir statistisko metožu kopums, kas paredzēts, lai pārbaudītu hipotēzes par saistību starp noteiktiem raksturlielumiem un pētītajiem faktoriem, kuriem nav kvantitatīvā apraksta, kā arī noteiktu faktoru ietekmes pakāpi un to mijiedarbību. Speciālajā literatūrā to bieži sauc par ANOVA (no angļu valodas nosaukuma Analysis of Variations). Pirmo reizi šo metodi 1925. gadā izstrādāja R. Fišers.

Dispersijas analīzes veidi un kritēriji

Šo metodi izmanto, lai pētītu attiecības starp kvalitatīvajiem (nominālajiem) raksturlielumiem un kvantitatīvo (nepārtraukto) mainīgo. Būtībā tā pārbauda hipotēzi par vairāku paraugu vidējo aritmētisko vienādību. Tādējādi to var uzskatīt par parametrisku kritēriju vairāku paraugu centru salīdzināšanai vienlaikus. Ja šo metodi izmanto diviem paraugiem, dispersijas analīzes rezultāti būs identiski Stjudenta t-testa rezultātiem. Tomēr atšķirībā no citiem kritērijiem šis pētījums ļauj sīkāk izpētīt problēmu.

Dispersijas analīze statistikā balstās uz likumu: kombinētās izlases noviržu kvadrātā summa ir vienāda ar grupas iekšējo noviržu kvadrātu un starpgrupu noviržu kvadrātu summu. Pētījumā tiek izmantots Fišera tests, lai noteiktu starpgrupu dispersiju un grupas iekšējo dispersiju atšķirības nozīmīgumu. Tomēr nepieciešamie priekšnoteikumi tam ir sadalījuma normalitāte un paraugu homoskedastiskums (dispersiju vienlīdzība). Ir vienfaktoru (vienfaktora) dispersijas analīze un daudzfaktoru (daudzfaktoru) analīze. Pirmais ņem vērā pētāmās vērtības atkarību no viena raksturlieluma, otrais - no daudziem vienlaikus, kā arī ļauj mums noteikt saikni starp tām.

Faktori

Faktori ir kontrolēti apstākļi, kas ietekmē gala rezultātu. Tās līmenis vai apstrādes metode ir vērtība, kas raksturo konkrētu šī stāvokļa izpausmi. Šos skaitļus parasti uzrāda nominālās vai kārtas mērīšanas skalā. Bieži vien izejas vērtības tiek mērītas kvantitatīvās vai kārtas skalās. Tad rodas problēma grupēt izejas datus vairākos novērojumos, kas atbilst aptuveni vienādām skaitliskām vērtībām. Ja grupu skaitu pieņem par pārmērīgi lielu, tad novērojumu skaits tajās var būt nepietiekams, lai iegūtu ticamus rezultātus. Ja izvēlēsities pārāk mazu skaitli, tas var novest pie būtisku ietekmes uz sistēmu iezīmju zaudēšanas. Konkrētais datu grupēšanas veids ir atkarīgs no vērtību izmaiņu apjoma un rakstura. Intervālu skaitu un lielumu viendimensiju analīzē visbiežāk nosaka pēc vienādu intervālu principa vai vienādu biežumu principa.

Dispersijas problēmu analīze

Tātad ir gadījumi, kad jāsalīdzina divi vai vairāki paraugi. Tieši tad ir ieteicams izmantot dispersijas analīzi. Metodes nosaukums norāda, ka secinājumi tiek izdarīti, pamatojoties uz dispersijas komponentu izpēti. Pētījuma būtība ir tāda, ka kopējās rādītāja izmaiņas ir sadalītas komponentos, kas atbilst katra atsevišķa faktora darbībai. Apskatīsim vairākas problēmas, kuras tiek atrisinātas ar tipisku dispersijas analīzi.

1. piemērs

Darbnīcā ir vairākas automātikas, kas ražo konkrētu detaļu. Katras daļas izmērs ir nejaušs lielums, kas ir atkarīgs no katras mašīnas iestatījuma un nejaušajām novirzēm, kas rodas detaļu ražošanas procesā. Pamatojoties uz detaļu izmēru mērījumu datiem, ir jānosaka, vai mašīnas ir konfigurētas vienādi.

2. piemērs

Elektroierīces izgatavošanas laikā tiek izmantots dažāda veida izolācijas papīrs: kondensators, elektriskais uc Ierīci var piesūcināt ar dažādām vielām: epoksīdsveķiem, laku, sveķiem ML-2 uc Noplūdes var novērst vakuumā plkst. paaugstināts spiediens, ar apkuri. Impregnēšanu var veikt, iegremdējot lakā, zem nepārtrauktas lakas plūsmas utt. Elektrisko aparātu kopumā piepilda ar noteiktu savienojumu, kuram ir vairākas iespējas. Kvalitātes rādītāji ir izolācijas elektriskā izturība, tinuma pārkaršanas temperatūra darba režīmā un virkne citu. Ierīču ražošanas tehnoloģiskā procesa izstrādes gaitā nepieciešams noteikt, kā katrs no uzskaitītajiem faktoriem ietekmē iekārtas veiktspēju.

3. piemērs

Trolejbusu depo apkalpo vairākus trolejbusu maršrutus. Viņi apkalpo dažāda veida trolejbusus, un braukšanas maksas iekasē 125 inspektori. Depo vadību interesē jautājums: kā salīdzināt katra kontroliera ekonomiskos rādītājus (ieņēmumus), ņemot vērā dažādus maršrutus un dažāda veida trolejbusus? Kā noteikt ekonomiskās iespējas ražot noteikta tipa trolejbusus konkrētā maršrutā? Kā noteikt saprātīgas prasības ieņēmumu apjomam, ko konduktors ienes katrā maršrutā dažāda veida trolejbusos?

Metodes izvēles uzdevums ir, kā ar minimālām izmaksām un pēc iespējas īsākā laikā iegūt maksimālu informāciju par katra faktora ietekmi uz gala rezultātu, noteikt šādas ietekmes skaitliskos raksturlielumus, to ticamību. Dispersijas analīzes metodes ļauj atrisināt šādas problēmas.

Vienfaktoru analīze

Pētījuma mērķis ir novērtēt konkrēta gadījuma ietekmes lielumu uz analizējamo pārskatu. Vēl viens viendimensiju analīzes mērķis var būt salīdzināt divus vai vairākus apstākļus savā starpā, lai noteiktu atšķirību to ietekmei uz atsaukšanu. Ja nulles hipotēze tiek noraidīta, nākamais solis ir iegūto raksturlielumu kvantitatīva noteikšana un ticamības intervālu konstruēšana. Gadījumā, ja nulles hipotēzi nevar noraidīt, tā parasti tiek pieņemta un tiek izdarīts secinājums par ietekmes būtību.

Vienvirziena dispersijas analīze var kļūt par Kruskal-Wallis ranga metodes neparametrisku analogu. To 1952. gadā izstrādāja amerikāņu matemātiķis Viljams Kruskals un ekonomists Vilsons Voliss. Šis kritērijs ir paredzēts, lai pārbaudītu nulles hipotēzi par efektu vienlīdzību pētītajos paraugos ar nezināmām, bet vienādām vidējām vērtībām. Šajā gadījumā paraugu skaitam jābūt lielākam par diviem.

Jonckheere-Terpstra kritēriju neatkarīgi ierosināja holandiešu matemātiķis T. J. Terpstra 1952. gadā un britu psihologs E. R. Jonckheere 1954. gadā. To izmanto, ja iepriekš zināms, ka esošās rezultātu grupas ir sakārtotas atkarībā no ietekmes pieauguma. pētāmais faktors, kas tiek mērīts pēc kārtas skalas.

M — Bārtleta tests, ko 1937. gadā ierosināja britu statistiķis Moriss Stīvensons Bārtlets, tiek izmantots, lai pārbaudītu nulles hipotēzi par vairāku normālu populāciju dispersiju vienādību, no kurām ņemti pētāmie paraugi, kuriem parasti ir dažādi izmēri (katras skaits). paraugam jābūt vismaz četriem ).

G - Kokrana tests, ko 1941. gadā atklāja amerikānis Viljams Džemels Kokrans. To izmanto, lai pārbaudītu nulles hipotēzi par normālu populāciju dispersiju vienādību neatkarīgos vienāda lieluma paraugos.

Neparametriskais Levēna tests, ko 1960. gadā ierosināja amerikāņu matemātiķis Hovards Levēns, ir alternatīva Bartleta testam apstākļos, kad nav pārliecības, ka pētāmie paraugi ir pakļauti normālam sadalījumam.

1974. gadā amerikāņu statistiķi Mortons B. Brauns un Alans B. Forsaits ierosināja testu (Brauna-Forsaita testu), kas nedaudz atšķiras no Levēna testa.

Divu faktoru analīze

Saistītiem normāli sadalītiem paraugiem tiek izmantota divvirzienu dispersijas analīze. Praksē bieži tiek izmantotas šīs metodes sarežģītas tabulas, jo īpaši tās, kurās katrā šūnā ir datu kopa (atkārtoti mērījumi), kas atbilst fiksēta līmeņa vērtībām. Ja nav izpildīti pieņēmumi, kas nepieciešami, lai piemērotu divvirzienu dispersijas analīzi, izmantojiet neparametrisko Frīdmena ranga testu (Frīdmens, Kendals un Smits), ko 1930. gada beigās izstrādāja amerikāņu ekonomists Miltons Frīdmens. Šis tests nav atkarīgs no veida. izplatīšanas.

Ir tikai pieņemts, ka vērtību sadalījums ir identisks un nepārtraukts un ka tie paši ir neatkarīgi viens no otra. Pārbaudot nulles hipotēzi, izvaddati tiek parādīti taisnstūra matricas veidā, kurā rindas atbilst faktora B līmeņiem, bet kolonnas atbilst A līmeņiem. Katra tabulas (bloka) šūna var būt viena objekta vai objektu grupas parametru mērījumu rezultāts ar nemainīgām abu faktoru līmeņu vērtībām. Šajā gadījumā attiecīgie dati tiek parādīti kā noteikta parametra vidējās vērtības visiem pētāmā parauga izmēriem vai objektiem. Lai piemērotu izvades kritēriju, ir jāpāriet no tiešajiem mērījumu rezultātiem uz to rangu. Sarindošana tiek veikta katrai rindai atsevišķi, tas ir, vērtības tiek pasūtītas katrai fiksētajai vērtībai.

Peidžas tests (L-tests), ko 1963. gadā ierosināja amerikāņu statistiķis E. B. Peidžs, ir paredzēts nulles hipotēzes pārbaudei. Lieliem paraugiem tiek izmantota Peidžas aproksimācija. Tie, ievērojot atbilstošo nulles hipotēžu realitāti, pakļaujas standarta normālajam sadalījumam. Gadījumā, ja avota tabulas rindām ir vienādas vērtības, ir jāizmanto vidējās pakāpes. Šajā gadījumā secinājumu precizitāte būs sliktāka, jo lielāks būs šādu sakritību skaits.

Q - Kokrena kritērijs, ko ierosinājis V. Kokrans 1937. gadā. To lieto gadījumos, kad viendabīgu subjektu grupas ir pakļautas ietekmei, kuru skaits pārsniedz divus un kurām ir iespējami divi atgriezeniskās saites varianti - nosacīti negatīvs (0) un nosacīti pozitīvs (1) . Nulles hipotēze sastāv no ārstēšanas efektu vienlīdzības. Divvirzienu dispersijas analīze ļauj noteikt ārstēšanas efektu esamību, bet neļauj noteikt, kurām konkrētām kolonnām šī ietekme pastāv. Lai atrisinātu šo problēmu, tiek izmantota vairāku Scheffe vienādojumu metode saistītajiem paraugiem.

Daudzfaktoru analīze

Daudzfaktoru dispersijas analīzes problēma rodas, ja jums ir jānosaka divu vai vairāku nosacījumu ietekme uz noteiktu gadījuma lielumu. Pētījums ietver viena atkarīga gadījuma lieluma klātbūtni, ko mēra starpības vai attiecību skalā, un vairākus neatkarīgus mainīgos, no kuriem katrs ir izteikts nosaukšanas vai ranga skalā. Datu dispersijas analīze ir diezgan attīstīta matemātiskās statistikas sadaļa, kurai ir daudz iespēju. Pētījuma koncepcija ir kopīga gan viena faktora, gan daudzfaktoru. Tās būtība slēpjas faktā, ka kopējā dispersija ir sadalīta komponentos, kas atbilst noteiktai datu grupēšanai. Katrai datu grupai ir savs modelis. Šeit mēs apskatīsim tikai pamatnoteikumus, kas nepieciešami, lai saprastu un praktiski izmantotu tās visbiežāk izmantotās iespējas.

Faktoru dispersijas analīze prasa diezgan rūpīgu attieksmi pret ievaddatu vākšanu un prezentāciju, un jo īpaši pret rezultātu interpretāciju. Atšķirībā no viena faktora testa, kura rezultātus var nosacīti ievietot noteiktā secībā, divu faktoru testa rezultāti prasa sarežģītāku izklāstu. Situācija kļūst vēl sarežģītāka, ja ir trīs, četri vai vairāk apstākļi. Šī iemesla dēļ ir diezgan reti, ja modelī tiek iekļauti vairāk nekā trīs (četri) nosacījumi. Piemērs varētu būt rezonanses rašanās pie noteiktas elektriskā apļa kapacitātes un induktivitātes vērtības; ķīmiskās reakcijas izpausme ar noteiktu elementu kopumu, no kura tiek veidota sistēma; anomālu efektu rašanās sarežģītās sistēmās noteiktā apstākļu sakritībā. Mijiedarbības klātbūtne var radikāli mainīt sistēmas modeli un dažkārt novest pie to parādību rakstura pārdomāšanas, ar kurām eksperimentētājs nodarbojas.

Daudzfaktoru dispersijas analīze ar atkārtotiem eksperimentiem

Mērījumu datus diezgan bieži var grupēt nevis pēc diviem, bet pēc lielāka faktoru skaita. Tādējādi, ja ņemam vērā trolejbusu riteņu riepu kalpošanas laika dispersijas analīzi, ņemot vērā apstākļus (ražotne un riepu ekspluatācijas maršruts), tad kā atsevišķu nosacījumu var izdalīt sezonu, kurā riepas tiek ekspluatētas (proti: ziemas un vasaras ekspluatācija). Rezultātā mums būs trīs faktoru metodes problēma.

Ja ir vairāk nosacījumu, pieeja ir tāda pati kā divu faktoru analīzē. Visos gadījumos viņi cenšas vienkāršot modeli. Divu faktoru mijiedarbības fenomens neparādās tik bieži, un trīskāršā mijiedarbība notiek tikai izņēmuma gadījumos. Iekļaujiet tās mijiedarbības, par kurām ir iepriekšēja informācija un pamatoti iemesli to ņemt vērā modelī. Atsevišķu faktoru noteikšanas un to ņemšanas vērā process ir salīdzinoši vienkāršs. Tāpēc bieži vien ir vēlme izcelt vairāk apstākļu. Jums nevajadzētu aizrauties ar šo. Jo vairāk nosacījumu, jo mazāk ticams modelis kļūst un jo lielāka ir kļūdas iespējamība. Pats modelis, kas ietver lielu skaitu neatkarīgu mainīgo, kļūst diezgan sarežģīti interpretējams un neērts praktiskai lietošanai.

Vispārīga ideja par dispersijas analīzi

Statistikas dispersijas analīze ir metode, kā iegūt no dažādiem vienlaicīgiem darbības apstākļiem atkarīgus novērojumu rezultātus un novērtēt to ietekmi. Par faktoru sauc vadāmu mainīgo, kas atbilst pētāmā objekta ietekmēšanas metodei un iegūst noteiktu vērtību noteiktā laika periodā. Tie var būt kvalitatīvi un kvantitatīvi. Kvantitatīvo nosacījumu līmeņi iegūst noteiktu nozīmi skaitliskā mērogā. Piemēri ir temperatūra, presēšanas spiediens, vielas daudzums. Kvalitatīvie faktori ir dažādas vielas, dažādas tehnoloģiskās metodes, ierīces, pildvielas. To līmeņi atbilst vārdu skalai.

Kvalitāte var ietvert arī iepakojuma materiāla veidu un zāļu formas uzglabāšanas nosacījumus. Ir arī racionāli iekļaut izejvielu slīpēšanas pakāpi, granulu frakcionēto sastāvu, kam ir kvantitatīvā nozīme, bet ir grūti regulēt, ja izmanto kvantitatīvo skalu. Kvalitatīvo faktoru skaits ir atkarīgs no zāļu formas veida, kā arī no zāļu vielu fizikālajām un tehnoloģiskajām īpašībām. Piemēram, tabletes var iegūt no kristāliskām vielām ar tiešu saspiešanu. Šajā gadījumā pietiek ar bīdāmo un eļļojošo vielu izvēli.

Dažādu veidu zāļu formu kvalitātes faktoru piemēri

  • Tinktūras. Ekstraktanta sastāvs, ekstraktora veids, izejvielu sagatavošanas metode, ražošanas metode, filtrēšanas metode.
  • Ekstrakti (šķidri, biezi, sausi). Ekstraktanta sastāvs, ekstrakcijas metode, uzstādīšanas veids, ekstrakcijas un balasta vielu atdalīšanas metode.
  • Tabletes. Palīgvielu, pildvielu, dezintegrantu, saistvielu, smērvielu un smērvielu sastāvs. Tablešu iegūšanas metode, tehnoloģiskā aprīkojuma veids. Apvalka veids un tā sastāvdaļas, plēves veidotāji, pigmenti, krāsvielas, plastifikatori, šķīdinātāji.
  • Injekcijas šķīdumi.Šķīdinātāja veids, filtrēšanas metode, stabilizatoru un konservantu raksturs, sterilizācijas apstākļi, ampulu pildīšanas metode.
  • Svecītes. Svecīšu bāzes sastāvs, svecīšu ražošanas metode, pildvielas, iepakojums.
  • Ziedes. Bāzes sastāvs, strukturālās sastāvdaļas, ziedes pagatavošanas metode, iekārtas veids, iepakojums.
  • Kapsulas. Korpusa materiāla veids, kapsulu izgatavošanas metode, plastifikatora veids, konservants, krāsviela.
  • Linimenti. Sagatavošanas metode, sastāvs, iekārtas veids, emulgatora veids.
  • Suspensijas.Šķīdinātāja veids, stabilizatora veids, dispersijas metode.

Planšetdatoru ražošanas procesā pētīto kvalitātes faktoru un to līmeņu piemēri

  • Cepamais pulveris. Kartupeļu ciete, baltie māli, nātrija bikarbonāta maisījums ar citronskābi, bāzisks magnija karbonāts.
  • Iesiešanas risinājums.Ūdens, cietes pasta, cukura sīrups, metilcelulozes šķīdums, hidroksipropilmetilcelulozes šķīdums, polivinilpirolidona šķīdums, polivinilspirta šķīdums.
  • Slīdoša viela. Aerosils, ciete, talks.
  • Pildviela. Cukurs, glikoze, laktoze, nātrija hlorīds, kalcija fosfāts.
  • Smērviela. Stearīnskābe, polietilēnglikols, parafīns.

Dispersijas analīzes modeļi valsts konkurētspējas līmeņa izpētē

Viens no svarīgākajiem valsts stāvokļa novērtēšanas kritērijiem, pēc kura tiek novērtēts tās labklājības un sociāli ekonomiskās attīstības līmenis, ir konkurētspēja, tas ir, tautsaimniecībai raksturīgo īpašību kopums, kas nosaka valsts spēja konkurēt ar citām valstīm. Nosakot valsts vietu un lomu pasaules tirgū, ir iespējams izveidot skaidru stratēģiju ekonomiskās drošības nodrošināšanai starptautiskā mērogā, jo tā ir pozitīvo attiecību atslēga starp Krieviju un visiem pasaules tirgus dalībniekiem: investoriem. , kreditori un valdības.

Lai salīdzinātu valstu konkurētspējas līmeni, valstis tiek sarindotas, izmantojot kompleksus indeksus, kas ietver dažādus svērtos rādītājus. Šie indeksi ir balstīti uz galvenajiem faktoriem, kas ietekmē ekonomisko, politisko u.c. situāciju. Modeļu kopums valsts konkurētspējas izpētei ietver daudzfaktoru statistiskās analīzes metožu izmantošanu (jo īpaši dispersijas analīzi (statistika), ekonometrisko modelēšanu, lēmumu pieņemšanu) un ietver šādus galvenos posmus:

  1. Rādītāju sistēmas veidošana.
  2. Valsts konkurētspējas rādītāju novērtēšana un prognozēšana.
  3. Valstu konkurētspējas rādītāju salīdzinājums.

Tagad apskatīsim katra šī kompleksa posma modeļu saturu.

Pirmajā posmā izmantojot ekspertu pētījumu metodes, tiek veidots pamatots ekonomisko rādītāju kopums valsts konkurētspējas novērtēšanai, ņemot vērā tās attīstības specifiku, pamatojoties uz starptautiskajiem reitingiem un statistikas departamentu datiem, atspoguļojot sistēmas stāvokli kopumā. un tā procesiem. Šo rādītāju izvēle ir pamatota ar nepieciešamību atlasīt tos, kas no praktiskā viedokļa vispilnīgāk ļauj noteikt valsts līmeni, investīciju pievilcību un esošo potenciālo un faktisko apdraudējumu relatīvas lokalizācijas iespēju.

Starptautisko reitingu sistēmu galvenie rādītāji ir indeksi:

  1. Globālā konkurētspēja (GC).
  2. Ekonomiskā brīvība (IES).
  3. Cilvēka attīstība (HDI).
  4. Korupcijas uztvere (CPC).
  5. Iekšējie un ārējie draudi (IETH).
  6. Starptautiskais ietekmes potenciāls (IPIP).

Otrā fāze paredz valsts konkurētspējas rādītāju novērtēšanu un prognozēšanu pēc starptautiskajiem reitingiem pētāmajām 139 pasaules valstīm.

Trešais posms paredz valstu konkurētspējas nosacījumu salīdzināšanu, izmantojot korelācijas un regresijas analīzes metodes.

Izmantojot pētījuma rezultātus, iespējams noteikt procesu raksturu kopumā un atsevišķiem valsts konkurētspējas komponentiem; pārbaudīt hipotēzi par faktoru ietekmi un to attiecībām atbilstošā nozīmīguma līmenī.

Piedāvātā modeļu kopuma ieviešana ļaus ne tikai novērtēt pašreizējo situāciju attiecībā uz valstu konkurētspējas līmeni un investīciju pievilcību, bet arī analizēt vadības nepilnības, novērst kļūdainu lēmumu pieņemšanu, kā arī novērst krīzes attīstību valstī. Valsts.

Dispersijas analīze

1. Dispersijas analīzes jēdziens

Dispersijas analīze ir pazīmes mainīguma analīze jebkuru kontrolētu mainīgo faktoru ietekmē. Ārzemju literatūrā dispersijas analīzi bieži dēvē par ANOVA, kas tiek tulkota kā mainīguma analīze (Analysis of Variance).

ANOVA problēma sastāv no cita veida mainīguma izolēšanas no pazīmes vispārējās mainīguma:

a) mainīgums, ko izraisa katra pētāmā neatkarīgā mainīgā darbība;

b) mainīgums pētāmo neatkarīgo mainīgo mijiedarbības dēļ;

c) gadījuma mainīgums visu pārējo nezināmo mainīgo dēļ.

Mainīgums pētāmo mainīgo darbības un to mijiedarbības dēļ korelē ar nejaušu mainīgumu. Šīs attiecības rādītājs ir Fišera F tests.

F kritērija aprēķināšanas formula ietver dispersiju aplēses, tas ir, atribūta sadalījuma parametrus, tāpēc F kritērijs ir parametrisks kritērijs.

Jo vairāk pazīmes mainīgums ir saistīts ar pētāmajiem mainīgajiem (faktoriem) vai to mijiedarbību, jo augstāks empīriskā kritērija vērtības.

Nulle dispersijas analīzes hipotēze norādīs, ka pētītā efektīvā raksturlieluma vidējās vērtības ir vienādas visās gradācijās.

Alternatīva hipotēze norāda, ka iegūtā raksturlieluma vidējās vērtības dažādās pētāmā faktora gradācijās ir atšķirīgas.

Dispersijas analīze ļauj noteikt izmaiņas raksturlielumā, bet nenorāda virziensšīs izmaiņas.

Sāksim dispersijas analīzes apsvēršanu ar vienkāršāko gadījumu, kad mēs pētām tikai darbību viens mainīgs (viens faktors).

2. Vienvirziena dispersijas analīze nesaistītiem paraugiem

2.1. Metodes mērķis

Viena faktora dispersijas analīzes metodi izmanto gadījumos, kad efektīvā raksturlieluma izmaiņas tiek pētītas mainīgu apstākļu vai faktora gradāciju ietekmē. Šajā metodes versijā katras faktora gradācijas ietekme ir savādāk priekšmetu paraugi. Jābūt vismaz trim faktora gradācijām. (Var būt divas gradācijas, taču šajā gadījumā mēs nevarēsim noteikt nelineāras atkarības un šķiet saprātīgāk izmantot vienkāršākas).

Šāda veida analīzes neparametriskā versija ir Kruskal-Wallis H tests.

Hipotēzes

H 0: atšķirības starp faktoru pakāpēm (dažādi nosacījumi) nav lielākas par nejaušām atšķirībām katrā grupā.

H 1: atšķirības starp faktoru pakāpēm (dažādi apstākļi) ir lielākas nekā nejaušas atšķirības katrā grupā.

2.2. Nesaistītu paraugu vienvirziena dispersijas analīzes ierobežojumi

1. Vienvirziena dispersijas analīzei nepieciešamas vismaz trīs faktora gradācijas un vismaz divi priekšmeti katrā gradācijā.

2. Iegūtajam raksturlielumam pētāmajā paraugā jābūt normāli sadalītam.

Tiesa, parasti netiek norādīts, vai runa ir par raksturlieluma sadalījumu visā aptaujātajā izlasē vai tajā tās daļā, kas veido dispersijas kompleksu.

3. Problēmas risināšanas piemērs, izmantojot nesaistītu paraugu vienvirziena dispersijas analīzes metodi, izmantojot piemēru:

Trīs dažādām sešu priekšmetu grupām tika doti desmit vārdu saraksti. Pirmajai grupai vārdi tika pasniegti ar mazu ātrumu - 1 vārds 5 sekundēs, otrajai grupai ar vidējo ātrumu - 1 vārds 2 sekundēs, bet trešajai grupai ar lielu ātrumu - 1 vārds sekundē. Tika prognozēts, ka reproducēšanas veiktspēja būs atkarīga no vārda prezentācijas ātruma. Rezultāti ir parādīti tabulā. 1.

Reproducēto vārdu skaits 1. tabula

Priekšmeta Nr.

zems ātrums

Vidējais ātrums

liels ātrums

kopējā summa

H 0: atšķirības vārdu veidošanas diapazonā starp grupas nav izteiktākas par nejaušām atšķirībām iekšā katra grupa.

H1: Vārdu ražošanas apjoma atšķirības starp grupas ir izteiktākas nekā nejaušās atšķirības iekšā katra grupa. Izmantojot tabulā norādītās eksperimentālās vērtības. 1, mēs noteiksim dažas vērtības, kas būs nepieciešamas, lai aprēķinātu F kritēriju.

Galveno lielumu aprēķins vienvirziena dispersijas analīzei ir parādīts tabulā:

2. tabula

3. tabula

Darbību secība vienvirziena dispersijas analīzē nesaistītiem paraugiem

Šajā un turpmākajās tabulās bieži sastopams apzīmējums SS ir saīsinājums no “kvadrātu summas”. Šo saīsinājumu visbiežāk izmanto tulkotajos avotos.

SS fakts nozīmē raksturlieluma mainīgumu pētāmā faktora darbības dēļ;

SS vispār- pazīmes vispārējā mainīgums;

S C.A.-mainība, ko izraisa neņemti faktori, “gadījuma” vai “atlikuma” mainīgums.

JAUNKUNDZE- “vidējais kvadrāts” jeb kvadrātu summas matemātiskā cerība, atbilstošā SS vidējā vērtība.

df - brīvības pakāpju skaits, ko, ņemot vērā neparametriskos kritērijus, apzīmējām ar grieķu burtu v.

Secinājums: H 0 ir noraidīts. H 1 ir pieņemts. Vārdu atcerēšanās atšķirības starp grupām bija lielākas nekā nejaušās atšķirības katrā grupā (α=0,05). Tātad vārdu pasniegšanas ātrums ietekmē to reproducēšanas apjomu.

Tālāk ir parādīts problēmas risināšanas piemērs programmā Excel:

Sākotnējie dati:

Izmantojot komandu: Rīki->Datu analīze->Vienvirziena ANOVA, mēs iegūstam šādus rezultātus:

Iepriekš apspriestās metodes statistisko hipotēžu pārbaudei par divu veidu atšķirību nozīmīgumu praksē ir ierobežotas. Tas ir saistīts ar faktu, ka, lai noteiktu visu iespējamo apstākļu un faktoru ietekmi uz efektīvu pazīmi, lauka un laboratorijas eksperimenti parasti tiek veikti, izmantojot nevis divus, bet lielāku paraugu skaitu (1220 vai vairāk). ).

Bieži pētnieki salīdzina vairāku paraugu līdzekļus, kas apvienoti vienā kompleksā. Piemēram, pētot dažādu mēslošanas līdzekļu veidu un devu ietekmi uz ražu, eksperimenti tiek atkārtoti dažādās versijās. Šādos gadījumos salīdzināšana pa pāriem kļūst apgrūtinoša, un visa kompleksa statistiskajai analīzei ir jāizmanto īpaša metode. Šo matemātiskajā statistikā izstrādāto metodi sauc par dispersijas analīzi. Pirmo reizi to izmantoja angļu statistiķis R. Fišers, apstrādājot agronomisko eksperimentu rezultātus (1938).

Dispersijas analīze ir metode efektīvas pazīmes atkarības no viena vai vairākiem faktoriem izpausmes ticamības statistiskai novērtēšanai. Izmantojot dispersijas analīzes metodi, tiek pārbaudītas statistiskās hipotēzes par vidējiem rādītājiem vairākās vispārējās populācijās, kurām ir normāls sadalījums.

Dispersijas analīze ir viena no galvenajām metodēm eksperimentālo rezultātu statistiskai novērtēšanai. To arvien vairāk izmanto arī ekonomiskās informācijas analīzē. Dispersijas analīze ļauj noteikt, cik lielā mērā izlases rādītāji par sakarību starp rezultāta un faktora raksturlielumiem ir pietiekami, lai paplašinātu no izlases iegūtos datus uz vispārējo kopu. Šīs metodes priekšrocība ir tā, ka tā sniedz diezgan ticamus secinājumus no maziem paraugiem.

Pētot efektīvā raksturlieluma variāciju viena vai vairāku faktoru ietekmē, izmantojot dispersijas analīzi, papildus vispārējiem atkarību nozīmīguma novērtējumiem var iegūt arī veidojamo vidējo lieluma atšķirību novērtējumu. dažādos faktoru līmeņos, un faktoru mijiedarbības nozīmīgumu. Dispersijas analīze tiek izmantota, lai pētītu gan kvantitatīvo, gan kvalitatīvo raksturlielumu atkarības, kā arī to kombināciju.

Šīs metodes būtība ir statistiskā izpēte par viena vai vairāku faktoru ietekmes varbūtību, kā arī to mijiedarbību uz iegūto raksturlielumu. Atbilstoši tam, izmantojot dispersijas analīzi, tiek risināti trīs galvenie uzdevumi: 1) vispārējs grupu vidējo atšķirību nozīmīguma novērtējums; 2) faktoru mijiedarbības iespējamības novērtēšana; 3) līdzekļu pāru atšķirību nozīmīguma novērtējums. Visbiežāk šādas problēmas pētniekiem nākas risināt, veicot lauka un zootehniskos eksperimentus, kad tiek pētīta vairāku faktoru ietekme uz efektīvu pazīmi.

Dispersijas analīzes principiālā shēma ietver galveno efektīvā raksturlieluma variācijas avotu noteikšanu un variācijas apjoma (noviržu summas kvadrātā) noteikšanu atbilstoši tās veidošanās avotiem; kopējās variācijas komponentēm atbilstošā brīvības pakāpju skaita noteikšana; dispersijas aprēķināšana kā atbilstošo variācijas tilpumu attiecība pret to brīvības pakāpju skaitu; dispersiju attiecību analīze; izvērtējot līdzekļu atšķirības ticamību un izdarot secinājumus.

Šī shēma tiek saglabāta gan vienkāršos dispersijas analīzes modeļos, kad dati tiek grupēti pēc viena raksturlieluma, gan sarežģītos modeļos, kad dati tiek grupēti pēc diviem vai vairākiem raksturlielumiem. Tomēr, palielinoties grupu raksturlielumu skaitam, sarežģītāks kļūst kopējās variācijas sadalīšanas process atbilstoši tās veidošanās avotiem.

Saskaņā ar principu diagrammu dispersijas analīzi var attēlot piecu secīgu posmu veidā:

1) variācijas definēšana un paplašināšana;

2) variācijas brīvības pakāpju skaita noteikšana;

3) dispersiju un to attiecību aprēķināšana;

4) dispersiju un to attiecību analīze;

5) vidējo starpības nozīmīguma novērtēšana un secinājumu formulēšana nulles hipotēzes pārbaudei.

Dispersijas analīzes darbietilpīgākā daļa ir pirmais posms - variācijas noteikšana un sadalīšana atbilstoši tās veidošanās avotiem. Kopējā variāciju apjoma sadalīšanās secība tika detalizēti apspriesta 5. nodaļā.

Dispersijas analīzes problēmu risināšanas pamatā ir izplešanās (pievienošanas) variācijas likums, saskaņā ar kuru iegūtā atribūta kopējā variācija (svārstības) tiek sadalīta divās daļās: variācijas, ko izraisa pētāmā faktora(-u) darbība. , un variācijas, ko izraisa nejaušu cēloņu darbība, tas ir

Pieņemsim, ka pētāmā populācija ir sadalīta pēc faktoru pazīmēm vairākās grupās, no kurām katrai ir raksturīga sava iegūtā raksturlieluma vidējā vērtība. Tajā pašā laikā šo vērtību atšķirības var izskaidrot ar divu veidu iemesliem: tiem, kas sistemātiski iedarbojas uz efektīvo zīmi un kurus var pielāgot eksperimenta laikā, un tiem, kurus nevar pielāgot. Ir acīmredzams, ka starpgrupu (faktoriāla vai sistemātiska) variācija galvenokārt ir atkarīga no pētāmā faktora darbības, un grupas iekšējā (atlikušā vai nejaušā) variācija galvenokārt ir atkarīga no nejaušu faktoru darbības.

Lai novērtētu grupu vidējo atšķirību ticamību, ir jānosaka starpgrupu un grupu iekšējās variācijas. Ja starpgrupu (faktoriālā) variācija ievērojami pārsniedz grupas iekšējo (atlikušo) variāciju, tad faktors ietekmēja iegūto raksturlielumu, būtiski mainot grupas vidējo vērtību vērtības. Taču rodas jautājums, kāda ir saistība starp starpgrupu un grupas iekšējām variācijām, kuras var uzskatīt par pietiekamām, lai secinātu par atšķirību ticamību (nozīmību) starp grupas vidējiem.

Lai novērtētu vidējo atšķirību nozīmīgumu un formulētu secinājumus nulles hipotēzes (H0:x1 = x2 =... = xn) pārbaudei dispersijas analīzē, tiek izmantots sava veida standarts - G-kritērijs, sadales likums. kuru izveidoja R. Fišers. Šis kritērijs ir divu dispersiju attiecība: faktoriālā, ko ģenerē pētāmā faktora darbība, un atlikuma, kas rodas nejaušu iemeslu dēļ:

Izkliedes attiecība Γ = £>u : Amerikāņu statistiķis Snedecor ierosināja apzīmēt £*2 ar burtu G par godu dispersijas analīzes izgudrotājam R. Fišeram.

Novirzes °2 io2 ir populācijas dispersijas aprēķini. Ja paraugi ar dispersiju °2 °2 ir veidoti no vienas un tās pašas vispārējās populācijas, kur vērtību variācijas bija nejaušas, tad arī vērtību neatbilstība °2 °2 ir nejauša.

Ja eksperimentā tiek pārbaudīta vairāku faktoru (A, B, C utt.) ietekme uz efektīvu pazīmi vienlaikus, tad dispersijai, kas rodas katra no tiem, ir jābūt salīdzināmai ar °p.g, tas ir

Ja faktora dispersijas vērtība ir ievērojami lielāka par atlikumu, tad faktors būtiski ietekmēja iegūto atribūtu un otrādi.

Daudzfaktorālos eksperimentos papildus katra faktora darbības izraisītajai variācijai gandrīz vienmēr pastāv variācijas faktoru mijiedarbības dēļ ($ав: ^лс ^вс $ліс). Mijiedarbības būtība ir tāda, ka viena faktora ietekme būtiski mainās dažādos otrā faktora līmeņos (piemēram, Augsnes kvalitātes efektivitāte pie dažādām mēslojuma devām).

Arī faktoru mijiedarbība jānovērtē, salīdzinot atbilstošās dispersijas 3 ^v.gr:

Aprēķinot B kritērija faktisko vērtību, skaitītājā tiek ņemta lielākā no novirzēm, tātad B > 1. Acīmredzot, jo lielāks ir B kritērijs, jo būtiskākas ir atšķirības starp dispersijām. Ja B = 1, tad jautājums par dispersiju atšķirību nozīmīguma novērtēšanu tiek noņemts.

Lai noteiktu dispersiju attiecības nejaušo svārstību robežas, G. Fišers izstrādāja īpašas B sadalījuma tabulas (4. un 5. pielikums). Kritērijs būtu funkcionāli saistīts ar varbūtību un ir atkarīgs no variācijas brīvības pakāpju skaita k1 un k2 no abām salīdzinātajām variācijām. Parasti tiek izmantotas divas tabulas, lai izdarītu secinājumus par ārkārtīgi augsto kritērija vērtību nozīmīguma līmeņiem 0,05 un 0,01. Nozīmīguma līmenis 0,05 (vai 5%) nozīmē, ka tikai 5 gadījumos no 100 B kritērija vērtība var būt vienāda vai lielāka par tabulā norādīto. Nozīmīguma līmeņa samazināšana no 0,05 uz 0,01 noved pie kritērija vērtības palielināšanās starp divām novirzēm tikai nejaušu iemeslu dēļ.

Kritērija vērtība ir tieši atkarīga arī no divu salīdzināmo dispersiju brīvības pakāpju skaita. Ja brīvības pakāpju skaits tiecas uz bezgalību (k-me), tad attiecībai B divām dispersijām ir tendence uz vienotību.

Kritērija B tabulas vērtība parāda divu dispersiju attiecības iespējamo nejaušības vērtību noteiktā nozīmīguma līmenī un atbilstošo brīvības pakāpju skaitu katrai no salīdzināmajām novirzēm. Norādītās tabulas parāda B vērtību paraugiem, kas izgatavoti no vienas un tās pašas vispārējās populācijas, kur vērtību izmaiņu iemesli ir tikai nejauši.

Γ vērtību atrod no tabulām (4. un 5. pielikums) atbilstošās kolonnas (brīvības pakāpju skaits lielākai dispersijai - k1) un rindas (brīvības pakāpju skaits mazākai dispersijai - k2) krustpunktā. ). Tātad, ja lielākā dispersija (skaitītājs Г) ir k1 = 4, bet mazākā dispersija (saucējs Г) ir k2 = 9, tad Г nozīmīguma līmenī а = 0,05 būs 3,63 (4. pielikums). Tātad nejaušu iemeslu rezultātā, tā kā izlases ir mazas, vienas izlases dispersija 5% nozīmīguma līmenī var 3,63 reizes pārsniegt otrās izlases dispersiju. Kad nozīmīguma līmenis samazinās no 0,05 līdz 0,01, kritērija G tabulas vērtība, kā minēts iepriekš, palielināsies. Tādējādi ar vienādām brīvības pakāpēm k1 = 4 un k2 = 9 un a = 0,01 kritērija G tabulas vērtība būs 6,99 (5. pielikums).

Apskatīsim procedūru brīvības pakāpju skaita noteikšanai dispersijas analīzē. Brīvības pakāpju skaits, kas atbilst kopējai noviržu kvadrātu summai, tiek sadalīts atbilstošajās komponentēs līdzīgi kā kvadrātu noviržu summu sadalīšana (^kopā = No^gr + ]¥vhr), tas ir, kopējais brīvības pakāpju skaits (k") tiek sadalīts brīvības pakāpju skaitā starpgrupu (k1) un iekšējās grupas (k2) variācijām.

Tādējādi, ja izlases kopa, kas sastāv no N novērojumi dalīti ar T grupas (eksperimentālo iespēju skaits) un P apakšgrupas (atkārtojumu skaits), tad brīvības pakāpju skaits k būs attiecīgi:

a) par kopējo noviržu kvadrātu summu (s7zag)

b) starpgrupu noviržu kvadrātu summai ^m.gP)

c) grupas iekšējai noviržu kvadrātu summai V v.gR)

Saskaņā ar noteikumu par variantu pievienošanu:

Piemēram, ja eksperimentā tika izveidoti četri eksperimenta varianti (t = 4) piecos atkārtojumos katrā (n = 5), un kopējais novērojumu skaits ir N = = T o p = 4 * 5 = 20, tad brīvības pakāpju skaits ir attiecīgi vienāds ar:

Zinot noviržu kvadrātu summu un brīvības pakāpju skaitu, mēs varam noteikt objektīvus (labotus) aprēķinus trim dispersijām:

Nulles hipotēze H0 tiek pārbaudīta, izmantojot B kritēriju tāpat kā Stjudenta t-testu. Lai pieņemtu lēmumu par H0 pārbaudi, ir jāaprēķina kritērija faktiskā vērtība un jāsalīdzina ar tabulēto vērtību Ba pieņemtajam nozīmīguma līmenim a un brīvības pakāpju skaitam. k1 un k2 divām dispersijām.

Ja Bfaq > Ba, tad atbilstoši pieņemtajam nozīmīguma līmenim varam secināt, ka izlases dispersiju atšķirības nosaka ne tikai nejaušības faktori; tie ir nozīmīgi. Šajā gadījumā nulles hipotēze tiek noraidīta un ir pamats apgalvot, ka faktors būtiski ietekmē iegūto raksturlielumu. Ja< Ба, то нулевую гипотезу принимают и есть основание утверждать, что различия между сравниваемыми дисперсиями находятся в границах возможных случайных колебаний: действие фактора на результативный признак не является существенным.

Konkrēta dispersijas analīzes modeļa izmantošana ir atkarīga gan no pētāmo faktoru skaita, gan no izlases metodes.

c Atkarībā no faktoru skaita, kas nosaka iegūtā raksturlieluma variāciju, paraugus var veidot pēc viena, diviem vai vairākiem faktoriem. Saskaņā ar to dispersijas analīzi iedala viena faktora un daudzfaktoru analīzē. Citādi to sauc arī par viena faktora un daudzfaktoru dispersijas kompleksu.

Kopējās variācijas sadalīšanās shēma ir atkarīga no grupu veidošanās. Tas var būt nejaušs (vienas grupas novērojumi nav saistīti ar otrās grupas novērojumiem) un negadījuma rakstura (divu paraugu novērojumi ir savstarpēji saistīti ar kopīgiem eksperimenta apstākļiem). Attiecīgi tiek iegūti neatkarīgi un atkarīgie paraugi. Neatkarīgus paraugus var veidot gan ar vienādiem, gan nepāra skaitļiem. Atkarīgo paraugu veidošana pieņem to vienādu lielumu.

Ja grupas tiek veidotas nejaušā secībā, tad iegūtās pazīmes kopējais variācijas apjoms līdztekus faktoriālajai (starpgrupu) un atlikušajai variācijai ietver arī atkārtojumu variācijas, t.i.

Praksē vairumā gadījumu ir jāņem vērā atkarīgās izlases, kad tiek vienādoti nosacījumi grupām un apakšgrupām. Tātad lauka eksperimentā visa vietne ir sadalīta blokos ar visdažādākajiem apstākļiem. Šajā gadījumā katrs eksperimenta variants saņem vienādas iespējas tikt pārstāvētam visos blokos, tādējādi izlīdzinot nosacījumus visiem pārbaudītajiem eksperimenta variantiem. Šo eksperimenta konstruēšanas metodi sauc par randomizēto bloku metodi. Eksperimenti ar dzīvniekiem tiek veikti līdzīgi.

Apstrādājot sociāli ekonomiskos datus ar dispersijas analīzes metodi, jāpatur prātā, ka lielā faktoru skaita un to savstarpējās sakarības dēļ ir grūti pat ar visrūpīgāko apstākļu izlīdzināšanu noteikt objektīvuma pakāpi. katra atsevišķā faktora ietekme uz iegūto raksturlielumu. Tāpēc atlikušās variācijas līmeni nosaka ne tikai nejauši cēloņi, bet arī būtiski faktori, kas netika ņemti vērā, veidojot dispersijas analīzes modeli. Tā rezultātā atlikušā dispersija kā salīdzināšanas pamats dažkārt kļūst neadekvāta savam mērķim, tā ir nepārprotami pārvērtēta un nevar darboties kā faktoru ietekmes nozīmīguma kritērijs. Šajā sakarā, veidojot dispersijas analīzes modeļus, aktuāla kļūst svarīgāko faktoru atlases un katra no tiem darbības izpausmes nosacījumu izlīdzināšanas problēma. Turklāt. dispersijas analīzes izmantošana paredz pētāmo statistisko populāciju normālu vai tuvu normālam sadalījumu. Ja šis nosacījums nav izpildīts, tad dispersijas analīzē iegūtie aprēķini tiks pārspīlēti.

Cilvēks var atpazīt savas spējas, tikai mēģinot tās pielietot. (Seneka)

Dispersijas analīze

Ievada pārskats

Šajā sadaļā mēs apskatīsim ANOVA pamatmetodes, pieņēmumus un terminoloģiju.

Ņemiet vērā, ka angļu valodas literatūrā dispersijas analīzi parasti sauc par variācijas analīzi. Tāpēc īsuma labad zemāk mēs dažreiz izmantosim šo terminu ANOVA (An analīze o f va riācija) parastajai ANOVA un terminam MANOVA daudzfaktoru dispersijas analīzei. Šajā sadaļā mēs secīgi apskatīsim galvenās dispersijas analīzes idejas ( ANOVA), kovariācijas analīze ( ANCOVA), daudzfaktoru dispersijas analīze ( MANOVA) un daudzfaktoru kovariācijas analīze ( MANCOVA). Pēc īsas diskusijas par kontrasta analīzes un post hoc testu priekšrocībām, aplūkosim pieņēmumus, uz kuriem balstās ANOVA metodes. Šīs sadaļas beigās ir izskaidrotas daudzfaktoru pieejas priekšrocības atkārtotu pasākumu analīzei salīdzinājumā ar tradicionālo viendimensiju pieeju.

Galvenās idejas

Dispersijas analīzes mērķis. Dispersijas analīzes galvenais mērķis ir izpētīt vidējo atšķirību nozīmīgumu. nodaļa (8. nodaļa) sniedz īsu ievadu statistiskā nozīmīguma izpētē. Ja jūs vienkārši salīdzināt divu paraugu vidējos rādītājus, dispersijas analīze sniegs tādu pašu rezultātu kā parastā analīze. t- tests neatkarīgiem paraugiem (ja tiek salīdzinātas divas neatkarīgas objektu grupas vai novērojumi) vai t- atkarīgo paraugu kritērijs (ja vienā un tajā pašā objektu vai novērojumu kopā tiek salīdzināti divi mainīgie). Ja neesat pazīstams ar šiem kritērijiem, iesakām skatīt ievaddaļas pārskatu (9. nodaļa).

No kurienes cēlies nosaukums Dispersijas analīze? Var šķist dīvaini, ka vidējo salīdzināšanas procedūru sauc par dispersijas analīzi. Patiesībā tas ir tāpēc, ka, pārbaudot vidējo atšķirību statistisko nozīmīgumu, mēs faktiski analizējam atšķirības.

Kvadrātu summas sadalīšana

Izlases lielumam n izlases dispersiju aprēķina kā noviržu summu kvadrātā no parauga vidējās vērtības, kas dalīta ar n-1 (izlases lielums mīnus viens). Tādējādi fiksētam izlases lielumam n dispersija ir kvadrātu (noviržu) summas funkcija, kas apzīmēta īsuma labad, SS(no angļu valodas Sum of Squares — Sum of Squares). Dispersijas analīzes pamatā ir dispersijas sadalīšana (vai sadalīšana) daļās. Apsveriet šādu datu kopu:

Abu grupu vidējie rādītāji būtiski atšķiras (attiecīgi 2 un 6). Noviržu kvadrātā summa iekšā katra grupa ir vienāda ar 2. Tos saskaitot, iegūstam 4. Ja tagad atkārtojam šos aprēķinus izņemot grupas piederība, tas ir, ja mēs aprēķinām SS pamatojoties uz abu paraugu kopējo vidējo vērtību, mēs iegūstam 28. Citiem vārdiem sakot, dispersija (kvadrātu summa), kas balstīta uz mainīgumu grupā, rada daudz mazākas vērtības nekā tad, ja to aprēķina, pamatojoties uz kopējo mainīgumu (attiecībā pret kopējais vidējais). Iemesls tam acīmredzot ir būtiska atšķirība starp vidējiem, un šī atšķirība starp vidējiem izskaidro pastāvošo atšķirību starp kvadrātu summām. Faktiski, ja izmantojat moduli, lai analizētu dotos datus Dispersijas analīze, tiks iegūti šādi rezultāti:

Kā redzams no tabulas, kopējā kvadrātu summa SS=28 dala ar kvadrātu summu, kas dota ar iekšgrupa mainīgums ( 2+2=4 ; sk. tabulas otro rindu) un kvadrātu summu vidējo vērtību starpības dēļ. (28-(2+2)=24; skat. tabulas pirmo rindu).

SS kļūdas unSS efekts. Mainība grupas iekšienē ( SS) parasti sauc par dispersiju kļūdas. Tas nozīmē, ka to parasti nevar paredzēt vai izskaidrot, kad tiek veikts eksperiments. Citā pusē, SS efekts(vai starpgrupu mainīgumu) var izskaidrot ar atšķirībām starp pētījuma grupu vidējiem rādītājiem. Citiem vārdiem sakot, piederība noteiktai grupai skaidro starpgrupu mainīgums, jo mēs zinām, ka šīm grupām ir dažādi līdzekļi.

Nozīmīguma pārbaude. Nodaļā ir aplūkotas statistiskās nozīmīguma pārbaudes pamatidejas Statistikas pamatjēdzieni(8. nodaļa). Šajā nodaļā ir arī izskaidroti iemesli, kāpēc daudzos testos tiek izmantota izskaidrotās un neizskaidrojamās dispersijas attiecība. Šāda lietojuma piemērs ir pati dispersijas analīze. Nozīmīguma pārbaude ANOVA ir balstīta uz dispersijas salīdzināšanu starp grupu dispersiju (saukta vidējais kvadrātveida efekts vai JAUNKUNDZEEfekts) un dispersiju, ko izraisa grupas iekšējās variācijas (sauktas vidējā kvadrātā kļūda vai JAUNKUNDZEkļūda). Ja nulles hipotēze (vidējo vienādība abās populācijās) ir patiesa, tad varētu sagaidīt salīdzinoši nelielas atšķirības izlases vidējos nejaušās variācijas dēļ. Tāpēc saskaņā ar nulles hipotēzi grupas iekšējā dispersija praktiski sakritīs ar kopējo dispersiju, kas aprēķināta, neņemot vērā piederību grupai. Iegūtās grupas iekšējās novirzes var salīdzināt, izmantojot F- tests, kas pārbauda, ​​vai dispersijas koeficients ir ievērojami lielāks par 1. Iepriekš apskatītajā piemērā F- kritērijs parāda, ka starpība starp vidējiem ir statistiski nozīmīga.

Dispersijas analīzes pamatloģika. Rezumējot, ANOVA mērķis ir pārbaudīt vidējo (grupu vai mainīgo lielumu) atšķirības statistisko nozīmīgumu. Šī pārbaude tiek veikta, izmantojot dispersijas analīzi, t.i. sadalot kopējo dispersiju (variāciju) daļās, no kurām viena ir nejaušas kļūdas (tas ir, grupas iekšējā mainīguma) dēļ, bet otrā ir saistīta ar vidējo vērtību atšķirībām. Pēc tam pēdējo dispersijas komponentu izmanto, lai analizētu starpības statistisko nozīmīgumu. Ja šī atšķirība ir nozīmīga, nulles hipotēze tiek noraidīta un tiek pieņemta alternatīvā hipotēze, ka starp līdzekļiem pastāv atšķirība.

Atkarīgie un neatkarīgie mainīgie. Tiek izsaukti mainīgie, kuru vērtības nosaka mērījumi eksperimenta laikā (piemēram, testa rezultāts). atkarīgi mainīgie. Mainīgos, kurus var kontrolēt eksperimentā (piemēram, mācību metodes vai citus kritērijus novērojumu sadalīšanai grupās) sauc faktoriem vai neatkarīgs mainīgie. Šie jēdzieni ir sīkāk aprakstīti nodaļā Statistikas pamatjēdzieni(8. nodaļa).

Daudzfaktoru dispersijas analīze

Iepriekš minētajā vienkāršajā piemērā varat nekavējoties aprēķināt neatkarīgo paraugu t-testu, izmantojot atbilstošo moduļa opciju Pamatstatistika un tabulas. Iegūtie rezultāti dabiski sakritīs ar dispersijas analīzes rezultātiem. Tomēr ANOVA satur elastīgas un spēcīgas metodes, kuras var izmantot daudz sarežģītākos pētījumos.

Daudzi faktori. Pasaule pēc būtības ir sarežģīta un daudzdimensionāla. Situācijas, kad noteiktu parādību pilnībā apraksta viens mainīgais, ir ārkārtīgi reti. Piemēram, ja mēs cenšamies iemācīties audzēt lielus tomātus, mums jāņem vērā faktori, kas saistīti ar auga ģenētisko struktūru, augsnes tipu, gaismu, temperatūru utt. Tādējādi, veicot tipisku eksperimentu, ir jārisina liels skaits faktoru. Galvenais iemesls, kāpēc ANOVA izmantošana ir ieteicama, nevis atkārtota divu paraugu salīdzināšana dažādos faktoru līmeņos, izmantojot t- kritērijs ir tāds, ka dispersijas analīze ir vairāk efektīvs un maziem paraugiem informatīvāks.

Faktoru vadība. Pieņemsim, ka iepriekš apskatītajā divu paraugu analīzes piemērā mēs pievienojam vēl vienu faktoru, piemēram, Stāvs- Dzimums. Katrā grupā ir 3 vīrieši un 3 sievietes. Šī eksperimenta dizainu var attēlot tabulas 2 x 2 veidā:

Eksperimentējiet. 1. grupa Eksperimentējiet. 2. grupa
Vīrieši2 6
3 7
1 5
Vidēji2 6
Sievietes4 8
5 9
3 7
Vidēji4 8

Pirms aprēķinu veikšanas varat pamanīt, ka šajā piemērā kopējai dispersijai ir vismaz trīs avoti:

(1) nejauša kļūda (grupas dispersijas ietvaros),

(2) mainīgums, kas saistīts ar dalību eksperimentālajā grupā, un

(3) mainīgums novērojamo objektu dzimuma dēļ.

(Ņemiet vērā, ka ir vēl viens iespējamais mainīguma avots - faktoru mijiedarbība, par kuru mēs runāsim vēlāk). Kas notiks, ja mēs neiekļausim stāvsdzimums kā faktoru analīzē un aprēķināt parasto t- kritērijs? Ja mēs aprēķinām kvadrātu summas, ignorējot stāvs -dzimums(t.i., apvienojot dažādu dzimumu objektus vienā grupā, aprēķinot grupas iekšējo dispersiju, tādējādi katrai grupai iegūstot kvadrātu summu, kas vienāda ar SS=10, un kopējā kvadrātu summa SS= 10+10 = 20), tad iegūstam lielāku iekšējās grupas dispersijas vērtību nekā ar precīzāku analīzi ar papildus sadalīšanu apakšgrupās atbilstoši daļēji dzimums(šajā gadījumā vidējais grupas iekšējais rādītājs būs vienāds ar 2, un kopējā kvadrātu summa grupas iekšienē būs vienāda ar SS = 2+2+2+2 = 8). Šī atšķirība ir saistīta ar to, ka vidējā vērtība par vīriešiem - tēviņi mazāk nekā vidēji par sievietes -sieviete, un šī līdzekļu atšķirība palielina vispārējo mainīgumu grupas ietvaros, ja dzimums netiek ņemts vērā. Kļūdu dispersijas kontrole palielina testa jutību (jaudu).

Šis piemērs parāda vēl vienu dispersijas analīzes priekšrocību salīdzinājumā ar parasto t- kritērijs diviem paraugiem. Dispersijas analīze ļauj izpētīt katru faktoru, kontrolējot atlikušo faktoru vērtības. Tas faktiski ir galvenais iemesls tās lielākai statistiskajai jaudai (lai iegūtu jēgpilnus rezultātus, ir nepieciešams mazāks izlases lielums). Šī iemesla dēļ dispersijas analīze pat mazos paraugos dod statistiski nozīmīgākus rezultātus nekā vienkārša t- kritērijs.

Mijiedarbības efekti

Ir vēl viena dispersijas analīzes priekšrocība salīdzinājumā ar parasto t- kritērijs: dispersijas analīze ļauj atklāt mijiedarbība starp faktoriem un tāpēc ļauj pētīt sarežģītākus modeļus. Lai ilustrētu, apsveriet citu piemēru.

Galvenie efekti, pāru (divu faktoru) mijiedarbība. Pieņemsim, ka ir divas skolēnu grupas, un psiholoģiski pirmās grupas skolēni ir apņēmības pilni pildīt uzdotos uzdevumus un ir mērķtiecīgāki nekā otrās grupas skolēni, kas sastāv no slinkākiem skolēniem. Pēc nejaušības principa sadalīsim katru grupu uz pusēm un katras grupas vienai pusei dosim sarežģītu uzdevumu, bet otrai – vieglu uzdevumu. Pēc tam mēs novērtēsim, cik smagi skolēni strādā pie šiem uzdevumiem. Šī (izdomātā) pētījuma vidējie rādītāji ir parādīti tabulā:

Kādus secinājumus var izdarīt no šiem rezultātiem? Vai varam secināt, ka: (1) skolēni intensīvāk strādā pie sarežģīta uzdevuma; (2) Vai motivēti studenti strādā vairāk nekā slinki studenti? Neviens no šiem apgalvojumiem neatspoguļo tabulā parādīto līdzekļu sistemātiskā rakstura būtību. Analizējot rezultātus, pareizāk būtu teikt, ka tikai motivēti skolēni vairāk strādā pie sarežģītiem uzdevumiem, bet tikai slinki skolēni vairāk strādā pie viegliem uzdevumiem. Citiem vārdiem sakot, skolēnu raksturs un uzdevuma sarežģītība mijiedarbojoties ietekmēt viens otru uz ieguldītajām pūlēm. Tas ir piemērs pāru mijiedarbība starp skolēnu raksturu un uzdevuma sarežģītību. Ņemiet vērā, ka 1. un 2. apgalvojumi apraksta galvenie efekti.

Augstākas kārtas mijiedarbības. Lai gan pāru mijiedarbību joprojām ir samērā viegli izskaidrot, augstākas pakāpes mijiedarbību ir daudz grūtāk izskaidrot. Iedomāsimies, ka iepriekš aplūkotajā piemērā ir ieviests vēl viens faktors stāvs -Dzimums un mēs saņēmām šādu vidējo rādītāju tabulu:

Kādus secinājumus tagad var izdarīt no iegūtajiem rezultātiem? Vidējie grafiki ļauj viegli interpretēt sarežģītus efektus. ANOVA modulis ļauj izveidot šos grafikus ar gandrīz vienu peles klikšķi.

Attēls zemāk esošajos grafikos attēlo pētāmo trīs faktoru mijiedarbību.

Aplūkojot grafikus, mēs varam secināt, ka sievietēm pastāv mijiedarbība starp personību un pārbaudes grūtībām: motivētas sievietes vairāk strādā pie grūta uzdevuma nekā pie viegla. Vīriešiem šī pati mijiedarbība ir pretēja. Var redzēt, ka faktoru mijiedarbības apraksts kļūst mulsinošāks.

Vispārīgs veids, kā aprakstīt mijiedarbību. Kopumā faktoru mijiedarbība tiek raksturota kā viena efekta izmaiņas cita ietekmes ietekmē. Iepriekš apskatītajā piemērā divu faktoru mijiedarbību var raksturot kā uzdevuma sarežģītību raksturojošā faktora galvenās ietekmes izmaiņas skolēna raksturu raksturojošā faktora ietekmē. Par trīs iepriekšējās rindkopas faktoru mijiedarbību var teikt, ka divu faktoru (uzdevuma sarežģītības un skolēna rakstura) mijiedarbība mainās atkarībā no dzimumsDzimums. Ja tiek pētīta četru faktoru mijiedarbība, var teikt, ka triju faktoru mijiedarbība mainās ceturtā faktora ietekmē, t.i. Ir dažādi mijiedarbības veidi dažādos ceturtā faktora līmeņos. Izrādās, ka daudzās jomās piecu vai pat vairāku faktoru mijiedarbība nav nekas neparasts.

Sarežģīti plāni

Starpgrupu un grupas iekšējie modeļi (atkārtotu pasākumu modeļi)

Salīdzinot divas dažādas grupas, to parasti izmanto t- kritērijs neatkarīgiem paraugiem (no moduļa Pamatstatistika un tabulas). Salīdzinot divus mainīgos lielumus vienā objektu kopā (novērojumos), tas tiek izmantots t-atkarīgo paraugu kritērijs. Dispersijas analīzei ir svarīgi arī, vai paraugi ir atkarīgi vai nav. Ja ir atkārtoti vieni un tie paši mainīgie mērījumi (dažādos apstākļos vai dažādos laikos) tiem pašiem objektiem, tad viņi runā par klātbūtni atkārtotu pasākumu faktors(ko sauc arī par grupas iekšējais faktors, jo, lai novērtētu tās nozīmīgumu, tiek aprēķināta kvadrātu summa grupā). Ja salīdzina dažādas objektu grupas (piemēram, vīrieši un sievietes, trīs baktēriju celmi utt.), tad tiek aprakstīta atšķirība starp grupām starpgrupu faktors. Metodes nozīmīguma kritēriju aprēķināšanai diviem aprakstītajiem faktoru veidiem ir atšķirīgas, taču to vispārējā loģika un interpretācijas ir vienādas.

Starpgrupu un iekšgrupu plāni. Daudzos gadījumos eksperimentā ir nepieciešams iekļaut gan starp subjektu faktoru, gan atkārtotu mērījumu faktoru. Piemēram, tiek mērītas sieviešu un vīriešu matemātikas prasmes (kur stāvs -Dzimums-starpgrupu faktors) semestra sākumā un beigās. Divi katra skolēna prasmju rādītāji veido grupas iekšējo faktoru (atkārtotu pasākumu faktoru). Galvenās ietekmes un mijiedarbības interpretācija starp priekšmetiem un atkārtotu mērījumu faktoriem ir konsekventa, un abu veidu faktori acīmredzami var savstarpēji mijiedarboties (piemēram, sievietes semestra laikā iegūst prasmes, bet vīrieši tās zaudē).

Nepilnīgi (ligzdoti) plāni

Daudzos gadījumos mijiedarbības efektu var neņemt vērā. Tas notiek vai nu tad, kad ir zināms, ka populācijā nav mijiedarbības efekta, vai arī tad, kad tiek īstenota pilnīga faktoriāls plāns nav iespējams. Piemēram, tiek pētīta četru degvielas piedevu ietekme uz degvielas patēriņu. Izvēlētas četras automašīnas un četri vadītāji. Pilns faktoriāls eksperiments prasa, lai katra kombinācija: piedeva, vadītājs, automašīna parādās vismaz vienu reizi. Tam ir vajadzīgas vismaz 4 x 4 x 4 = 64 testu grupas, kas ir pārāk laikietilpīgi. Turklāt, visticamāk, nav nekādas mijiedarbības starp vadītāju un degvielas piedevu. Ņemot to vērā, varat izmantot plānu latīņu kvadrāti, kurā ir tikai 16 testa grupas (četras piedevas ir apzīmētas ar burtiem A, B, C un D):

Latīņu kvadrāti ir aprakstīti lielākajā daļā grāmatu par eksperimentālo dizainu (piemēram, Hays, 1988; Lindman, 1974; Milliken and Johnson, 1984; Winer, 1962), un šeit tie netiks sīkāk apspriesti. Ņemiet vērā, ka latīņu kvadrāti ir Navnpilns konstrukcijas, kurās nav iekļautas visas faktoru līmeņu kombinācijas. Piemēram, vadītājs 1 vada automašīnu 1 tikai ar piedevu A, vadītājs 3 vada automašīnu 1 tikai ar piedevu C. Faktoru līmeņi piedevas ( A, B, C un D) ir ligzdotas tabulas šūnās automašīna x vadītājs - kā olas ligzdās. Šī mnemonika ir noderīga dabas izpratnei ligzdots vai ligzdots plāniem. Modulis Dispersijas analīze nodrošina vienkāršus veidus, kā analizēt šāda veida plānus.

Kovariācijas analīze

galvenā doma

Nodaļā Galvenās idejasĪsi tika apspriesta ideja par faktoru kontroli un to, kā aditīvu faktoru iekļaušana samazina kļūdu kvadrātu summu un palielina konstrukcijas statistisko jaudu. To visu var attiecināt uz mainīgajiem lielumiem ar nepārtrauktu vērtību kopu. Ja šādi nepārtraukti mainīgie ir iekļauti dizainā kā faktori, tos sauc kovariāti.

Fiksētie kovariāti

Pieņemsim, ka mēs salīdzinām divu skolēnu grupu matemātikas prasmes, kuras tika mācītas, izmantojot divas dažādas mācību grāmatas. Pieņemsim arī, ka katram skolēnam ir pieejami intelekta koeficienta (IQ) dati. Varat pieņemt, ka IQ ir saistīts ar matemātikas prasmēm, un izmantot šo informāciju. Katrai no divām skolēnu grupām var aprēķināt korelācijas koeficientu starp IQ un matemātikas prasmēm. Izmantojot šo korelācijas koeficientu, ir iespējams izdalīt dispersijas proporciju grupās, kas izskaidrojamas ar IQ ietekmi un neizskaidrojamu dispersijas proporciju (sk. arī Statistikas pamatjēdzieni(8. nodaļa) un Pamatstatistika un tabulas(9. nodaļa)). Atlikušo dispersijas daļu analīzē izmanto kā kļūdu dispersiju. Ja pastāv korelācija starp IQ un matemātikas prasmēm, kļūdu dispersiju var ievērojami samazināt SS/(n-1) .

Kovariātu ietekme uzF- kritērijs. F- kritērijs novērtē vidējo vērtību atšķirības statistisko nozīmīgumu grupās un aprēķina starpgrupu dispersijas attiecību ( JAUNKUNDZEefekts) līdz kļūdas dispersijai ( JAUNKUNDZEkļūda) . Ja JAUNKUNDZEkļūda samazinās, piemēram, ņemot vērā IQ koeficientu, vērtību F palielinās.

Daudz kovariantu. Iepriekš izmantoto argumentāciju vienam kovariātam (IQ) var viegli attiecināt uz vairākiem kovariātiem. Piemēram, papildus IQ var iekļaut motivācijas, telpiskās domāšanas u.c. mērījumus. Parastā korelācijas koeficienta vietā tiek izmantots daudzkārtējais korelācijas koeficients.

Kad vērtībaF -kritēriji samazinās. Dažreiz kovariātu ieviešana eksperimentālajā dizainā samazina nozīmi F- kritēriji . Tas parasti norāda, ka kovariāti ir saistīti ne tikai ar atkarīgo mainīgo (piemēram, matemātikas prasmēm), bet arī ar faktoriem (piemēram, dažādām mācību grāmatām). Pieņemsim, ka IQ tiek mērīts semestra beigās, pēc gandrīz gadu ilgas mācīšanas divām studentu grupām, izmantojot divas dažādas mācību grāmatas. Lai gan skolēni grupās tika iedalīti nejauši, iespējams, ka mācību grāmatu atšķirības ir tik lielas, ka gan IQ, gan matemātikas prasmes dažādās grupās ļoti atšķiras. Šajā gadījumā kovariācijas samazina ne tikai kļūdu dispersiju, bet arī starpgrupu dispersiju. Citiem vārdiem sakot, pēc IQ atšķirību kontroles dažādās grupās atšķirības matemātikas prasmēs vairs nav nozīmīgas. Var teikt savādāk. Pēc IQ ietekmes “izslēgšanas” netīši tiek izslēgta mācību grāmatas ietekme uz matemātisko prasmju attīstību.

Koriģētie vidējie rādītāji. Ja kovariāts ietekmē starpsubjektu faktoru, ir jāaprēķina pielāgoti līdzekļi, t.i. tie līdzekļi, kas iegūti pēc visu kovariantu aplēšu noņemšanas.

Kovariātu un faktoru mijiedarbība. Tāpat kā tiek pārbaudīta mijiedarbība starp faktoriem, var pārbaudīt mijiedarbību starp kovariātiem un starp faktoru grupām. Teiksim, kāda no mācību grāmatām ir īpaši piemērota gudriem skolēniem. Otrā mācību grāmata ir garlaicīga gudriem skolēniem, un tā pati mācību grāmata ir grūta mazāk gudriem skolēniem. Rezultātā ir pozitīva korelācija starp IQ un mācīšanās rezultātu pirmajā grupā (gudrāki skolēni, labāki rezultāti) un nulle vai neliela negatīva korelācija otrajā grupā (jo gudrāks skolēns, jo mazāka iespēja apgūt matemātiskās prasmes no otrās mācību grāmatas). Dažos pētījumos šī situācija tiek aplūkota kā piemērs kovariācijas analīzes pieņēmumu pārkāpumam. Tomēr, tā kā ANOVA modulī tiek izmantotas visizplatītākās kovariācijas analīzes metodes, ir iespējams īpaši novērtēt faktoru un kovariātu mijiedarbības statistisko nozīmīgumu.

Mainīgie kovariāti

Ja fiksētie kovariāti mācību grāmatās tiek apspriesti diezgan bieži, mainīgie kovarianti tiek minēti daudz retāk. Parasti, veicot eksperimentus ar atkārtotiem mērījumiem, mūs interesē atšķirības vienādu daudzumu mērījumos dažādos laika punktos. Proti, mūs interesē šo atšķirību nozīme. Ja kovariātus mēra vienlaikus ar atkarīgo mainīgo lielumu mērījumiem, var aprēķināt korelāciju starp kovariātu un atkarīgo mainīgo.

Piemēram, matemātikas interesi un matemātikas prasmes varētu izpētīt semestra sākumā un beigās. Būtu interesanti pārbaudīt, vai izmaiņas interesē par matemātiku ir saistītas ar izmaiņām matemātikas prasmēs.

Modulis Dispersijas analīze V STATISTIKA automātiski novērtē kovariātu izmaiņu statistisko nozīmīgumu dizainā, ja iespējams.

Daudzfaktoru modeļi: daudzfaktoru dispersijas un kovariācijas analīze

Starpgrupu plāni

Visi iepriekš apspriestie piemēri ietvēra tikai vienu atkarīgo mainīgo. Ja vienlaikus ir vairāki atkarīgie mainīgie, palielinās tikai aprēķinu sarežģītība, bet saturs un pamatprincipi nemainās.

Piemēram, pētījums tiek veikts par divām dažādām mācību grāmatām. Paralēli tiek pētītas skolēnu sekmes fizikas un matemātikas apguvē. Šajā gadījumā ir divi atkarīgi mainīgie, un jums ir jānoskaidro, kā divas dažādas mācību grāmatas tos ietekmē vienlaikus. Lai to izdarītu, varat izmantot daudzfaktoru dispersijas analīzi (MANOVA). Nevis viendimensionāls F kritērijs, tiek izmantots daudzdimensionāls F tests (Vilksa l tests), pamatojoties uz kļūdu kovariācijas matricas un starpgrupu kovariācijas matricas salīdzinājumu.

Ja atkarīgie mainīgie ir savstarpēji saistīti, tad šī korelācija jāņem vērā, aprēķinot nozīmīguma kritēriju. Acīmredzot, ja vienu un to pašu mērījumu atkārto divas reizes, tad neko jaunu nevar iegūt. Ja esošai dimensijai pievieno korelētu dimensiju, tiek iegūta kāda jauna informācija, bet jaunais mainīgais satur lieku informāciju, kas atspoguļojas mainīgo lielumu kovariācijā.

Rezultātu interpretācija. Ja kopējais daudzfaktoru tests ir nozīmīgs, mēs varam secināt, ka atbilstošais efekts (piemēram, mācību grāmatas veids) ir nozīmīgs. Tomēr rodas šādi jautājumi. Vai mācību grāmatas veids ietekmē tikai matemātikas prasmju, tikai fizisko prasmju vai abu prasmju uzlabošanos? Faktiski pēc nozīmīga daudzfaktoru testa iegūšanas tiek pārbaudīts vienfaktoru tests, lai noteiktu individuālo galveno efektu vai mijiedarbību. F kritērijs. Citiem vārdiem sakot, atkarīgie mainīgie, kas veicina daudzfaktoru testa nozīmīgumu, tiek pārbaudīti atsevišķi.

Atkārtotu pasākumu modeļi

Ja skolēnu matemātikas un fizikas prasmes mēra semestra sākumā un beigās, tad tie ir atkārtoti mērījumi. Nozīmīguma kritērija izpēte šādos plānos ir viendimensijas gadījuma loģiska attīstība. Ņemiet vērā, ka dispersijas metožu daudzfaktoru analīze parasti tiek izmantota arī, lai pārbaudītu to vienfaktoru atkārtotu mērījumu faktoru nozīmi, kuriem ir vairāk nekā divi līmeņi. Atbilstošie pieteikumi tiks apspriesti vēlāk šajā daļā.

Mainīgo vērtību summēšana un daudzfaktoru dispersijas analīze

Pat pieredzējušiem vienfaktoru un daudzfaktoru dispersijas analīzes lietotājiem bieži ir grūti iegūt atšķirīgus rezultātus, piemērojot daudzfaktoru dispersijas analīzi, piemēram, trīs mainīgajiem, un piemērojot vienfaktoru dispersijas analīzi šo trīs mainīgo summai, it kā bija viens mainīgais.

Ideja summēšana mainīgie ir tas, ka katrs mainīgais satur kādu patiesu mainīgo, kas tiek pētīts, kā arī nejaušu mērījumu kļūdu. Tāpēc, aprēķinot mainīgo lielumu vidējās vērtības, mērījumu kļūda visiem mērījumiem būs tuvāk 0 un vidējās vērtības būs ticamākas. Faktiski šajā gadījumā ANOVA piemērošana mainīgo lielumu summai ir saprātīga un spēcīga metode. Tomēr, ja atkarīgie mainīgie pēc būtības ir daudzdimensionāli, mainīgo vērtību summēšana nav piemērota.

Piemēram, atkarīgie mainīgie sastāv no četriem rādītājiem panākumi sabiedrībā. Katrs rādītājs raksturo pilnīgi neatkarīgu cilvēka darbības aspektu (piemēram, profesionālie panākumi, panākumi biznesā, ģimenes labklājība utt.). Šo mainīgo pievienošana ir kā ābolu un apelsīnu pievienošana. Šo mainīgo lielumu summa nebūtu piemērots viendimensionāls rādītājs. Tāpēc šādi dati ir jāuzskata par daudzdimensionāliem rādītājiem daudzfaktoru dispersijas analīze.

Kontrasta analīze un post hoc testi

Kāpēc tiek salīdzinātas atsevišķas vidējo rādītāju kopas?

Parasti hipotēzes par eksperimentālajiem datiem tiek formulētas ne tikai galveno efektu vai mijiedarbības izteiksmē. Piemērs varētu būt šāda hipotēze: noteikta mācību grāmata uzlabo matemātikas prasmes tikai studentiem vīriešiem, savukārt cita mācību grāmata ir aptuveni vienlīdz efektīva abiem dzimumiem, bet joprojām ir mazāk efektīva vīriešiem. Var paredzēt, ka mācību grāmatu efektivitāte mijiedarbojas ar studentu dzimumu. Taču arī šī prognoze ir spēkā dabu mijiedarbības. Sagaidāma būtiska atšķirība starp dzimumiem skolēniem, kuri izmanto vienu grāmatu, un praktiski neatkarīgi rezultāti pēc dzimuma skolēniem, kuri izmanto otru grāmatu. Šāda veida hipotēzes parasti pārbauda, ​​izmantojot kontrasta analīzi.

Kontrastu analīze

Īsāk sakot, kontrasta analīze ļauj novērtēt noteiktu sarežģītu efektu lineāru kombināciju statistisko nozīmīgumu. Kontrasta analīze ir jebkura sarežģīta ANOVA plāna galvenais un obligātais elements. Modulis Dispersijas analīze ir diezgan dažādas kontrasta analīzes iespējas, kas ļauj izolēt un analizēt jebkāda veida līdzekļu salīdzinājumu.

A posteriori salīdzinājumiem

Dažreiz eksperimenta apstrādes rezultātā tiek atklāts negaidīts efekts. Lai gan vairumā gadījumu radošs pētnieks spēs izskaidrot jebkuru rezultātu, tas neļauj veikt turpmāku analīzi un aplēses prognozēšanai. Šī problēma ir viena no tām, kurām a posteriori kritēriji, tas ir, kritēriji, kurus neizmanto priekšroka hipotēzes. Lai ilustrētu, apsveriet šādu eksperimentu. Pieņemsim, ka ir 100 kārtis, kurās ir skaitļi no 1 līdz 10. Ieliekot visas šīs kārtis galvenē, mēs nejauši atlasām 5 kārtis 20 reizes un aprēķinām vidējo vērtību (uz kartēm rakstīto skaitļu vidējo) katram paraugam. Vai var sagaidīt, ka būs divi paraugi, kuru vidējie rādītāji būtiski atšķiras? Tas ir ļoti ticami! Atlasot divus paraugus ar maksimālo un minimālo vidējo, jūs varat iegūt vidējo atšķirību, kas ļoti atšķiras no vidējo, piemēram, pirmo divu paraugu atšķirības. Šo atšķirību var izpētīt, piemēram, izmantojot kontrasta analīzi. Neiedziļinoties detaļās, ir vairāki t.s a posteriori kritēriji, kas ir balstīti tieši uz pirmo scenāriju (ņemot ekstrēmus līdzekļus no 20 paraugiem), t.i., šie kritēriji ir balstīti uz visdažādāko līdzekļu izvēli, lai salīdzinātu visus līdzekļus projektā. Šie kritēriji tiek izmantoti, lai nodrošinātu, ka mākslīgais efekts netiek iegūts tikai nejauši, piemēram, lai noteiktu būtisku atšķirību starp līdzekļiem, ja tādas nav. Modulis Dispersijas analīze piedāvā plašu šādu kritēriju klāstu. Ja eksperimentā, kurā iesaistītas vairākas grupas, tiek konstatēti negaidīti rezultāti, tad a posteriori iegūto rezultātu statistiskā nozīmīguma pārbaudes procedūras.

I, II, III un IV tipa kvadrātu summa

Daudzfaktoru regresija un dispersijas analīze

Pastāv cieša saikne starp daudzfaktoru regresijas metodi un dispersijas analīzi (dispersijas analīzi). Abās metodēs tiek pētīts lineārais modelis. Īsāk sakot, gandrīz visus eksperimentālos projektus var pārbaudīt, izmantojot daudzfaktoru regresiju. Apsveriet šādu vienkāršo starpgrupu 2 x 2 dizainu.

D.V. A B AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

A un B kolonnās ir kodi, kas raksturo faktoru A un B līmeņus, kolonnā AxB ir divu kolonnu A un B reizinājums. Šos datus varam analizēt, izmantojot daudzfaktoru regresiju. Mainīgs D.V. definēts kā atkarīgs mainīgais, mainīgie no A pirms tam AxB kā neatkarīgi mainīgie. Regresijas koeficientu nozīmīguma izpēte sakritīs ar faktoru galveno efektu nozīmīguma dispersijas analīzē veiktajiem aprēķiniem. A Un B un mijiedarbības efekts AxB.

Nesabalansēti un sabalansēti plāni

Aprēķinot korelācijas matricu visiem mainīgajiem lielumiem, piemēram, iepriekš attēlotajiem datiem, jūs ievērosiet, ka faktoru galvenā ietekme A Un B un mijiedarbības efekts AxB nekorelēts. Šo efektu īpašību sauc arī par ortogonalitāti. Viņi saka sekas A Un B - ortogonāls vai neatkarīgs viens no otra. Ja visi efekti plānā ir ortogonāli viens otram, kā iepriekš minētajā piemērā, tad tiek uzskatīts, ka plāns ir līdzsvarots.

Līdzsvarotiem plāniem ir "labs īpašums". Aprēķini šādu plānu analīzei ir ļoti vienkārši. Visi aprēķini ir saistīti ar korelācijas aprēķināšanu starp efektiem un atkarīgajiem mainīgajiem. Tā kā efekti ir ortogonāli, daļējas korelācijas (kā pilnībā daudzdimensionāls regresijas) netiek aprēķinātas. Tomēr reālajā dzīvē plāni ne vienmēr ir līdzsvaroti.

Apskatīsim reālos datus ar nevienlīdzīgu novērojumu skaitu šūnās.

Faktors A Faktors B
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Ja mēs kodējam šos datus, kā norādīts iepriekš, un aprēķinām korelācijas matricu visiem mainīgajiem, mēs atklājam, ka dizaina faktori ir savstarpēji saistīti. Faktori plānā vairs nav ortogonāli, un šādus plānus sauc nesabalansēts.Ņemiet vērā, ka aplūkotajā piemērā korelācija starp faktoriem ir pilnībā saistīta ar 1 un -1 biežuma atšķirību datu matricas kolonnās. Citiem vārdiem sakot, eksperimentālie modeļi ar nevienlīdzīgiem šūnu tilpumiem (precīzāk, nesamērīgiem apjomiem) būs nelīdzsvaroti, kas nozīmē, ka tiks sajaukti galvenie efekti un mijiedarbība. Šajā gadījumā ir jāaprēķina pilna daudzfaktoru regresija, lai aprēķinātu ietekmes statistisko nozīmīgumu. Šeit ir vairākas stratēģijas.

I, II, III un IV tipa kvadrātu summa

Kvadrātu summas veidsesUnIII. Lai pārbaudītu katra faktora nozīmīgumu daudzfaktoru modelī, var aprēķināt katra faktora daļējo korelāciju ar nosacījumu, ka visi pārējie faktori jau ir ņemti vērā modelī. Varat arī ievadīt faktorus modelī pakāpeniski, tverot visus modelī jau ievadītos faktorus un ignorējot visus citus faktorus. Kopumā šī ir atšķirība starp veids III Un veidses kvadrātu summa (šī terminoloģija tika ieviesta SAS, sk., piemēram, SAS, 1982; sīkāka diskusija atrodama arī Searle, 1987, 461. lpp.; Woodward, Bonett un Brecht, 1990, 216. lpp.; vai Milliken un Johnson, 1984, 138. lpp.).

Kvadrātu summas veidsII. Nākamā “starpposma” modeļa veidošanas stratēģija sastāv no: visu galveno efektu kontrole, pārbaudot viena galvenā efekta nozīmīgumu; visu galveno efektu un visu pāru mijiedarbības kontrolēšanā, pārbaudot atsevišķas pāru mijiedarbības nozīmīgumu; visu pāru mijiedarbības un visu trīs faktoru mijiedarbības visu galveno seku kontrole; pētot trīs faktoru individuālo mijiedarbību utt. Šādi aprēķināto efektu kvadrātu summas sauc veidsII kvadrātu summa. Tātad, veidsII kvadrātu summas vadīklas visiem vienādas un zemākas kārtas efektiem, vienlaikus ignorējot visus augstākas kārtas efektus.

Kvadrātu summas veidsIV. Visbeidzot, dažiem īpašiem plāniem ar trūkstošām šūnām (nepilnīgiem plāniem) ir iespējams aprēķināt t.s veids IV kvadrātu summa. Šī metode tiks apspriesta vēlāk saistībā ar nepilnīgiem projektiem (dizainiem ar trūkstošām šūnām).

I, II un III tipa kvadrātu summas hipotēzes interpretācija

Kvadrātu summa veidsIII visvieglāk interpretējams. Atgādināt, ka kvadrātu summas veidsIII pārbaudiet ietekmi pēc visu pārējo efektu kontroles. Piemēram, pēc statistiski nozīmīgas atrašanas veidsIII ietekme uz faktoru A modulī Dispersijas analīze, mēs varam teikt, ka ir viena būtiska faktora ietekme A, pēc visu pārējo efektu (faktoru) ieviešanas un attiecīgi interpretējiet šo efektu. Iespējams, 99% no visiem ANOVA lietojumiem šis ir testa veids, kas pētnieku interesē. Šāda veida kvadrātu summu parasti aprēķina modulo Dispersijas analīze pēc noklusējuma neatkarīgi no tā, vai opcija ir atlasīta Regresijas pieeja vai nē (modulī pieņemtās standarta pieejas Dispersijas analīze apspriests tālāk).

Nozīmīgi efekti, kas iegūti, izmantojot kvadrātu summas veids vai veidsII kvadrātu summas nav tik vienkārši interpretējamas. Tos vislabāk interpretēt pakāpeniskas daudzfaktoru regresijas kontekstā. Ja, izmantojot kvadrātu summu veidses faktora B galvenā ietekme bija nozīmīga (pēc faktora A iekļaušanas modelī, bet pirms A un B mijiedarbības pievienošanas), varam secināt, ka pastāv būtiska B faktora galvenā ietekme, ja nav mijiedarbības starp faktoriem A un B. (Ja izmanto kritēriju veidsIII, faktors B arī izrādījās nozīmīgs, tad pēc visu pārējo faktoru un to mijiedarbības ieviešanas modelī varam secināt, ka pastāv būtiska faktora B galvenā ietekme).

Runājot par marginālo nozīmē hipotēzi veidses Un veidsII parasti nav vienkāršas interpretācijas. Šajos gadījumos tiek teikts, ka nevar interpretēt efektu nozīmi, aplūkojot tikai marginālos līdzekļus. Drīzāk pasniegts lpp līdzekļi ir saistīti ar sarežģītu hipotēzi, kas apvieno līdzekļus un izlases lielumu. Piemēram, veidsII faktora A hipotēzes vienkāršajā 2 x 2 dizaina piemērā, kas tika apspriests iepriekš, būtu šādas (sk. Woodward, Bonett un Brecht, 1990, 219. lpp.):

nij- novērojumu skaits šūnā

uij- vidējā vērtība šūnā

n. j- marginālais vidējais

Pārāk neiedziļinoties detaļās (sīkāk skat. Milliken un Johnson, 1984, 10. nodaļu), ir skaidrs, ka tās nav vienkāršas hipotēzes un vairumā gadījumu neviena no tām pētnieku īpaši neinteresē. Tomēr ir gadījumi, kad hipotēzes veidses var būt interesanti.

Noklusējuma skaitļošanas pieeja modulī Dispersijas analīze

Noklusējums, ja opcija nav atzīmēta Regresijas pieeja, modulis Dispersijas analīze lietojumiem šūnu vidējais modelis. Šim modelim ir raksturīgs tas, ka kvadrātu summas dažādiem efektiem tiek aprēķinātas lineārām šūnu vidējo kombinācijām. Pilnā faktoriālā eksperimentā rezultātā tiek iegūtas kvadrātu summas, kas ir tādas pašas kā kvadrātu summas, kas tika apspriestas iepriekš kā veids III. Tomēr opcijā Plānotie salīdzinājumi(logā ANOVA rezultāti), lietotājs var pārbaudīt hipotēzi pret jebkuru lineāru svērto vai nesvērto šūnu vidējo kombināciju. Tādējādi lietotājs var pārbaudīt ne tikai hipotēzes veidsIII, bet jebkura veida hipotēzes (ieskaitot veidsIV). Šī vispārējā pieeja ir īpaši noderīga, pārbaudot dizainus ar trūkstošām šūnām (saukti par nepilnīgiem dizainiem).

Pilniem faktoriālajiem projektiem šī pieeja ir noderīga arī tad, ja vēlas analizēt svērtos robežvidus. Piemēram, pieņemsim, ka vienkāršajā 2 x 2 dizainā, kas tika aplūkots iepriekš, mums ir jāsalīdzina svērtais (pēc faktoru līmeņiem B) faktora A robežvidēji. Tas ir noderīgi, ja novērojumu sadalījumu šūnās nav sagatavojis eksperimentētājs, bet gan tas tika izveidots nejauši, un šī nejaušība atspoguļojas novērojumu skaita sadalījumā pa faktora B līmeņiem agregāts.

Piemēram, ir faktors – atraitņu vecums. Iespējamā respondentu izlase ir sadalīta divās grupās: jaunāki par 40 gadiem un vecāki par 40 gadiem (B faktors). Otrs faktors (A faktors) plānā bija tas, vai atraitnes saņēma sociālo atbalstu no kādas aģentūras (dažas atraitnes tika izvēlētas nejauši, citas kalpoja kā kontroles). Šajā gadījumā atraitņu sadalījums pēc vecuma izlasē atspoguļo faktisko atraitņu sadalījumu pēc vecuma populācijā. Atraitņu sociālā atbalsta grupas efektivitātes novērtēšana visi vecumi atbildīs vidējam svērtajam rādītājam divām vecuma grupām (ar svariem, kas atbilst novērojumu skaitam grupā).

Plānotie salīdzinājumi

Ņemiet vērā, ka ievadīto kontrasta koeficientu summa ne vienmēr ir vienāda ar 0 (nulle). Tā vietā programma automātiski veiks korekcijas, lai nodrošinātu, ka atbilstošās hipotēzes netiek sajauktas ar kopējo vidējo rādītāju.

Lai to ilustrētu, atgriezīsimies pie vienkāršā 2 x 2 plāna, kas tika apspriests iepriekš. Atgādinām, ka novērojumu skaits šīs nelīdzsvarotās konstrukcijas šūnās ir -1, 2, 3 un 1. Pieņemsim, ka mēs vēlamies salīdzināt faktora A svērtos robežvidus (svērts pēc faktora B līmeņu biežuma). Varat ievadīt kontrasta koeficientus:

Ņemiet vērā, ka šie koeficienti nesummējas līdz 0. Programma iestatīs koeficientus tā, lai tie saskaitītu līdz 0, un to relatīvās vērtības tiks saglabātas, t.i.:

1/3 2/3 -3/4 -1/4

Šie kontrasti salīdzinās faktora A svērtos vidējos.

Hipotēzes par galveno vidējo. Hipotēzi, ka nesvērtais galvenais vidējais rādītājs ir 0, var izpētīt, izmantojot koeficientus:

Hipotēze, ka svērtais galvenais vidējais ir 0, tiek pārbaudīta, izmantojot:

Programma nekādā gadījumā neregulē kontrasta attiecības.

Plānu ar trūkstošām šūnām analīze (nepilnīgi plāni)

Faktoriālie modeļi, kas satur tukšas šūnas (apstrādājot šūnu kombinācijas, kurām nav novērojumu), tiek saukti par nepilnīgiem. Šādos veidos daži faktori parasti nav ortogonāli, un dažas mijiedarbības nevar aprēķināt. Parasti nav labākas metodes šādu plānu analīzei.

Regresijas pieeja

Dažās vecākās programmās, kas paļaujas uz ANOVA dizainu analīzi, izmantojot daudzfaktoru regresiju, faktori nepilnīgajos plānos tiek norādīti pēc noklusējuma kā parasti (it kā dizains būtu pabeigts). Pēc tam šiem fiktīvi kodētajiem faktoriem tiek veiktas daudzfaktoru regresijas analīzes. Diemžēl šī metode rada rezultātus, kurus ir ļoti grūti, ja ne neiespējami interpretēt, jo nav skaidrs, kā katrs efekts veicina lineāro līdzekļu kombināciju. Apsveriet šādu vienkāršo piemēru.

Faktors A Faktors B
B1 B2
A1 3 4, 5
A2 6, 6, 7 Nokavēts

Ja veicam formas daudzfaktoru regresiju Atkarīgais mainīgais = konstante + faktors A + faktors B, tad hipotēze par faktoru A un B nozīmi lineāro vidējo kombināciju izteiksmē izskatās šādi:

Faktors A: šūna A1,B1 = šūna A2,B1

Faktors B: šūna A1, B1 = šūna A1, B2

Šis gadījums ir vienkāršs. Sarežģītākos projektos nav iespējams faktiski noteikt, kas tieši tiks pārbaudīts.

Šūnu līdzekļi, ANOVA pieeja , IV tipa hipotēzes

Literatūrā ieteiktā pieeja, kas šķiet vēlama, ir jēgpilna (pētāmo jautājumu ziņā) studēšana. priekšroka hipotēzes par plāna šūnās novērotajiem līdzekļiem. Detalizēta diskusija par šo pieeju ir atrodama Dodge (1985), Heiberger (1989), Milliken un Johnson (1984), Searle (1987) vai Woodward, Bonett un Brecht (1990). Kvadrātu summas, kas saistītas ar hipotēzēm par lineāro vidējo kombināciju nepilnīgos projektos, kas pārbauda daļu efektu aplēses, sauc arī par kvadrātu summām. IV.

Automātiska tipa hipotēžu ģenerēšanaIV. Ja daudzfaktoru modeļiem ir sarežģīti trūkstošo šūnu modeļi, ir vēlams definēt ortogonālas (neatkarīgas) hipotēzes, kuru izpēte ir līdzvērtīga galveno efektu vai mijiedarbības pārbaudei. Ir izstrādātas algoritmiskās (skaitļošanas) stratēģijas (pamatojoties uz pseido-inverso dizaina matricu), lai ģenerētu piemērotus svarus šādiem salīdzinājumiem. Diemžēl galīgās hipotēzes nav definētas unikālā veidā. Protams, tie ir atkarīgi no secības, kādā sekas tika identificētas, un reti pieļauj vienkāršu interpretāciju. Tāpēc ieteicams rūpīgi izpētīt trūkstošo šūnu būtību, pēc tam formulēt hipotēzes veidsIV, kas visnozīmīgākajā veidā atbilst pētījuma mērķiem. Pēc tam izpētiet šīs hipotēzes, izmantojot opciju Plānotie salīdzinājumi logā rezultātus. Vienkāršākais veids, kā šajā gadījumā norādīt salīdzinājumus, ir pieprasīt kontrastu vektora ieviešanu visiem faktoriem kopā logā Plānotie salīdzinājumi. Pēc dialoglodziņa izsaukšanas Plānotie salīdzinājumi Tiks parādītas visas pašreizējā plāna grupas un tiks atzīmētas tās, kuras trūkst.

Trūkstošās šūnas un specifiska efekta pārbaude

Ir vairāki dizaina veidi, kuros trūkstošo šūnu atrašanās vieta nav nejauša, bet ir rūpīgi plānota, ļaujot vienkārši analizēt galvenos efektus, neietekmējot citus efektus. Piemēram, ja plānā nav pieejams nepieciešamais šūnu skaits, plāni bieži tiek izmantoti Latīņu kvadrāti lai novērtētu vairāku faktoru galveno ietekmi ar lielu skaitu līmeņu. Piemēram, 4 x 4 x 4 x 4 faktoriālam dizainam ir nepieciešamas 256 šūnas. Tajā pašā laikā jūs varat izmantot Grieķu-latīņu laukums lai novērtētu galvenos efektus tikai ar 16 šūnām dizainā (nodaļa Eksperimentu plānošana, IV sējums, satur šādu plānu detalizētu aprakstu). Tiek saukti nepilnīgi modeļi, kuros galvenos efektus (un dažas mijiedarbības) var novērtēt, izmantojot vienkāršas lineāras līdzekļu kombinācijas. līdzsvaroti nepilnīgi plāni.

Līdzsvarotos projektos standarta (noklusējuma) metode kontrastu (svaru) ģenerēšanai galvenajiem efektiem un mijiedarbībām pēc tam izveidos dispersiju analīzes tabulu, kurā attiecīgo efektu kvadrātu summas netiek sajauktas viena ar otru. Opcija Specifiski efekti logs rezultātusģenerēs trūkstošos kontrastus, ierakstot nulli trūkstošajām plāna šūnām. Tūlīt pēc opcijas pieprasīšanas Specifiski efekti Lietotājam, kurš pārbauda kādu hipotēzi, tiek parādīta rezultātu tabula ar faktiskajiem svariem. Ņemiet vērā, ka līdzsvarotā dizainā atbilstošo efektu kvadrātu summas tiek aprēķinātas tikai tad, ja šie efekti ir ortogonāli (neatkarīgi) visiem pārējiem galvenajiem efektiem un mijiedarbībām. Pretējā gadījumā jums ir jāizmanto opcija Plānotie salīdzinājumi izpētīt jēgpilnus salīdzinājumus starp līdzekļiem.

Trūkst šūnu un apvienoti efektu/kļūdu termini

Ja iespēja Regresijas pieeja moduļa sākuma panelī Dispersijas analīze nav atlasīts, šūnu vidējais modelis tiks izmantots, aprēķinot efektu kvadrātu summu (noklusējuma iestatījums). Ja dizains nav līdzsvarots, tad, apvienojot neortogonālus efektus (skatiet iepriekš diskusijas par opciju Izlaistas šūnas un specifiskais efekts) var iegūt kvadrātu summu, kas sastāv no neortogonāliem (vai pārklājošiem) komponentiem. Iegūtie rezultāti parasti nav interpretējami. Tāpēc ir jābūt ļoti uzmanīgiem, izvēloties un īstenojot sarežģītus nepabeigtus eksperimentālos projektus.

Ir daudz grāmatu ar detalizētām diskusijām par dažāda veida plāniem. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken un Johnson, 1984; Searle, 1987; Woodward un Bonett, 1990), taču šāda veida informācija neietilpst šīs mācību grāmatas ietvaros. Tomēr dažādu plānu veidu analīze tiks parādīta vēlāk šajā sadaļā.

Pieņēmumi un pieņēmumu pārkāpšanas sekas

Novirze no normālo sadalījumu pieņēmuma

Pieņemsim, ka atkarīgais mainīgais tiek mērīts skaitliskā skalā. Pieņemsim arī, ka atkarīgais mainīgais parasti ir sadalīts katrā grupā. Dispersijas analīze satur plašu grafiku un statistikas datu klāstu, lai atbalstītu šo pieņēmumu.

Traucējumu sekas. Pavisam F tests ir ļoti izturīgs pret novirzēm no normas (detalizētus rezultātus skatīt Lindman, 1974). Ja kurtoze ir lielāka par 0, tad statistikas vērtība ir F var kļūt ļoti mazs. Nulles hipotēze tiek pieņemta, lai gan tā var nebūt patiesa. Situācija ir pretēja, ja kurtoze ir mazāka par 0. Sadalījuma šķībums parasti maz ietekmē F statistika. Ja novērojumu skaits šūnā ir pietiekami liels, tad novirze no normas nav īpaši nozīmīga, jo centrālā robežu teorēma, saskaņā ar kuru vidējās vērtības sadalījums ir tuvu normālam, neatkarīgi no sākotnējā sadalījuma. Detalizēta diskusija par ilgtspējību F statistiku var atrast Box and Anderson (1955) vai Lindman (1974).

Dispersijas vienveidība

Pieņēmumi. Tiek pieņemts, ka dažādu dizaina grupu dispersijas ir vienādas. Šo pieņēmumu sauc par pieņēmumu dispersijas viendabīgums. Atgādinām, ka šīs sadaļas sākumā, aprakstot kļūdu kvadrātu summas aprēķinu, mēs veicām summēšanu katras grupas ietvaros. Ja dispersijas divās grupās atšķiras viena no otras, tad to saskaitīšana nav ļoti dabiska un nesniedz kopējās grupas iekšējās dispersijas novērtējumu (jo šajā gadījumā kopējās dispersijas nav vispār). Modulis Dispersijas analīze -ANOVA/MANOVA satur lielu statistisko kritēriju kopumu, lai noteiktu novirzes no pieņēmumiem par dispersijas viendabīgumu.

Traucējumu sekas. Lindmans (1974, 33. lpp.) parāda, ka F kritērijs ir diezgan stabils attiecībā uz dispersijas homogenitātes pieņēmumu pārkāpumu ( neviendabīgums dispersiju, skatīt arī Box, 1954a, 1954b; Hsu, 1938).

Īpašs gadījums: vidējo un dispersiju korelācija. Ir reizes, kad F statistika var maldināt. Tas notiek, ja dizaina šūnu līdzekļi ir korelēti ar dispersiju. Modulis Dispersijas analīzeļauj attēlot dispersijas vai standarta novirzes izkliedes diagrammas pret vidējo, lai noteiktu šādu korelāciju. Iemesls, kāpēc šī korelācija ir bīstama, ir šāds. Iedomāsimies, ka plānā ir 8 šūnas, no kurām 7 ir gandrīz vienādas vidējās vērtības, un vienā šūnā vidējais ir daudz augstāks nekā pārējās. Tad F tests var noteikt statistiski nozīmīgu efektu. Bet pieņemsim, ka šūnā ar lielu vidējo vērtību dispersija ir ievērojami lielāka nekā pārējām, t.i. vidējā vērtība un dispersija šūnās ir atkarīgas (jo augstāks vidējais, jo lielāka dispersija). Šajā gadījumā liela vidējā vērtība ir neuzticama, jo to var izraisīt liela datu atšķirība. Tomēr F statistika, pamatojoties uz vienoti dispersija šūnās atspoguļos lielo vidējo, lai gan testos, kuru pamatā ir dispersija katrā šūnā, visas līdzekļu atšķirības neuzskatīs par nozīmīgām.

Šāda veida dati (liela vidējā un liela dispersija) bieži rodas, ja novērojumi ir novirzīti. Viens vai divi novirzes novērojumi ievērojami maina vidējo vērtību un ievērojami palielina dispersiju.

Izkliedes un kovariācijas homogenitāte

Pieņēmumi. Daudzfaktoru modeļi ar daudzfaktoru atkarīgiem mērījumiem arī piemēro iepriekš aprakstīto pieņēmumu par dispersijas viendabīgumu. Tomēr, tā kā ir daudzfaktoru atkarīgi mainīgie, ir arī nepieciešams, lai to savstarpējās korelācijas (kovariācijas) būtu vienādas visās dizaina šūnās. Modulis Dispersijas analīze piedāvā dažādus veidus, kā pārbaudīt šos pieņēmumus.

Traucējumu sekas. Daudzdimensiju analogs F- kritērijs - Vilksa λ-tests. Nav daudz zināms par Vilksa λ testa robustumu attiecībā uz iepriekšminēto pieņēmumu pārkāpumiem. Tomēr, tā kā moduļa interpretācijas rezultāti Dispersijas analīze parasti balstās uz vienfaktoru efektu nozīmīgumu (pēc vispārējā kritērija nozīmīguma noteikšanas), diskusija par robustumu galvenokārt attiecas uz vienfaktoru dispersijas analīzi. Tāpēc ir rūpīgi jāizpēta vienfaktoru efektu nozīme.

Īpašs gadījums: kovariācijas analīze.Īpaši nopietni dispersijas/kovariācijas homogenitātes pārkāpumi var rasties, ja projektā ir iekļauti kovarianti. Jo īpaši, ja korelācija starp kovariātiem un atkarīgajiem rādītājiem atšķiras dažādās konstrukcijas šūnās, var rasties nepareiza rezultātu interpretācija. Atcerieties, ka kovariācijas analīze būtībā veic regresijas analīzi katrā šūnā, lai izolētu to dispersijas daļu, ko nosaka kovariāts. Pieņēmums par dispersijas/kovariācijas homogenitāti pieņem, ka šī regresijas analīze tiek veikta saskaņā ar šādu ierobežojumu: visi regresijas vienādojumi (slīpumi) visām šūnām ir vienādi. Ja tas netiek pieņemts, var parādīties lielas kļūdas. Modulis Dispersijas analīze ir vairāki īpaši kritēriji, lai pārbaudītu šo pieņēmumu. Ir ieteicams izmantot šos kritērijus, lai nodrošinātu, ka regresijas vienādojumi dažādām šūnām ir aptuveni vienādi.

Sfēriskums un kompleksā simetrija: iemesli, kāpēc dispersijas analīzē atkārtotiem mērījumiem tiek izmantota daudzfaktoru pieeja

Dizainos, kas satur atkārtotu mērījumu faktorus ar vairāk nekā diviem līmeņiem, vienfaktoru ANOVA izmantošanai ir nepieciešami papildu pieņēmumi: savienojuma simetrijas pieņēmums un sfēriskuma pieņēmums. Šie pieņēmumi tiek izpildīti reti (skatīt zemāk). Tāpēc pēdējos gados šādos dizainos popularitāti ir ieguvusi daudzfaktoru dispersijas analīze (abas pieejas ir apvienotas modulī Dispersijas analīze).

Kompleksās simetrijas pieņēmums Savienojumu simetrijas pieņēmums ir tāds, ka dispersijas (dalītas grupās) un kovariācijas (dalītas grupās) dažādiem atkārtotiem mērījumiem ir viendabīgas (vienādas). Tas ir pietiekams nosacījums, lai atkārtotu mērījumu vienfaktora F tests būtu derīgs (t.i., ziņotās F vērtības vidēji atbilst F sadalījumam). Tomēr šajā gadījumā šis nosacījums nav nepieciešams.

Sfēriskuma pieņēmums. Sfēriskuma pieņēmums ir nepieciešams un pietiekams nosacījums, lai F tests būtu derīgs. Tas sastāv no tā, ka grupās visi novērojumi ir neatkarīgi un vienādi sadalīti. Šo pieņēmumu būtība un to pārkāpšanas ietekme parasti nav labi aprakstīta grāmatās par ANOVA — tie tiks apskatīti turpmākajās rindkopās. Tiks arī parādīts, ka viendimensiju pieejas rezultāti var atšķirties no daudzfaktoru pieejas rezultātiem, un tiks paskaidrots, ko tas nozīmē.

Nepieciešamība pēc hipotēžu neatkarības. Vispārējais veids, kā analizēt datus ANOVA, ir modeļa montāža. Ja attiecībā pret modeli, kas atbilst datiem, daži ir priekšroka hipotēzes, tad dispersija tiek sadalīta, lai pārbaudītu šīs hipotēzes (galveno efektu, mijiedarbības kritēriji). No skaitļošanas viedokļa šī pieeja rada kontrastu kopu (plāna līdzekļu salīdzinājumu kopa). Tomēr, ja kontrasti nav neatkarīgi viens no otra, dispersiju sadalīšana kļūst bezjēdzīga. Piemēram, ja divi kontrasti A Un B ir identiski un tiek iegūta atbilstošā dispersijas daļa, tad viena un tā pati daļa tiek iegūta divas reizes. Piemēram, ir muļķīgi un bezjēdzīgi identificēt divas hipotēzes: "vidējais rādītājs 1. šūnā ir augstāks nekā vidējais 2. šūnā" un "vidējais rādītājs šūnā 1 ir augstāks par vidējo 2. šūnā". Tātad hipotēzēm jābūt neatkarīgām vai ortogonālām.

Neatkarīgas hipotēzes atkārtotos mēros. Modulī realizēts vispārējais algoritms Dispersijas analīze, mēģinās ģenerēt neatkarīgus (ortogonālus) kontrastus katram efektam. Attiecībā uz atkārtoto mērījumu faktoru šie kontrasti sniedz daudzas hipotēzes par atšķirības starp aplūkojamā faktora līmeņiem. Tomēr, ja šīs atšķirības ir korelētas grupās, tad iegūtie kontrasti vairs nav neatkarīgi. Piemēram, mācībās, kur studenti tiek mērīti trīs reizes vienā semestrī, var gadīties, ka izmaiņas starp 1. un 2. mērījumu negatīvi korelē ar izmaiņām starp mācību priekšmetu 2. un 3. mērījumu. Tie, kas apguvuši lielāko daļu materiāla starp 1. un 2. dimensiju, apgūst mazāku daļu laikā, kas pagāja starp 2. un 3. dimensiju. Faktiski vairumā gadījumu, kad ANOVA tiek izmantota atkārtotiem mērījumiem, var pieņemt, ka līmeņu izmaiņas ir korelētas starp subjektiem. Tomēr, ja tas notiek, kompleksās simetrijas pieņēmums un sfēriskuma pieņēmums nav spēkā, un nevar aprēķināt neatkarīgus kontrastus.

Pārkāpumu ietekme un to novēršanas veidi. Ja netiek ievēroti sarežģītie simetrijas vai sfēriskuma pieņēmumi, ANOVA var radīt kļūdainus rezultātus. Pirms daudzfaktoru procedūras tika pietiekami izstrādātas, tika ierosināti vairāki pieņēmumi, lai kompensētu šo pieņēmumu pārkāpumus. (Skatiet, piemēram, Greenhouse & Geisser, 1959 un Huynh & Feldt, 1970). Šīs metodes joprojām tiek plaši izmantotas (tāpēc tās ir parādītas modulī Dispersijas analīze).

Daudzfaktoru dispersijas analīzes pieeja atkārtotiem mērījumiem. Kopumā kompleksās simetrijas un sfēriskuma problēmas ir saistītas ar to, ka atkārtotu mērījumu faktoru ietekmes pētījumā iekļautās kontrastu kopas (ar vairāk nekā 2 līmeņiem) nav viena no otras neatkarīgas. Tomēr, ja tie tiek izmantoti, tiem nav jābūt neatkarīgiem daudzdimensionāls tests divu vai vairāku atkārtotu faktoru kontrastu statistiskā nozīmīguma vienlaicīgai pārbaudei. Tas ir iemesls, kāpēc dispersijas metožu daudzfaktoru analīze tiek arvien vairāk izmantota, lai pārbaudītu vienfaktoru atkārtotu mērījumu faktoru nozīmīgumu ar vairāk nekā 2 līmeņiem. Šī pieeja ir plaši pieņemta, jo tai parasti nav nepieciešama sarežģīta simetrija vai sfēriskums.

Gadījumi, kad nevar izmantot daudzfaktoru dispersijas analīzes pieeju. Ir piemēri (dizaini), kuros nevar piemērot daudzfaktoru dispersijas analīzes pieeju. Tie parasti ir gadījumi, kad noformējumā ir neliels priekšmetu skaits un daudzos līmeņos atkārtoto mērījumu faktorā. Tad var būt pārāk maz novērojumu, lai veiktu daudzfaktoru analīzi. Piemēram, ja ir 12 priekšmeti, lpp = 4 atkārtotu pasākumu faktors, un katram faktoram ir k = 3 līmeņi. Tad “patērēs” 4 faktoru mijiedarbība (k-1)P = 2 4 = 16 brīvības pakāpes. Tomēr ir tikai 12 subjekti, tāpēc šajā piemērā nevar veikt daudzfaktoru testu. Modulis Dispersijas analīze patstāvīgi atklās šos novērojumus un aprēķinās tikai viendimensijas kritērijus.

Atšķirības vienfaktoru un daudzfaktoru rezultātos. Ja pētījums ietver lielu skaitu atkārtotu mērījumu, var būt gadījumi, kad vienfaktoru atkārtotu mērījumu ANOVA pieeja rada rezultātus, kas ļoti atšķiras no tiem, kas iegūti ar daudzfaktoru pieeju. Tas nozīmē, ka atšķirības starp atbilstošo atkārtoto pasākumu līmeņiem ir savstarpēji saistītas. Dažreiz šis fakts ir neatkarīgs.

Dispersijas daudzfaktoru analīze un strukturālo vienādojumu modelēšana

Pēdējos gados strukturālo vienādojumu modelēšana ir kļuvusi populāra kā alternatīva daudzfaktoru dispersijas analīzei (sk., piemēram, Bagozzi un Yi, 1989; Bagozzi, Yi un Singh, 1991; Cole, Maxwell, Arvey un Salas, 1993). . Šī pieeja ļauj pārbaudīt hipotēzes ne tikai par vidējiem rādītājiem dažādās grupās, bet arī par atkarīgo mainīgo korelācijas matricām. Piemēram, var mīkstināt pieņēmumus par dispersiju un kovariāciju homogenitāti un katras grupas modelī skaidri iekļaut kļūdu dispersijas un kovariācijas. Modulis STATISTIKAStrukturālo vienādojumu modelēšana (SEPATH) (sk. III sējumu) ļauj veikt šādu analīzi.

Statistikas izmantošana šajā piezīmē tiks ilustrēta ar transversālu piemēru. Pieņemsim, ka esat Perfect Parachute ražošanas vadītājs. Izpletņi ir izgatavoti no sintētiskām šķiedrām, ko piegādā četri dažādi piegādātāji. Viena no galvenajām izpletņa īpašībām ir tā izturība. Jums jānodrošina, lai visas piegādātās šķiedras būtu vienādas stiprības. Lai atbildētu uz šo jautājumu, ir jāizstrādā eksperimentāls dizains, lai izmērītu no dažādu piegādātāju sintētiskām šķiedrām austo izpletņu izturību. Šajā eksperimentā iegūtā informācija noteiks, kurš piegādātājs nodrošina visizturīgākos izpletņus.

Daudzas lietojumprogrammas ietver eksperimentus, kuros tiek ņemtas vērā vairākas viena faktora grupas vai līmeņi. Dažiem faktoriem, piemēram, keramikas apdedzināšanas temperatūrai, var būt vairāki skaitļu līmeņi (t.i., 300°, 350°, 400° un 450°). Citiem faktoriem, piemēram, preču atrašanās vietai lielveikalā, var būt kategoriski līmeņi (piemēram, pirmais piegādātājs, otrais piegādātājs, trešais piegādātājs, ceturtais piegādātājs). Viena faktora eksperimentus, kuros eksperimentālās vienības nejauši iedala grupās vai faktoru līmeņos, sauc par pilnībā randomizētiem.

LietošanaF-kritērijus atšķirību novērtēšanai starp vairākām matemātiskām cerībām

Ja faktora skaitliskie mērījumi grupās ir nepārtraukti un ir izpildīti daži papildu nosacījumi, vairāku grupu matemātisko gaidu salīdzināšanai izmanto dispersijas analīzi (ANOVA). An analīze o f Va riance). Dispersijas analīzi, izmantojot pilnīgi randomizētus modeļus, sauc par vienvirziena ANOVA procedūru. Dažos veidos termins dispersijas analīze ir nepareizs lietojums, jo tas salīdzina atšķirības starp grupu paredzamajām vērtībām, nevis dispersijas. Taču matemātisko gaidu salīdzinājums tiek veikts tieši, pamatojoties uz datu variāciju analīzi. ANOVA procedūrā kopējā mērījumu rezultātu variācija tiek sadalīta starp grupām un grupu iekšienē (1. att.). Izmaiņas starp grupām ir izskaidrojamas ar eksperimentālu kļūdu, savukārt atšķirības starp grupām tiek izskaidrotas ar eksperimentālo apstākļu ietekmi. Simbols Ar apzīmē grupu skaitu.

Rīsi. 1. Sadalīšanas variants pilnīgi nejaušā eksperimentā

Lejupielādējiet piezīmi formātā vai formātā, piemērus formātā

Izliksimies tā Ar grupas tiek iegūtas no neatkarīgām populācijām, kurām ir normāls sadalījums un vienāda dispersija. Nulles hipotēze ir tāda, ka populāciju matemātiskās cerības ir vienādas: H 0: μ 1 = μ 2 = ... = μ s. Alternatīvā hipotēze apgalvo, ka ne visas matemātiskās cerības ir vienādas: H 1: ne visi μ j ir vienādi j= 1, 2, …, s).

Attēlā 2. attēlā parādīta patiesā nulles hipotēze par piecu salīdzināto grupu matemātiskajām cerībām, ja populācijām ir normāls sadalījums un vienāda dispersija. Piecas populācijas, kas saistītas ar dažādiem faktora līmeņiem, ir identiskas. Līdz ar to tie ir uzlikti viens otram, un tiem ir vienādas matemātiskās cerības, variācijas un forma.

Rīsi. 2. Piecām vispārējām populācijām ir vienādas matemātiskās cerības: μ 1 = μ 2 = μ 3 = μ 4 = μ 5

No otras puses, pieņemsim, ka patiesībā nulles hipotēze ir nepatiesa, kur ceturtajam līmenim ir visaugstākā paredzamā vērtība, pirmajam līmenim ir nedaudz zemāka paredzamā vērtība, bet pārējiem līmeņiem ir tādas pašas un pat zemākas paredzamās vērtības ( 3. attēls). Ņemiet vērā, ka, izņemot paredzamās vērtības, visas piecas populācijas ir identiskas (tas ir, tām ir vienāda mainība un forma).

Rīsi. 3. Tiek novērota eksperimentālo apstākļu ietekme: μ 4 > μ 1 > μ 2 = μ 3 = μ 5

Pārbaudot hipotēzi par vairāku vispārējo populāciju matemātisko gaidu vienādību, kopējā variācija tiek sadalīta divās daļās: starpgrupu variācijā, kas rodas atšķirību dēļ starp grupām, un intragrupas variācijā, kas saistīta ar atšķirībām starp elementiem, kas pieder vienai grupai. Kopējo variāciju izsaka ar kopējo kvadrātu summu (SST – sum of squares total). Tā kā nulles hipotēze ir tāda, ka visu matemātiskās cerības Ar grupas ir vienādas viena ar otru, kopējā variācija ir vienāda ar atšķirību kvadrātā starp atsevišķiem novērojumiem un kopējo vidējo (vidējo vērtību), kas aprēķināta visām paraugiem. Pilna variācija:

Kur - vispārējais vidējais, X ij - i-e novērojumi iekšā j- grupa vai līmenis, n j- novērojumu skaits j grupa, n- kopējais novērojumu skaits visās grupās (t. n = n 1 + n 2 + … + n c), Ar- pētīto grupu vai līmeņu skaits.

Variācija starp grupām, ko parasti sauc par starpgrupu kvadrātu summu (SSA – kvadrātu summa starp grupām), ir vienāda ar katras grupas izlases vidējo atšķirību kvadrātu summu. j un kopējais vidējais , reizināts ar atbilstošās grupas tilpumu n j:

Kur Ar- pētīto grupu vai līmeņu skaits, n j- novērojumu skaits j grupa, j- vidējā vērtība j grupa, - kopējais vidējais.

Variācijas grupas ietvaros, ko parasti sauc par grupas iekšējo kvadrātu summu (SSW — grupu kvadrātu summa), ir vienāda ar katras grupas elementu atšķirību kvadrātu summu un šīs grupas izlases vidējo vērtību. j:

Kur Xij - i th elements j grupa, j- vidējā vērtība j th grupa.

Tā kā tie tiek salīdzināti Ar faktoru līmeņi, starpgrupu kvadrātu summai ir s – 1 brīvības pakāpes. Katrs no Ar līmeņi ir n j – 1 brīvības pakāpes, tāpēc ir iekšgrupas kvadrātu summa n- Ar brīvības pakāpes un

Turklāt kopējā kvadrātu summa ir n – 1 brīvības pakāpes, kopš katra novērojuma Xij tiek salīdzināts ar kopējo vidējo, kas aprēķināts visam n novērojumiem. Ja katru no šīm summām dala ar atbilstošo brīvības pakāpju skaitu, rodas trīs dispersijas veidi: starpgrupa(vidējais kvadrāts starp — MSA), iekšgrupa(vidējais kvadrāts robežās — MSW) un pilns(vidējais kvadrāts — MST):

Neskatoties uz to, ka dispersijas analīzes galvenais mērķis ir salīdzināt matemātiskās cerības Ar grupām, lai identificētu eksperimentālo apstākļu ietekmi, tās nosaukums radies tādēļ, ka galvenais instruments ir dažāda veida dispersiju analīze. Ja nulles hipotēze ir patiesa, un starp matemātiskajām cerībām Ar grupām nav būtisku atšķirību, visas trīs dispersijas - MSA, MSW un MST - ir dispersijas aprēķini σ 2 raksturīgi analizētajiem datiem. Tādējādi, lai pārbaudītu nulles hipotēzi H 0: μ 1 = μ 2 = ... = μ s un alternatīva hipotēze H 1: ne visi μ j ir vienādi j = 1, 2, …, Ar), nepieciešams aprēķināt statistiku F-kritēriju, kas ir divu dispersiju, MSA un MSW, attiecība. Pārbaude F-statistika vienvirziena dispersijas analīzē

Statistika F- saskaņā ar kritērijiem F-izplatīšana ar s – 1 brīvības pakāpes skaitītājā M.S.A. Un n – s brīvības pakāpes saucējā M.S.W.. Noteiktam nozīmīguma līmenim α nulles hipotēze tiek noraidīta, ja aprēķināts F FU, raksturīgs F-izplatīšana ar s – 1 n – s brīvības pakāpes saucējā. Tādējādi, kā parādīts attēlā. 4, lēmuma noteikums ir formulēts šādi: nulles hipotēze H 0 noraidīts, ja F>FU; pretējā gadījumā tas netiek noraidīts.

Rīsi. 4. Kritiskā dispersijas analīzes joma, pārbaudot hipotēzi H 0

Ja nulles hipotēze H 0 ir taisnība, aprēķināts F-statistika ir tuvu 1, jo tās skaitītājs un saucējs ir viena un tā paša daudzuma aprēķini - analizētajiem datiem raksturīgā dispersija σ 2. Ja nulles hipotēze H 0 ir nepatiess (un pastāv būtiska atšķirība starp dažādu grupu matemātiskajām cerībām), aprēķināts F-statistika būs daudz lielāka par vienu, jo tās skaitītājs MSA papildus datu dabiskajai mainīgumam novērtē eksperimentālo apstākļu ietekmi vai atšķirību starp grupām, savukārt saucējs MSW novērtē tikai datu dabisko mainīgumu. . Tādējādi ANOVA procedūra ir F-kritērijs, kurā pie noteiktā nozīmīguma līmeņa α nulles hipotēze tiek noraidīta, ja aprēķinātais F-statistika ir lielāka par augšējo kritisko vērtību FU, raksturīgs F-izplatīšana ar s – 1 brīvības pakāpes skaitītājā un n – s brīvības pakāpes saucējā, kā parādīts attēlā. 4.

Lai ilustrētu vienvirziena dispersijas analīzi, atgriezīsimies pie piezīmes sākumā aprakstītā scenārija. Eksperimenta mērķis ir noskaidrot, vai izpletņiem, kas austi no sintētiskām šķiedrām, kas iegūtas no dažādiem piegādātājiem, ir vienāda stiprība. Katrai grupai ir pieci izpletņi. Grupas tiek sadalītas pēc piegādātāja - Piegādātājs 1, Piegādātājs 2, Piegādātājs 3 un Piegādātājs 4. Izpletņu stiprumu mēra, izmantojot speciālu ierīci, kas pārbauda auduma plīsumu no abām pusēm. Izpletņa laušanai nepieciešamais spēks tiek mērīts pēc īpašas skalas. Jo lielāks lūšanas spēks, jo spēcīgāks ir izpletnis. Excel ļauj analizēt F- statistika ar vienu klikšķi. Iet cauri izvēlnei DatiDatu analīze un atlasiet līniju Vienvirziena ANOVA, aizpildiet atvērto logu (5. att.). Eksperimentālie rezultāti (pārrāvuma izturība), daži aprakstošie statistikas dati un vienvirziena dispersijas analīzes rezultāti ir parādīti attēlā. 6.

Rīsi. 5. Logs Vienvirziena dispersijas analīzes pakotnes analīze Excel

Rīsi. 6. No dažādiem piegādātājiem iegūto no sintētiskajām šķiedrām austo izpletņu stiprības rādītāji, aprakstošā statistika un vienvirziena dispersijas analīzes rezultāti

6. attēla analīze parāda, ka starp parauga vidējiem rādītājiem ir zināma atšķirība. No pirmā piegādātāja iegūto šķiedru vidējā stiprība ir 19,52, no otrā - 24,26, no trešā - 22,84 un no ceturtā - 21,16. Vai šī atšķirība ir statistiski nozīmīga? Pārrāvuma spēka sadalījums ir parādīts izkliedes diagrammā (7. att.). Tas skaidri parāda atšķirības gan starp grupām, gan to iekšienē. Ja katra grupa būtu lielāka, to analīzei varētu izmantot stumbra un lapu diagrammu, kastes diagrammu vai zvanu diagrammu.

Rīsi. 7. Stiprības dispersijas diagramma izpletņiem, kas austi no sintētiskām šķiedrām, kas iegūtas no četriem piegādātājiem.

Nulles hipotēze nosaka, ka starp vidējiem stiprības rādītājiem nav būtisku atšķirību: H 0: μ 1 = μ 2 = μ 3 = μ 4. Alternatīva hipotēze ir tāda, ka ir vismaz viens piegādātājs, kura vidējā šķiedras stiprība atšķiras no citiem: H 1: ne visi μ j ir vienādi ( j = 1, 2, …, Ar).

Kopējais vidējais (skat. 6. att.) = VIDĒJAIS(D12:D15) = 21,945; lai noteiktu, varat arī aprēķināt vidējo vērtību visiem 20 sākotnējiem skaitļiem: = VIDĒJS(A3:D7). Tiek aprēķinātas dispersijas vērtības Analīzes pakete un tiek atspoguļoti plāksnē Dispersijas analīze(sk. 6. att.): SSA = 63,286, SSW = 97,504, SST = 160,790 (sk. kolonnu SS tabulas Dispersijas analīze 6. attēls). Vidējos rādītājus aprēķina, šīs kvadrātu summas dalot ar atbilstošu brīvības pakāpju skaitu. Tāpēc ka Ar= 4, a n= 20, mēs iegūstam šādas brīvības pakāpju vērtības; SSA: s – 1= 3; SSW: n–c= 16; SST: n-1= 19 (skatīt kolonnu df). Tādējādi: MSA = SSA / ( s – 1)= 21,095; MSW = SSW / ( n–c) = 6,094; MST = SST / ( n-1) = 8,463 (sk. sleju JAUNKUNDZE). F-statistika = MSA / MSW = 3,462 (skatiet sleju F).

Augstākā kritiskā vērtība FU, raksturīgs F-izplatījums, ko nosaka pēc formulas =F.OBR(0,95;3;16) = 3,239. Funkcijas =F.OBR() parametri: α = 0,05, skaitītājam ir trīs brīvības pakāpes, bet saucējam ir 16. Tādējādi aprēķinātā F-statistika, kas vienāda ar 3,462, pārsniedz augšējo kritisko vērtību FU= 3,239, nulles hipotēze tiek noraidīta (8. att.).

Rīsi. 8. Kritiskais dispersijas analīzes apgabals ar nozīmīguma līmeni 0,05, ja skaitītājam ir trīs brīvības pakāpes un saucējs ir -16

R-vērtība, t.i. varbūtība, ka, ja nulles hipotēze ir patiesa F-statistika ne mazāka par 3,46, kas vienāda ar 0,041 vai 4,1% (sk. kolonnu p-vērtība tabulas Dispersijas analīze 6. attēls). Tā kā šī vērtība nepārsniedz nozīmīguma līmeni α = 5%, nulles hipotēze tiek noraidīta. Turklāt, R-vērtība norāda, ka varbūtība atklāt šādu vai lielāku atšķirību starp vispārējo populāciju matemātiskajām cerībām, ja tās faktiski ir vienādas, ir vienāda ar 4,1%.

Tātad. Pastāv atšķirība starp četriem izlases līdzekļiem. Nulles hipotēze bija tāda, ka visas četru populāciju matemātiskās cerības ir vienādas. Šādos apstākļos visu izpletņu izturības kopējās mainīguma (t.i., kopējās SST variācijas) mērījums tiek aprēķināts, summējot katra novērojuma atšķirības kvadrātā. X ij un kopējais vidējais . Pēc tam kopējās variācijas tika sadalītas divās komponentēs (sk. 1. att.). Pirmais komponents bija SSA atšķirības starp grupām, bet otrais bija SSW atšķirības grupā.

Kas izskaidro datu mainīgumu? Citiem vārdiem sakot, kāpēc visi novērojumi nav vienādi? Viens no iemesliem ir tas, ka dažādi uzņēmumi piegādā dažāda stipruma šķiedras. Tas daļēji izskaidro, kāpēc grupām ir atšķirīgas matemātiskās cerības: jo spēcīgāka ir eksperimentālo apstākļu ietekme, jo lielāka atšķirība starp grupu matemātiskajām cerībām. Vēl viens datu mainīguma iemesls ir jebkura procesa dabiskā mainīgums, šajā gadījumā izpletņu ražošana. Pat ja visas šķiedras iegādātos no viena piegādātāja, to stiprums nebūtu vienāds, ja visas pārējās lietas būtu vienādas. Tā kā šis efekts rodas katrā grupā, to sauc par variāciju grupas ietvaros.

Atšķirības starp izlases vidējiem sauc par starpgrupu variāciju SSA. Daļa no grupas iekšējās variācijas, kā jau norādīts, ir izskaidrojama ar datu piederību dažādām grupām. Tomēr, pat ja grupas būtu tieši tādas pašas (t.i., nulles hipotēze bija patiesa), atšķirības starp grupām joprojām pastāv. Iemesls tam ir izpletņu ražošanas procesa dabiskā mainīgums. Tā kā paraugi ir atšķirīgi, to izlases līdzekļi atšķiras viens no otra. Tāpēc, ja nulles hipotēze ir patiesa, gan starp grupu, gan tās iekšienē mainīgums ir populācijas mainīguma novērtējums. Ja nulles hipotēze ir nepatiesa, hipotēze starp grupām būs lielāka. Šis fakts ir pamatā F-kritērijus, lai salīdzinātu atšķirības starp vairāku grupu matemātiskajām cerībām.

Pēc vienvirziena ANOVA veikšanas un būtisku atšķirību konstatēšanas starp firmām paliek nezināms, kurš piegādātājs būtiski atšķiras no pārējiem. Mēs zinām tikai to, ka vispārējo populāciju matemātiskās cerības nav vienādas. Citiem vārdiem sakot, vismaz viena no matemātiskajām cerībām būtiski atšķiras no pārējām. Lai noteiktu, kurš piegādātājs atšķiras no citiem, varat izmantot Tukey procedūra, izmantojot pāru salīdzinājumus starp piegādātājiem. Šo procedūru izstrādāja Džons Tukijs. Pēc tam viņš un K. Krāmers neatkarīgi pārveidoja šo procedūru situācijām, kad izlases lielumi atšķiras viens no otra.

Vairāki salīdzinājumi: Tukey-Kramer procedūra

Mūsu scenārijā tika izmantota vienvirziena dispersijas analīze, lai salīdzinātu izpletņu spēku. Konstatējot būtiskas atšķirības starp četru grupu matemātiskajām cerībām, ir jānosaka, kuras grupas atšķiras viena no otras. Lai gan ir vairāki veidi, kā atrisināt šo problēmu, mēs aprakstīsim tikai Tukey-Kramer vairāku salīdzināšanas procedūru. Šī metode ir post hoc salīdzināšanas procedūru piemērs, jo pārbaudāmā hipotēze tiek formulēta pēc datu analīzes. Tukey-Kramer procedūra ļauj salīdzināt visus grupu pārus vienlaicīgi. Pirmajā posmā tiek aprēķinātas atšķirības Xj -Xj, Kur j ≠j, starp matemātiskām cerībām s(s – 1)/2 grupas. Kritiskais tvērums Tukey-Kramer procedūru aprēķina pēc formulas:

Kur Q U- studentizētā diapazona sadalījuma augšējā kritiskā vērtība, kurai ir Ar brīvības pakāpes skaitītājā un n - Ar brīvības pakāpes saucējā.

Ja izlases lielumi nav vienādi, kritisko diapazonu aprēķina katram matemātisku gaidu pārim atsevišķi. Pēdējā posmā katrs no s(s – 1)/2 matemātisko gaidu pāri tiek salīdzināti ar atbilstošo kritisko diapazonu. Pāra elementus uzskata par būtiski atšķirīgiem, ja starpības modulis | X j -Xj| starp tiem pārsniedz kritisko diapazonu.

Pielietosim Tukey-Kramer procedūru izpletņu izturības problēmai. Tā kā izpletņlēcēju uzņēmumam ir četri piegādātāji, ir jāpārbauda 4 (4 – 1)/2 = 6 piegādātāju pāri (9. attēls).

Rīsi. 9. Izlases vidējo salīdzinājumi pa pāriem

Tā kā visām grupām ir vienāds apjoms (t.i., visām n j = n j), pietiek aprēķināt tikai vienu kritisko diapazonu. Lai to izdarītu, saskaņā ar tabulu ANOVA(6. att.) nosakām vērtību MSW = 6,094. Tad mēs atrodam vērtību Q U pie α = 0,05, Ar= 4 (brīvības pakāpju skaits skaitītājā) un n- Ar= 20 – 4 = 16 (brīvības pakāpju skaits saucējā). Diemžēl Excel neatradu atbilstošo funkciju, tāpēc izmantoju tabulu (10. att.).

Rīsi. 10. Studentizētā diapazona kritiskā vērtība Q U

Mēs iegūstam:

Tā kā tikai 4,74 > 4,47 (sk. 9. att. apakšējo tabulu), pastāv statistiski nozīmīga atšķirība starp pirmo un otro piegādātāju. Visiem pārējiem pāriem ir izlases līdzekļi, kas neļauj runāt par to atšķirībām. Līdz ar to no pirmā piegādātāja iegādātajām šķiedrām austo izpletņu vidējā izturība ir ievērojami mazāka nekā otrajam.

Nepieciešamie nosacījumi vienvirziena dispersijas analīzei

Risinot izpletņu stipruma problēmu, nepārbaudījām, vai nosacījumi, kādos ir iespējams izmantot vienfaktoru F- kritērijs. Kā jūs zināt, vai varat izmantot vienu faktoru F- kritērijs, analizējot konkrētus eksperimentālos datus? Viens faktors F-kritēriju var piemērot tikai tad, ja ir izpildīti trīs pamatpieņēmumi: eksperimentālajiem datiem jābūt nejaušiem un neatkarīgiem, ar normālu sadalījumu un to dispersijām jābūt vienādām.

Pirmais minējums - nejaušība un datu neatkarība- vienmēr ir jāveic, jo jebkura eksperimenta pareizība ir atkarīga no izvēles nejaušības un/vai nejaušības procesa. Lai izvairītos no rezultātu novirzīšanas, ir nepieciešams iegūt datus no Ar vispārējās populācijas nejauši un neatkarīgi viena no otras. Tāpat dati ir jāsadala nejauši Ar mūs interesējošā faktora līmeņi (eksperimentālās grupas). Šo nosacījumu pārkāpšana var nopietni izkropļot dispersijas analīzes rezultātus.

Otrais minējums - normalitāte- nozīmē, ka dati tiek iegūti no parasti sadalītām populācijām. Kas attiecas uz t-kritēriji, vienvirziena dispersijas analīze, pamatojoties uz F-kritēriji ir salīdzinoši maz jutīgi pret šī nosacījuma pārkāpumiem. Ja sadalījums pārāk būtiski neatšķiras no normas, nozīmības līmenis F-kritērijs mainās maz, īpaši, ja izlases lielums ir pietiekami liels. Ja tiek nopietni pārkāpts sadalījuma normalitātes nosacījums, tas jāpiemēro.

Trešais minējums - dispersijas viendabīgums- nozīmē, ka katras populācijas dispersijas ir vienādas viena ar otru (t.i., σ 1 2 = σ 2 2 = ... = σ j 2). Šis pieņēmums ļauj izlemt, vai atdalīt vai apvienot grupas iekšējās novirzes. Ja grupu lielumi ir vienādi, dispersijas homogenitātes nosacījumam ir maza ietekme uz secinājumiem, kas iegūti, izmantojot F- kritēriji. Tomēr, ja izlases lielumi ir nevienlīdzīgi, dispersiju vienlīdzības nosacījuma pārkāpums var nopietni izkropļot dispersijas analīzes rezultātus. Tāpēc ir jācenšas nodrošināt, lai izlases lielums būtu vienāds. Viena no dispersijas homogenitātes pieņēmuma pārbaudes metodēm ir kritērijs Levene aprakstīts tālāk.

Ja no visiem trim nosacījumiem tiek pārkāpts tikai dispersijas viendabīguma nosacījums, procedūra ir līdzīga t-kritēriju, izmantojot atsevišķu dispersiju (sīkāku informāciju skatīt). Tomēr, ja vienlaicīgi tiek pārkāpti pieņēmumi par normālo sadalījumu un dispersijas viendabīgumu, ir nepieciešams normalizēt datus un samazināt atšķirības starp dispersijām vai piemērot neparametrisku procedūru.

Levēna tests dispersijas homogenitātes pārbaudei

Lai gan F-kritērijs ir salīdzinoši izturīgs pret dispersiju vienlīdzības nosacījuma pārkāpumiem grupās, rupjš šī pieņēmuma pārkāpums būtiski ietekmē kritērija nozīmīguma un spēka līmeni. Varbūt viens no visspēcīgākajiem ir kritērijs Levene. Lai pārbaudītu dispersiju vienādību Ar vispārējās populācijās, mēs pārbaudīsim šādas hipotēzes:

Н 0: σ 1 2 = σ 2 2 = … = σj 2

H 1: Ne viss σ j 2 ir vienādi ( j = 1, 2, …, Ar)

Modificētais Levēna tests ir balstīts uz apgalvojumu, ka, ja mainīgums grupās ir vienāds, dispersijas analīzi absolūtajās atšķirību vērtībās starp novērojumiem un grupu mediānām var izmantot, lai pārbaudītu nulles hipotēzi par dispersiju vienādību. Tātad vispirms ir jāaprēķina novērojumu un mediānu atšķirību absolūtās vērtības katrā grupā un pēc tam jāveic vienvirziena dispersijas analīze par iegūtajām atšķirību absolūtajām vērtībām. Lai ilustrētu Levēna kritēriju, atgriezīsimies pie piezīmes sākumā izklāstītā scenārija. Izmantojot attēlā parādītos datus. 6, mēs veiksim līdzīgu analīzi, bet attiecībā uz sākotnējo datu un mediānu atšķirību moduļiem katram paraugam atsevišķi (11. att.).

Jaunākie materiāli sadaļā:

Anna Joannovna.  Dzīve un valdība.  Bīrona gāšana.  Ķeizarienes Annas Joannovnas biogrāfija Annas Joannovnas valdīšana
Anna Joannovna. Dzīve un valdība. Bīrona gāšana. Ķeizarienes Annas Joannovnas biogrāfija Annas Joannovnas valdīšana

Dzimis Maskavā 1693. gada 8. februārī (28. janvārī, vecā stilā). Viņa bija cara Ivana Aleksejeviča un Praskovjas Fedorovnas vidējā meita...

Armēņu pasaku lejupielāde Armēnijas tautas pasaku varoņi
Armēņu pasaku lejupielāde Armēnijas tautas pasaku varoņi

Armēņu pasakas © 2012 Izdevniecība “Septītā grāmata”. Tulkošana, apkopošana un rediģēšana. Visas tiesības aizsargātas. Neviena daļa no šīs elektroniskās versijas...

Ūdens bioloģiskā loma šūnā Kādu lomu spēlē ūdens šūnas dzīvē?
Ūdens bioloģiskā loma šūnā Kādu lomu spēlē ūdens šūnas dzīvē?

Augsts ūdens saturs šūnā ir vissvarīgākais nosacījums tās darbībai. Zaudējot lielāko daļu ūdens, daudzi organismi iet bojā, un virkne vienšūnu un...