Varianciaanalízis. Tantárgyi munka: Varianciaanalízis Többváltozós varianciaanalízis

A varianciaanalízis olyan statisztikai módszerek összessége, amelyek célja az egyes jellemzők és a vizsgált tényezők közötti kapcsolatra vonatkozó hipotézisek tesztelése, amelyeknek nincs kvantitatív leírásuk, valamint a tényezők befolyásának mértéke és kölcsönhatásuk. A szakirodalomban gyakran ANOVA-nak nevezik (az angol Analysis of Variations névből). Ezt a módszert először R. Fischer dolgozta ki 1925-ben.

A varianciaanalízis típusai és kritériumai

Ezt a módszert a minőségi (nominális) jellemzők és a mennyiségi (folyamatos) változó közötti kapcsolat vizsgálatára használják. Lényegében a több minta számtani átlagának egyenlőségére vonatkozó hipotézist teszteli. Így paraméteres kritériumnak tekinthető több minta középpontjainak egyidejű összehasonlítására. Ha ezt a módszert két mintára alkalmazzuk, akkor a varianciaanalízis eredménye megegyezik a Student-féle t-próba eredményeivel. Más kritériumoktól eltérően azonban ez a tanulmány lehetővé teszi a probléma részletesebb tanulmányozását.

A statisztikában a diszperzióanalízis a törvényen alapul: az egyesített minta eltéréseinek összege egyenlő a csoporton belüli eltérések és a csoportközi eltérések négyzetes összegével. A tanulmány Fisher-tesztet használ a csoportközi és a csoporton belüli varianciák közötti különbség szignifikanciájának megállapítására. Ennek azonban a szükséges előfeltételei a minták eloszlási normalitása és homoszkedaszticitása (varianciaegyenlőség). Létezik egyváltozós (egytényezős) varianciaanalízis és többváltozós (multifaktoriális). Az első figyelembe veszi a vizsgált érték függőségét egy jellemzőtől, a második - egyszerre többtől, és lehetővé teszi a köztük lévő kapcsolat azonosítását is.

Tényezők

A tényezők olyan ellenőrzött körülmények, amelyek befolyásolják a végeredményt. Szintje vagy feldolgozási módja egy olyan érték, amely ennek az állapotnak egy konkrét megnyilvánulását jellemzi. Ezeket a számokat általában névleges vagy ordinális mérési skálán adják meg. A kimeneti értékeket gyakran mennyiségi vagy ordinális skálán mérik. Ekkor felmerül az a probléma, hogy a kimeneti adatokat több olyan megfigyelésben csoportosítjuk, amelyek megközelítőleg azonos számértékeknek felelnek meg. Ha a csoportok számát túlságosan nagynak vesszük, akkor előfordulhat, hogy a bennük lévő megfigyelések száma nem elegendő ahhoz, hogy megbízható eredményeket kapjunk. Ha túl kicsire veszi a számot, ez a rendszerre gyakorolt ​​​​hatás jelentős jellemzőinek elvesztéséhez vezethet. Az adatok csoportosításának konkrét módja az értékek változásának mértékétől és jellegétől függ. Az egyváltozós elemzésben az intervallumok számát és méretét leggyakrabban az egyenlő intervallumok elve vagy az egyenlő gyakoriság elve határozza meg.

Varianciaproblémák elemzése

Tehát vannak esetek, amikor két vagy több mintát kell összehasonlítania. Ekkor célszerű varianciaanalízist alkalmazni. A módszer neve arra utal, hogy a varianciakomponensek vizsgálata alapján vonunk le következtetéseket. A vizsgálat lényege, hogy a mutató általános változását olyan komponensekre bontjuk, amelyek megfelelnek az egyes tényezők hatásának. Nézzünk meg néhány olyan problémát, amelyeket tipikus varianciaanalízissel oldanak meg.

1. példa

A műhelyben számos automata gép található, amelyek meghatározott alkatrészt gyártanak. Az egyes alkatrészek mérete egy valószínűségi változó, amely az egyes gépek beállításától és az alkatrészek gyártási folyamata során előforduló véletlenszerű eltérésektől függ. Az alkatrészek méreteinek mérési adatai alapján meg kell határozni, hogy a gépek egyformán vannak-e konfigurálva.

2. példa

Egy elektromos készülék gyártása során különféle típusú szigetelőpapírokat használnak: kondenzátoros, elektromos stb. A készüléket különféle anyagokkal lehet impregnálni: epoxigyanta, lakk, ML-2 gyanta stb. A szivárgások vákuum alatt megszüntethetők emelt nyomású, fűtéssel. Az impregnálás történhet lakkba merítéssel, folyamatos lakkáram alatt stb. Az elektromos készülék egésze egy bizonyos vegyülettel van megtöltve, amelyből több lehetőség is van. A minőségi mutatók a szigetelés elektromos szilárdsága, a tekercs túlmelegedési hőmérséklete működési módban és számos más. Az eszközök gyártási technológiai folyamatának fejlesztése során meg kell határozni, hogy a felsorolt ​​tényezők mindegyike hogyan befolyásolja az eszköz teljesítményét.

3. példa

A trolibusztelep több trolibusz útvonalat szolgál ki. Különböző típusú trolibuszokat üzemeltetnek, 125 ellenőr szedi a viteldíjat. A depóvezetést a kérdés érdekli: hogyan lehet összehasonlítani az egyes irányítók munkájának gazdasági mutatóit (bevételeit) a különböző útvonalak és különböző típusú trolibuszok figyelembevételével? Hogyan határozható meg egy bizonyos típusú trolibuszok egy adott útvonalon történő előállításának gazdasági megvalósíthatósága? Hogyan lehet ésszerű követelményeket támasztani a különböző típusú trolibuszok esetében az egyes útvonalakon behozott bevétel összegére?

A módszer kiválasztásának feladata, hogy az egyes tényezőknek a végeredményre gyakorolt ​​hatásáról maximális információt szerezzünk, meghatározzuk egy ilyen hatás számszerű jellemzőit, azok megbízhatóságát minimális költséggel és a lehető legrövidebb idő alatt. A varianciaanalízis módszerei lehetővé teszik az ilyen problémák megoldását.

Egyváltozós elemzés

A vizsgálat célja annak felmérése, hogy egy adott eset mekkora hatást gyakorol az elemzett áttekintésre. Az egyváltozós elemzés másik célja az lehet, hogy két vagy több körülményt összehasonlítsunk egymással, hogy meghatározzuk, mi a különbség azok felidézésre gyakorolt ​​hatásában. Ha a nullhipotézist elvetjük, akkor a következő lépés a kapott jellemzők számszerűsítése és konfidenciaintervallumok felépítése. Abban az esetben, ha a nullhipotézist nem lehet elvetni, általában elfogadják, és következtetést vonnak le a hatás természetéről.

Az egyirányú varianciaanalízis a Kruskal-Wallis rangmódszer nem-paraméteres analógja lehet. William Kruskal amerikai matematikus és Wilson Wallis közgazdász dolgozta ki 1952-ben. Ez a kritérium a hatások egyenlőségének nullhipotézisének tesztelésére szolgál a vizsgált mintákon ismeretlen, de egyenlő átlagértékekkel. Ebben az esetben a minták számának kettőnél többnek kell lennie.

A Jonckheere-Terpstra-kritériumot egymástól függetlenül T. J. Terpstra holland matematikus 1952-ben és E. R. Jonckheere brit pszichológus 1954-ben javasolta. Akkor alkalmazzák, ha előre ismert, hogy a meglévő eredménycsoportok az eredmény befolyásának növekedése szerint rendeződnek. vizsgált tényező, amelyet ordinális skálán mérnek.

M – Bartlett-teszt, amelyet Maurice Stevenson Bartlett brit statisztikus javasolt 1937-ben, a nullhipotézis tesztelésére szolgál, amely több normál populáció varianciaegyenlőségére vonatkozik, amelyekből a vizsgált minták általában eltérő méretűek (mindegyik száma). mintának legalább négynek kell lennie).

G - Cochran teszt, amelyet az amerikai William Gemmell Cochran fedezett fel 1941-ben. A normál populációk varianciáinak egyenlőségére vonatkozó nullhipotézis tesztelésére szolgál egyenlő méretű független mintákban.

A nem-paraméteres Levene-teszt, amelyet Howard Levene amerikai matematikus javasolt 1960-ban, a Bartlett-teszt alternatívája olyan körülmények között, ahol nem biztos, hogy a vizsgált minták normális eloszlásnak vannak kitéve.

1974-ben Morton B. Brown és Alan B. Forsythe amerikai statisztikusok egy tesztet javasoltak (Brown-Forsyth teszt), amely kissé eltér Levene tesztétől.

Kéttényezős elemzés

A kétirányú varianciaanalízist a kapcsolódó normális eloszlású mintákhoz használják. A gyakorlatban gyakran alkalmazzák ennek a módszernek az összetett táblázatait, különösen azokat, amelyekben minden cella rögzített szintű értékeknek megfelelő adathalmazt (ismételt mérést) tartalmaz. Ha a kétirányú varianciaanalízis alkalmazásához szükséges feltevések nem teljesülnek, használja a nem paraméteres Friedman rangtesztet (Friedman, Kendall és Smith), amelyet Milton Friedman amerikai közgazdász dolgozott ki 1930 végén. Ez a teszt nem függ a típustól. az elosztásról.

Csak azt feltételezzük, hogy az értékek eloszlása ​​azonos és folyamatos, és ezek maguk függetlenek egymástól. A nullhipotézis tesztelésekor a kimeneti adatokat egy téglalap alakú mátrix formájában jelenítjük meg, amelyben a sorok a B faktor szintjeinek, az oszlopok pedig az A szinteknek felelnek meg. A táblázat (blokk) minden cellája a paraméterek mérésének eredménye egy objektumon vagy objektumok csoportján mindkét tényező szintjének állandó értékével. Ebben az esetben a megfelelő adatok egy bizonyos paraméter átlagos értékeként jelennek meg a vizsgált minta összes dimenziójára vagy objektumára vonatkozóan. A kimeneti kritérium alkalmazásához a mérések közvetlen eredményeitől el kell lépni a rangjuk felé. A rangsorolást minden sorra külön-külön végzik el, vagyis az értékeket minden rögzített értékhez rendelik.

A Page's teszt (L-teszt), amelyet E. B. Page amerikai statisztikus javasolt 1963-ban, a nullhipotézis tesztelésére szolgál. Nagy minták esetén Page-féle közelítést használunk. A megfelelő nullhipotézisek valóságától függően engedelmeskednek a standard normális eloszlásnak. Abban az esetben, ha a forrástábla sorai azonos értékűek, akkor átlagos rangokat kell használni. Ebben az esetben a következtetések pontossága annál rosszabb lesz, minél több ilyen egyezés van.

Q - Cochran-kritérium, W. Cochran javasolta 1937-ben. Olyan esetekben alkalmazzák, amikor homogén alanyok csoportjai vannak kitéve olyan hatásoknak, amelyek száma meghaladja a kettőt, és amelyeknél két visszacsatolási lehetőség lehetséges - feltételesen negatív (0) ill. feltételesen pozitív (1) . A nullhipotézis a kezelési hatások egyenlőségéből áll. A kétirányú varianciaanalízis lehetővé teszi a kezelési hatások meglétének meghatározását, de nem teszi lehetővé annak meghatározását, hogy ez a hatás mely konkrét oszlopokra vonatkozik. A probléma megoldására a több Scheffe-egyenlet módszerét használjuk a kapcsolódó mintákra.

Többváltozós elemzés

A többváltozós varianciaanalízis problémája akkor merül fel, ha meg kell határozni két vagy több feltétel hatását egy bizonyos valószínűségi változóra. A vizsgálat magában foglalja egy függő valószínűségi változó jelenlétét, amelyet különbség- vagy arányskálán mérnek, és több független változót, amelyek mindegyikét egy elnevezési vagy rangskála fejezi ki. Az adatok varianciaanalízise a matematikai statisztika meglehetősen fejlett része, amely számos lehetőséget kínál. A kutatási koncepció mind az egytényezős, mind a többtényezősnél közös. Lényege abban rejlik, hogy a teljes variancia komponensekre oszlik, ami megfelel az adatok bizonyos csoportosításának. Minden adatcsoportnak megvan a maga modellje. Itt csak azokat az alapvető rendelkezéseket vesszük figyelembe, amelyek a leggyakrabban használt opciók megértéséhez és gyakorlati használatához szükségesek.

A faktorok varianciaanalízise meglehetősen körültekintő hozzáállást igényel a bemeneti adatok gyűjtése és bemutatása, de különösen az eredmények értelmezéséhez. Ellentétben az egytényezős teszttel, amelynek eredményei feltételesen elhelyezhetők egy bizonyos sorrendben, a kéttényezős teszt eredményei összetettebb bemutatást igényelnek. A helyzet még bonyolultabbá válik, ha három, négy vagy több körülmény áll fenn. Emiatt meglehetősen ritka, hogy egy modellben háromnál (négy) több feltétel szerepeljen. Példa erre a rezonancia előfordulása egy elektromos kör bizonyos kapacitásának és induktivitásának értékénél; kémiai reakció megnyilvánulása egy bizonyos elemkészlettel, amelyből a rendszer épül; anomális hatások előfordulása összetett rendszerekben a körülmények bizonyos egybeesése mellett. Az interakció jelenléte gyökeresen megváltoztathatja a rendszer modelljét, és néha a kísérletező által kezelt jelenségek természetének újragondolásához vezethet.

Többváltozós varianciaanalízis ismételt kísérletekkel

A mérési adatok gyakran nem két, hanem nagyobb számú tényező szerint csoportosíthatók. Ha tehát figyelembe vesszük a trolibuszok gumiabroncsainak élettartamának diszperziós elemzését a körülmények (gyártó üzem és az abroncsok üzemeltetési útvonala) figyelembe vételével, akkor külön feltételként emelhetjük ki azt az évszakot, amelyben a gumiabroncsokat üzemeltetik (nevezetesen: téli és nyári üzem). Ennek eredményeként a háromfaktoros módszer problémája lesz.

Ha több feltétel van, akkor a megközelítés ugyanaz, mint a kéttényezős elemzésnél. Minden esetben igyekeznek leegyszerűsíteni a modellt. A két tényező kölcsönhatásának jelensége ritkábban, hármas kölcsönhatás csak kivételes esetekben fordul elő. Tartalmazza azokat az interakciókat, amelyekről van korábbi információ, és jó okok vannak ezek figyelembevételére a modellben. Az egyes tényezők azonosításának és figyelembe vételének folyamata viszonylag egyszerű. Ezért gyakran felmerül a vágy, hogy több körülményt is kiemeljünk. Nem szabad elragadtatni magát ezzel. Minél több feltétel, annál kevésbé lesz megbízható a modell, és annál nagyobb a hiba valószínűsége. Maga a modell, amely nagyszámú független változót tartalmaz, meglehetősen bonyolulttá válik értelmezhetővé és a gyakorlati felhasználás szempontjából kényelmetlenné.

A varianciaanalízis általános ötlete

A statisztika varianciaanalízise egy módszer a különböző egyidejű működési körülményektől függő megfigyelési eredmények megszerzésére és azok hatásának felmérésére. Tényezőnek nevezzük azt a szabályozott változót, amely megfelel a vizsgált tárgy befolyásolásának módszerének, és egy bizonyos időtartam alatt bizonyos értéket szerez. Lehetnek minőségiek és mennyiségiek. A mennyiségi feltételek szintjei numerikus skálán bizonyos jelentést kapnak. Ilyen például a hőmérséklet, a préselési nyomás, az anyag mennyisége. Minőségi tényezők a különböző anyagok, különböző technológiai módszerek, eszközök, töltőanyagok. Szintjeik egy névskálának felelnek meg.

A minőség magában foglalhatja a csomagolóanyag típusát és az adagolási forma tárolási körülményeit is. Szintén ésszerű az alapanyagok őrlési fokát, a granulátum frakcionált összetételét is feltüntetni, amelyek mennyiségi jelentőséggel bírnak, de mennyiségi skála alkalmazása esetén nehezen szabályozható. A minőségi tényezők száma az adagolási forma típusától, valamint a gyógyászati ​​anyagok fizikai és technológiai tulajdonságaitól függ. Például kristályos anyagokból közvetlen préseléssel tablettákat kaphatunk. Ebben az esetben elegendő a csúszó- és kenőanyagok kiválasztása.

Példák a különböző típusú adagolási formák minőségi tényezőire

  • Tinktúrák. Extraktálószer összetétele, extraktor típusa, alapanyag-előkészítési módja, előállítási módja, szűrési mód.
  • Kivonatok (folyékony, sűrű, száraz). Az extrahálószer összetétele, extrakciós módszer, beépítés típusa, az extrahálószer és a ballasztanyagok eltávolításának módja.
  • Tabletták. Segédanyagok, töltőanyagok, szétesést elősegítő anyagok, kötőanyagok, kenőanyagok és kenőanyagok összetétele. A tabletták beszerzésének módja, technológiai berendezés típusa. A héj típusa és alkotóelemei, filmképzők, pigmentek, színezékek, lágyítók, oldószerek.
  • Injekciós oldatok. Oldószer típusa, szűrési módja, stabilizátorok és tartósítószerek jellege, sterilizálás körülményei, ampullák töltési módja.
  • Kúpok. A kúpalap összetétele, a kúpok előállításának módja, töltőanyagok, csomagolás.
  • Kenőcsök. Az alap összetétele, szerkezeti összetevői, a kenőcs elkészítésének módja, berendezés típusa, csomagolás.
  • Kapszulák. A héj anyagának típusa, a kapszulák előállítási módja, a lágyító, tartósítószer, festék típusa.
  • Liniments. Elkészítés módja, összetétele, berendezés típusa, emulgeálószer típusa.
  • Felfüggesztések. Oldószer típusa, stabilizátor típusa, diszperziós módszer.

Példák a tabletta gyártási folyamata során vizsgált minőségi tényezőkre és azok szintjeire

  • Sütőpor. Burgonyakeményítő, fehér agyag, nátrium-hidrogén-karbonát és citromsav keveréke, bázikus magnézium-karbonát.
  • Kötőoldat. Víz, keményítőpaszta, cukorszirup, metil-cellulóz-oldat, hidroxi-propil-metil-cellulóz-oldat, polivinil-pirrolidon-oldat, polivinil-alkohol-oldat.
  • Csúszó anyag. Aerosil, keményítő, talkum.
  • Töltőanyag. Cukor, glükóz, laktóz, nátrium-klorid, kalcium-foszfát.
  • Kenőanyag. Sztearinsav, polietilénglikol, paraffin.

A varianciaanalízis modelljei az állam versenyképességi szintjének vizsgálatában

Az állam állapotának megítélésének egyik legfontosabb kritériuma, amellyel jólétének és társadalmi-gazdasági fejlettségének mértékét értékelik, a versenyképesség, vagyis a nemzetgazdaságban rejlő tulajdonságok összessége, amelyek meghatározzák az állam működését. képes versenyezni más országokkal. Miután meghatároztuk az állam helyét és szerepét a világpiacon, világos stratégiát lehet kialakítani a nemzetközi szintű gazdasági biztonság biztosítására, mert ez a kulcsa az Oroszország és a világpiac összes szereplője: a befektetők közötti pozitív kapcsolatoknak. , hitelezők és kormányok.

Az államok versenyképességi szintjének összehasonlítása érdekében az országokat összetett indexekkel rangsorolják, amelyek különböző súlyozott mutatókat tartalmaznak. Ezek az indexek a gazdasági, politikai stb. helyzetet befolyásoló kulcstényezőkön alapulnak. Az állam versenyképességének tanulmányozására szolgáló modellek többváltozós statisztikai elemzési módszereket (különösen varianciaanalízist (statisztika), ökonometriai modellezést, döntéshozatalt) foglalnak magukban, és a következő fő szakaszokat tartalmazza:

  1. Mutatórendszer kialakítása.
  2. Állami versenyképességi mutatók felmérése, előrejelzése.
  3. Az államok versenyképességi mutatóinak összehasonlítása.

Most nézzük meg a komplexum egyes szakaszaihoz tartozó modellek tartalmát.

Az első szakaszban szakértői vizsgálati módszerekkel kialakítják az állam versenyképességének felmérésére szolgáló gazdasági mutatószámok megalapozott készletét, figyelembe véve fejlődésének sajátosságait a nemzetközi minősítések és a statisztikai osztályok adatai alapján, tükrözve a rendszer egészének állapotát. és annak folyamatai. Ezen mutatók kiválasztását az indokolja, hogy ki kell választani azokat, amelyek gyakorlati szempontból a legteljesebben lehetővé teszik az állam szintjének, befektetési vonzerejének, valamint a meglévő potenciális és tényleges veszélyek relatív lokalizációjának lehetőségét.

A nemzetközi minősítési rendszerek fő mutatói az indexek:

  1. Globális versenyképesség (GC).
  2. Gazdasági szabadság (IES).
  3. Human Development (HDI).
  4. A korrupció észlelése (CPC).
  5. Belső és külső fenyegetések (IETH).
  6. Nemzetközi befolyási potenciál (IPIP).

Második fázis a világ 139 vizsgált országára rendelkezik az állami versenyképességi mutatók nemzetközi minősítések szerinti értékeléséről és előrejelzéséről.

Harmadik szakasz lehetővé teszi az államok versenyképességi feltételeinek összehasonlítását korrelációs és regressziós elemzési módszerekkel.

A vizsgálat eredményeit felhasználva meg lehet határozni a folyamatok jellegét általában és az állam versenyképességének egyes összetevőire vonatkozóan; tesztelje a hipotézist a tényezők hatásáról és azok kapcsolatairól a megfelelő szignifikanciaszinten.

A javasolt modellkészlet megvalósítása nemcsak az államok versenyképességi szintjének és befektetési vonzerejének jelenlegi helyzetének felmérését teszi lehetővé, hanem a gazdálkodási hiányosságok elemzését, a hibás döntések hibáinak megelőzését és a válság kialakulásának megelőzését is. állapot.

Varianciaanalízis

1. A varianciaanalízis fogalma

Varianciaanalízis egy tulajdonság variabilitásának elemzése bármely szabályozott változó tényező hatására. A külföldi szakirodalomban a varianciaanalízist gyakran ANOVA-nak nevezik, amelyet variabilitásanalízisnek (Analysis of Variance) fordítanak.

ANOVA probléma abban áll, hogy elkülönítjük egy tulajdonság általános variabilitását, és elkülönítjük az eltérő fajtát:

a) a vizsgált független változók mindegyikének hatása miatti változékonyság;

b) a vizsgált független változók kölcsönhatásából adódó változékonyság;

c) az összes többi ismeretlen változó miatti véletlenszerű változékonyság.

A vizsgált változók hatásából és kölcsönhatásukból adódó variabilitás korrelál a véletlen variabilitással. Ennek a kapcsolatnak a mutatója a Fisher-féle F-teszt.

Az F-kritérium számítási képlete tartalmazza a varianciabecsléseket, vagyis az attribútum eloszlási paramétereit, ezért az F-kritérium parametrikus kritérium.

Minél inkább egy tulajdonság változékonysága a vizsgált változóknak (tényezőknek) vagy azok kölcsönhatásának köszönhető, annál nagyobb empirikus kritériumértékek.

Nulla a varianciaanalízis hipotézise kimondja, hogy a vizsgált effektív jellemző átlagértékei minden fokozatban azonosak.

Alternatív a hipotézis kimondja, hogy a kapott jellemző átlagértékei a vizsgált tényező különböző fokozataiban eltérőek.

A varianciaanalízis lehetővé teszi egy jellemző változásának megállapítását, de nem jelzi irány ezeket a változásokat.

Kezdjük a varianciaanalízis vizsgálatát a legegyszerűbb esettel, amikor csak a műveletét vizsgáljuk egy változó (egy tényező).

2. Egyirányú varianciaanalízis független mintákra

2.1. A módszer célja

Az egytényezős varianciaanalízis módszerét olyan esetekben alkalmazzák, amikor egy effektív jellemző változásait a változó feltételek vagy egy tényező gradációi hatására vizsgálják. A módszer ezen változatában a faktor egyes fokozatainak befolyása az különböző tantárgyak mintái. A faktornak legalább három fokozatának kell lennie. (Lehet két fokozat, de ebben az esetben nem tudunk nemlineáris függőséget megállapítani, és ésszerűbbnek tűnik az egyszerűbbek alkalmazása).

Az ilyen típusú elemzés nem paraméteres változata a Kruskal-Wallis H teszt.

Hipotézisek

H 0: A faktor fokozatok (különböző feltételek) közötti különbségek nem nagyobbak, mint az egyes csoportokon belüli véletlenszerű különbségek.

H 1: A faktor fokozatok (különböző feltételek) közötti különbségek nagyobbak, mint az egyes csoportokon belüli véletlenszerű különbségek.

2.2. A független minták egyirányú varianciaanalízisének korlátai

1. Az egytényezős varianciaanalízishez a faktor legalább három fokozata és minden fokozatban legalább két alany szükséges.

2. Az eredményül kapott jellemzőnek normális eloszlásúnak kell lennie a vizsgált mintában.

Igaz, általában nincs feltüntetve, hogy a jellemző eloszlásáról a teljes vizsgált mintában vagy annak a diszperziós komplexumot alkotó részében beszélünk.

3. Példa egy probléma megoldására független minták egyirányú varianciaanalízisének módszerével a következő példa segítségével:

Három különböző, hat tantárgyból álló csoport kapott tíz szóból álló listát. A szavakat az első csoportnak alacsony sebességgel - 1 szó / 5 másodperc, a második csoport átlagos sebességgel - 1 szó / 2 másodperc, a harmadik csoport pedig nagy sebességgel - 1 szó / másodperc. A reprodukciós teljesítmény várhatóan a szóbemutató sebességétől függ. Az eredményeket a táblázat tartalmazza. 1.

A reprodukált szavak száma Asztal 1

Tárgy sz.

alacsony sebesség

átlagsebesség

Magassebesség

teljes összeg

H 0: Különbségek a szóalkotási terjedelemben között csoportok nem hangsúlyosabbak, mint a véletlenszerű különbségek belül mindegyik csoport.

H1: A szótermelési volumen különbségei között csoportok kifejezettebbek, mint a véletlenszerű különbségek belül mindegyik csoport. táblázatban bemutatott kísérleti értékek felhasználásával. 1, akkor meghatározunk néhány értéket, amelyek szükségesek lesznek az F-kritérium kiszámításához.

Az egyirányú varianciaanalízis főbb mennyiségeinek kiszámítását a táblázat tartalmazza:

2. táblázat

3. táblázat

Műveletsorozat az egyirányú varianciaanalízisben független minták esetén

Az ebben és az azt követő táblázatokban gyakran előforduló SS megjelölés a „négyzetösszeg” rövidítése. Ezt a rövidítést leggyakrabban a fordított forrásokban használják.

SS tény a jellemzőnek a vizsgált tényező hatására bekövetkező változékonyságát jelenti;

SS általában- a tulajdonság általános változékonysága;

S C.A.-nem figyelembe vett tényezők miatti változékonyság, „véletlen” vagy „maradék” változékonyság.

KISASSZONY- „átlag négyzet”, vagy a négyzetösszeg matematikai elvárása, a megfelelő SS átlagértéke.

df - a szabadságfokok száma, amelyet a nem paraméteres kritériumok figyelembevételével görög betűvel jelöltünk v.

Következtetés: H 0 elutasítva. H 1 elfogadott. A csoportok közötti szófelidézési különbségek nagyobbak voltak, mint az egyes csoportokon belüli véletlenszerű különbségek (α=0,05). Tehát a szavak bemutatásának sebessége befolyásolja reprodukciójuk mennyiségét.

Az alábbiakban bemutatunk egy példát a probléma Excelben való megoldására:

Kiinduló adatok:

A Tools->Data Analysis->One-way ANOVA paranccsal a következő eredményeket kapjuk:

A két átlag közötti különbségek szignifikanciájáról szóló statisztikai hipotézisek tesztelésének fentebb tárgyalt technikái korlátozottan alkalmazhatók a gyakorlatban. Ez annak a ténynek köszönhető, hogy az összes lehetséges feltétel és tényező hatásának egy hatékony tulajdonságra való azonosítása érdekében a terepi és laboratóriumi kísérleteket általában nem két, hanem nagyobb számú mintával (1220 vagy több) végzik. ).

A kutatók gyakran összehasonlítják több minta átlagát egyetlen komplexummá kombinálva. Például a különböző típusú és dózisú műtrágyák terméshozamra gyakorolt ​​hatásának vizsgálatakor a kísérleteket különböző változatokban megismétlik. Ezekben az esetekben a páronkénti összehasonlítás nehézkessé válik, és a teljes komplexum statisztikai elemzéséhez speciális módszer alkalmazása szükséges. Ezt a matematikai statisztikában kifejlesztett módszert varianciaanalízisnek nevezik. Először R. Fisher angol statisztikus használta agronómiai kísérletek eredményeinek feldolgozásakor (1938).

Varianciaanalízis egy módszer egy hatékony jellemző egy vagy több tényezőtől való függése megnyilvánulása megbízhatóságának statisztikai értékelésére. A varianciaanalízis módszerével statisztikai hipotéziseket tesztelünk több normál eloszlású általános populáció átlagaira vonatkozóan.

A varianciaanalízis a kísérleti eredmények statisztikai értékelésének egyik fő módszere. Egyre gyakrabban használják a gazdasági információk elemzésében is. A varianciaanalízis lehetővé teszi annak meghatározását, hogy az eredő és a faktorjellemzők közötti kapcsolat mintamutatói mennyiben elegendőek a mintából nyert adatok általános sokaságra való kiterjesztéséhez. Ennek a módszernek az az előnye, hogy kis mintákból meglehetősen megbízható következtetéseket ad.

Egy effektív jellemző egy vagy több tényező hatására bekövetkező változását varianciaanalízissel tanulmányozva a függőségek szignifikancia általános becslésein túlmenően a kialakuló átlagok nagyságrendi különbségeinek értékelését is megkaphatjuk. a tényezők különböző szintjein, és a tényezők kölcsönhatásának jelentősége. A varianciaanalízis segítségével mind a mennyiségi, mind a minőségi jellemzők függőségeit, illetve ezek kombinációját vizsgáljuk.

Ennek a módszernek a lényege egy vagy több tényező befolyásának valószínűségének statisztikai vizsgálata, valamint ezek kölcsönhatása a kapott jellemzőre. Eszerint három fő feladatot oldanak meg varianciaanalízissel: 1) a csoportátlagok közötti különbségek jelentőségének általános értékelése; 2) a tényezők közötti kölcsönhatás valószínűségének felmérése; 3) az átlagpárok közötti különbségek jelentőségének értékelése. Ilyen problémákat leggyakrabban szabadföldi és állattenyésztési kísérletek során kell megoldaniuk a kutatóknak, amikor több tényező hatását vizsgálják egy-egy hatásos tulajdonságra.

A varianciaanalízis elvi sémája magában foglalja az effektív jellemző fő változási forrásainak megállapítását és a változás mértékének (az eltérések összegének négyzetes összegének) meghatározását a keletkezési források szerint; a teljes variáció összetevőinek megfelelő szabadsági fokok számának meghatározása; a diszperziók kiszámítása a megfelelő variációs térfogatok és a szabadsági fokok számának arányaként; szórások közötti kapcsolat elemzése; az eszközök közötti különbség megbízhatóságának felmérése és a következtetések levonása.

Ez a séma megmarad mind az egyszerű varianciaanalízis-modellekben, amikor az adatokat egy jellemző szerint csoportosítják, mind az összetett modellekben, amikor az adatokat két vagy több jellemző alapján csoportosítják. A csoportjellemzők számának növekedésével azonban bonyolultabbá válik a teljes variáció képződési források szerinti bontásának folyamata.

Az elvi diagram szerint a varianciaanalízis öt egymást követő szakaszban ábrázolható:

1) a variáció meghatározása és kiterjesztése;

2) a variációs szabadsági fokok számának meghatározása;

3) szórások és arányaik kiszámítása;

4) varianciaanalízis és kapcsolatuk;

5) az átlagok közötti különbség jelentőségének felmérése és következtetések megfogalmazása a nullhipotézis teszteléséhez.

A varianciaanalízis legmunkaigényesebb része az első szakasz - a variáció meghatározása és lebontása a kialakulásának forrásai szerint. A teljes variációtérfogat felbontásának sorrendjét az 5. fejezetben tárgyaltuk részletesen.

A varianciaanalízis problémáinak megoldásának alapja az expanziós (összeadási) variáció törvénye, amely szerint a kapott attribútum teljes variációja (fluktuációi) két részre oszlik: a vizsgált tényező(k) hatása által okozott változásra. , és a véletlenszerű okok működése által okozott variáció, azaz

Tételezzük fel, hogy a vizsgált sokaság faktorjellemzők szerint több csoportra oszlik, amelyek mindegyikét a kapott jellemző saját átlagértéke jellemzi. Ugyanakkor ezeknek az értékeknek az eltérése kétféle okkal magyarázható: azokkal, amelyek szisztematikusan hatnak a hatásjelre, és a kísérlet során módosíthatók, illetve azokkal, amelyek nem módosíthatók. Nyilvánvaló, hogy a csoportok közötti (faktoriális vagy szisztematikus) variáció elsősorban a vizsgált faktor hatásától, a csoporton belüli (reziduális vagy véletlenszerű) variáció pedig elsősorban a véletlenszerű tényezők hatásától függ.

A csoportátlagok közötti különbségek megbízhatóságának felméréséhez meg kell határozni a csoportok közötti és a csoporton belüli variációkat. Ha a csoportközi (faktoriális) variáció jelentősen meghaladja a csoporton belüli (maradék) variációt, akkor a faktor befolyásolta a kapott jellemzőt, jelentősen megváltoztatva a csoportátlagok értékeit. Felmerül azonban a kérdés, hogy milyen kapcsolat van a csoportközi és a csoporton belüli variációk között, amely elegendőnek tekinthető ahhoz, hogy a csoportátlagok közötti különbségek megbízhatóságára (szignifikanciájára) következtessen.

Az átlagok közötti különbségek jelentőségének felmérésére és a nullhipotézis (H0:x1 = x2 =... = xn) tesztelésére vonatkozó következtetések megfogalmazására a varianciaanalízis során egyfajta standardot használnak - a G-kritériumot, az eloszlási törvényt. amelyet R. Fisher hozott létre. Ez a kritérium két variancia aránya: faktoriális, amelyet a vizsgált faktor hatása generál, és reziduális, véletlen okok hatására:

Diszperziós összefüggés Γ = £>u : Snedecor amerikai statisztikus a varianciaanalízis feltalálója, R. Fisher tiszteletére javasolta a £*2 jelölését G betűvel.

A °2 io2 varianciák a populáció variancia becslései. Ha a °2 °2 eltérésű minták ugyanabból az általános sokaságból készülnek, ahol az értékek változása véletlenszerű volt, akkor a °2 °2 értékek eltérése is véletlenszerű.

Ha egy kísérlet több tényező (A, B, C stb.) hatását vizsgálja egy effektív tulajdonságra egyidejűleg, akkor ezek mindegyikének hatásából adódó varianciának összevethetőnek kell lennie °pl.gP, vagyis

Ha a faktorszórás értéke szignifikánsan nagyobb, mint a maradék, akkor a faktor szignifikánsan befolyásolta a kapott attribútumot, és fordítva.

A többtényezős kísérletekben az egyes tényezők hatásából adódó variáción kívül szinte mindig a faktorok kölcsönhatásából adódó variáció ($ав: ^лс ^вс $ліс). A kölcsönhatás lényege, hogy az egyik tényező hatása jelentősen megváltozik a második különböző szintjein (például a Talajminőség hatékonysága különböző műtrágyaadagoknál).

A tényezők kölcsönhatását a megfelelő szórásnégyzetek összehasonlításával is értékelni kell 3 ^v.gr:

A B-kritérium tényleges értékének kiszámításakor a szórások közül a nagyobbat veszik a számlálóba, tehát B > 1. Nyilvánvalóan minél nagyobb a B-kritérium, annál jelentősebbek lesznek a szórásnégyzetek. Ha B = 1, akkor az eltérések szignifikancia értékelésének kérdése kikerül.

A diszperziók arányában bekövetkező véletlenszerű ingadozások határainak meghatározására Fischer G. speciális B-eloszlási táblázatokat dolgozott ki (4. és 5. melléklet). A kritérium funkcionálisan a valószínűséghez kapcsolódik, és a variációs szabadsági fokok számától függ k1és a két összehasonlított variancia k2-ja. A 0,05 és 0,01 szignifikanciaszintek kritériumának rendkívül magas értékére vonatkozó következtetések levonására jellemzően két táblázatot használnak. A 0,05-ös (vagy 5%-os) szignifikanciaszint azt jelenti, hogy 100 B-kritériumból csak 5 esetben vehet fel a táblázatban feltüntetett értéket vagy annál magasabb értéket. A szignifikanciaszint 0,05-ről 0,01-re való csökkentése a kritérium értékének növekedéséhez vezet két variancia között, csupán véletlenszerű okok hatására.

A kritérium értéke közvetlenül függ a két összehasonlítandó diszperzió szabadsági fokainak számától is. Ha a szabadsági fokok száma a végtelen felé hajlik (k-me), akkor a B arány két diszperzió esetén egységnyi.

A B kritérium táblázatos értéke megmutatja két variancia arányának lehetséges véletlenszerű értékét egy adott szignifikanciaszinten és a megfelelő számú szabadsági fokot az egyes összehasonlítandó varianciák esetében. A feltüntetett táblázatok a B értékét mutatják az azonos általános sokaságból készült minták esetében, ahol az értékek változásának okai csak véletlenszerűek.

A Γ értékét a táblázatokból (4. és 5. melléklet) találjuk meg a megfelelő oszlop (a szabadságfokok száma nagyobb szóráshoz - k1) és a sor (a szabadsági fokok száma kisebb szóráshoz - k2) metszéspontjában. ). Tehát, ha a nagyobb szórás (Г számláló) k1 = 4, és a kisebb szórás (Γ nevező) k2 = 9, akkor Г az а = 0,05 szignifikancia szinten 3,63 lesz (4. melléklet). Tehát véletlenszerű okok következtében, mivel a minták kicsik, egy minta szórása 5%-os szignifikancia szinten 3,63-szor haladhatja meg a második minta varianciáját. Amikor a szignifikanciaszint 0,05-ről 0,01-re csökken, a G feltétel táblázatos értéke, ahogy fentebb megjegyeztük, nő. Tehát azonos k1 = 4 és k2 = 9 és a = 0,01 szabadsági fok mellett a G kritérium táblázatos értéke 6,99 lesz (5. melléklet).

Tekintsük a varianciaanalízis szabadságfok-számának meghatározására szolgáló eljárást. A szabadságfokok számát, amely megfelel az eltérések négyzetes összegének, az eltérések négyzetes összegeinek (^összesen = No^gr + ]¥vhr) felosztásához hasonlóan a megfelelő komponensekre bontjuk, azaz a a szabadságfokok teljes számát (k") a csoportközi (k1) és a csoporton belüli (k2) variációk szabadsági fokainak számára bontják.

Így ha egy mintapopuláció, amely a N megfigyelések osztva T csoportok (kísérleti lehetőségek száma) és P alcsoportok (ismétlések száma), akkor a k szabadsági fokok száma ennek megfelelően:

a) az eltérések négyzetes összegére (s7zag)

b) az eltérések négyzetes csoportközi összegére ^m.gP)

c) az eltérések négyzetes csoporton belüli összegére V v.gR)

A variációk hozzáadásának szabálya szerint:

Például, ha egy kísérletben a kísérlet négy változata jött létre (t = 4) öt ismétlésben (n = 5), és a megfigyelések teljes száma N = = T o p = 4 * 5 = 20, akkor a szabadsági fokok száma ennek megfelelően egyenlő:

Az eltérések négyzetes összegének és a szabadságfokok számának ismeretében három variancia torzítatlan (korrigált) becslését határozhatjuk meg:

A H0 nullhipotézist a B feltétellel ugyanúgy teszteljük, mint a Student-féle t-próbát. A H0 ellenőrzésére vonatkozó döntés meghozatalához ki kell számítani a kritérium tényleges értékét, és össze kell hasonlítani a táblázatban szereplő Ba értékkel az elfogadott a szignifikancia szintre és a szabadságfokok számára. k1és k2 két diszperzió esetén.

Ha Bfaq > Ba, akkor az elfogadott szignifikanciaszintnek megfelelően azt a következtetést vonhatjuk le, hogy a minta varianciáinak különbségeit nem csak véletlenszerű tényezők határozzák meg; jelentősek. Ebben az esetben a nullhipotézist elvetjük, és okunk van azt állítani, hogy a tényező jelentősen befolyásolja a kapott jellemzőt. Ha< Ба, то нулевую гипотезу принимают и есть основание утверждать, что различия между сравниваемыми дисперсиями находятся в границах возможных случайных колебаний: действие фактора на результативный признак не является существенным.

Egy adott varianciaanalízis modell használata a vizsgált tényezők számától és a mintavételi módszertől is függ.

c Az eredményül kapott jellemző változását meghatározó tényezők számától függően egy, két vagy több tényező szerint is képezhetünk mintákat. Eszerint a varianciaanalízis egytényezősre és többtényezősre oszlik. Egyébként egy- és többtényezős diszperziós komplexnek is nevezik.

A teljes variáció bontási sémája a csoportok kialakulásától függ. Lehet véletlenszerű (az egyik csoport megfigyelései nem kapcsolódnak a második csoport megfigyeléseihez) és nem véletlenszerűek (két minta megfigyelései a közös kísérleti feltételek szerint kapcsolódnak egymáshoz). Ennek megfelelően független és függő mintákat kapunk. Független minták képezhetők egyenlő és páratlan számokkal is. A függő minták kialakítása azonos nagyságrendű.

Ha a csoportokat véletlenszerű sorrendben alakítjuk ki, akkor a kapott tulajdonság teljes variációs volumene a faktoriális (csoportközi) és a maradék variáció mellett tartalmazza az ismétlések változását is, azaz

A gyakorlatban a legtöbb esetben függő mintákat kell figyelembe venni, amikor a csoportok és alcsoportok feltételei kiegyenlítődnek. Tehát egy terepi kísérletben az egész helyszínt blokkokra osztják, a legváltozatosabb feltételekkel. Ebben az esetben a kísérlet minden változata egyenlő lehetőségeket kap arra, hogy minden blokkban megjelenjenek, ezáltal kiegyenlítve a feltételeket a kísérlet összes tesztelt változatára. A kísérlet felépítésének ezt a módszerét randomizált blokk módszernek nevezik. Az állatokkal végzett kísérleteket hasonlóan végzik.

A társadalmi-gazdasági adatok varianciaanalízis módszerrel történő feldolgozása során szem előtt kell tartani, hogy a tényezők nagy száma és ezek egymáshoz való viszonya miatt a feltételek leggondosabb kiegyenlítése mellett is nehéz megállapítani az objektív mértékét. az egyes tényezők hatása a kapott jellemzőre. Ezért a reziduális variáció mértékét nemcsak véletlenszerű okok határozzák meg, hanem olyan jelentős tényezők is, amelyeket a varianciaanalízis modell felépítése során nem vettünk figyelembe. Emiatt a reziduális variancia, mint összehasonlítási alap esetenként alkalmatlanná válik a célnak, egyértelműen túlbecsült értékkel bír, és nem szolgálhat kritériumként a tényezők hatásának jelentőségére. Ebben a tekintetben a varianciaanalízis modellek felépítése során aktuálissá válik a legfontosabb tényezők kiválasztásának és mindegyik hatásának megnyilvánulási feltételeinek kiegyenlítésének problémája. Kívül. a varianciaanalízis alkalmazása feltételezi a vizsgált statisztikai populációk normális vagy ahhoz közeli eloszlását. Ha ez a feltétel nem teljesül, akkor a varianciaanalízis során kapott becslések eltúlzottak.

Az ember csak úgy ismerheti fel képességeit, ha megpróbálja alkalmazni azokat. (Seneca)

Varianciaanalízis

Bevezető áttekintés

Ebben a részben áttekintjük az ANOVA alapvető módszereit, feltételezéseit és terminológiáját.

Vegye figyelembe, hogy az angol nyelvű szakirodalomban a varianciaanalízist általában variációanalízisnek nevezik. Ezért a rövidség kedvéért az alábbiakban néha ezt a kifejezést fogjuk használni ANOVA (An elemzés o f va riációt) a közönséges ANOVA-ra és a kifejezésre MANOVA többváltozós varianciaanalízishez. Ebben a részben egymás után áttekintjük a varianciaanalízis főbb gondolatait ( ANOVA), kovariancia analízis ( ANCOVA), többváltozós varianciaanalízis ( MANOVA) és a kovariancia többváltozós elemzése ( MANCOVA). A kontrasztelemzés és a post hoc tesztek érdemeinek rövid tárgyalása után nézzük meg azokat a feltételezéseket, amelyeken az ANOVA módszerek alapulnak. Ennek a szakasznak a vége felé kifejtjük az ismételt mérések többváltozós megközelítésének előnyeit a hagyományos egyváltozós megközelítéssel szemben.

Kulcs ötletek

A varianciaanalízis célja. A varianciaanalízis fő célja az átlagok közötti különbségek jelentőségének vizsgálata. Fejezet (8. fejezet) röviden bevezeti a statisztikai szignifikancia vizsgálatát. Ha egyszerűen két minta átlagait hasonlítja össze, a varianciaanalízis ugyanazt az eredményt adja, mint a közönséges elemzés. t- független minták tesztelése (ha két független objektumcsoportot vagy megfigyelést hasonlítunk össze) ill t- a függő minták kritériuma (ha két változót hasonlítanak össze ugyanazon az objektum- vagy megfigyelési halmazon). Ha nem ismeri ezeket a kritériumokat, javasoljuk, hogy tekintse át a bevezető fejezet áttekintését (9. fejezet).

Honnan jött a név Varianciaanalízis? Furcsának tűnhet, hogy az átlagok összehasonlítására szolgáló eljárást varianciaanalízisnek nevezik. Valójában ez azért van így, mert amikor az átlagok közötti különbségek statisztikai szignifikanciáját vizsgáljuk, valójában szórásokat elemezünk.

Négyzetösszeg felosztása

Egy n mintaméret esetén a minta variancia kiszámítása a minta átlagától való eltérések négyzetes összege osztva n-1-gyel (mintanagyság mínusz egy). Így egy rögzített n mintaméret esetén a variancia a négyzetek (eltérések) összegének függvénye, amelyet rövidség kedvéért jelölünk, SS(az angol Sum of Squares - Sum of Squares szóból). A varianciaanalízis alapja a variancia részekre bontása (vagy particionálása). Vegye figyelembe a következő adatkészletet:

A két csoport átlaga szignifikánsan különbözik (2, illetve 6). Az eltérések négyzetes összege belül minden csoport egyenlő 2-vel. Ezeket összeadva 4-et kapunk. Ha most megismételjük ezeket a számításokat kizárás csoporttagság, vagyis ha kiszámoljuk SS A két minta összesített átlaga alapján 28-at kapunk. Más szóval a csoporton belüli variabilitáson alapuló variancia (négyzetösszeg) sokkal kisebb értékeket eredményez, mint a teljes variabilitás alapján számítva (a általános átlag). Ennek oka nyilvánvalóan az átlagok közötti jelentős különbség, és ez az átlagok közötti különbség magyarázza a négyzetösszegek közötti különbséget. Valójában, ha a modul segítségével elemzi az adott adatokat Varianciaanalízis, akkor a következő eredmények születnek:

Amint az a táblázatból látható, a négyzetek teljes összege SS=28 osztva a megadott négyzetek összegével csoporton belüli változékonyság ( 2+2=4 ; lásd a táblázat második sorát) és az átlagértékek különbségéből adódó négyzetösszeg. (28-(2+2)=24; lásd a táblázat első sorát).

SS hibák ésSS hatás. Csoporton belüli változékonyság ( SS) általában diszperziónak nevezik hibákat. Ez azt jelenti, hogy általában nem lehet megjósolni vagy megmagyarázni, amikor egy kísérletet végzünk. A másik oldalon, SS hatás(vagy csoportok közötti variabilitás) a vizsgált csoportok átlagai közötti különbségekkel magyarázható. Más szóval egy bizonyos csoporthoz való tartozás magyarázza csoportközi változékonyság, mert tudjuk, hogy ezek a csoportok különböző eszközökkel rendelkeznek.

Jelentőség ellenőrzése. A statisztikai szignifikancia-vizsgálat alapvető gondolatait a fejezet tárgyalja Statisztikai alapfogalmak(8. fejezet). Ez a fejezet azt is elmagyarázza, hogy sok teszt miért használja a megmagyarázott és a megmagyarázhatatlan variancia arányát. Példa erre a felhasználásra maga a varianciaanalízis. A szignifikancia vizsgálata az ANOVA-ban a csoportok közötti variancia miatti variancia összehasonlításán alapul (ún. átlagos négyzethatás vagy KISASSZONYHatás) és a csoporton belüli eltérések miatti variancia (úgynevezett átlagos négyzetes hiba vagy KISASSZONYhiba). Ha a nullhipotézis (az átlagok egyenlősége a két populációban) igaz, akkor a véletlen variáció miatt viszonylag kis eltérésre számíthatunk a mintaátlagokban. Ezért a nullhipotézis szerint a csoporton belüli variancia gyakorlatilag egybeesik a csoporttagság figyelembevétele nélkül számított teljes variancia értékével. Az így kapott csoporton belüli varianciákat a segítségével lehet összehasonlítani F- teszt, amely ellenőrzi, hogy a varianciahányad lényegesen nagyobb-e, mint 1. A fent tárgyalt példában F- a kritérium azt mutatja, hogy az átlagok közötti különbség statisztikailag szignifikáns.

A varianciaanalízis alapvető logikája.Összefoglalva, az ANOVA célja az átlagok közötti különbség statisztikai szignifikanciájának tesztelése (csoportok vagy változók esetében). Ezt az ellenőrzést varianciaanalízissel hajtják végre, pl. a teljes variancia (variáció) részekre osztásával, amelyek közül az egyik véletlen hibából (vagyis a csoporton belüli variabilitásból), a második pedig az átlagértékek különbségéből adódik. Az utolsó varianciakomponenst ezután az átlagok közötti különbség statisztikai szignifikanciájának elemzésére használjuk. Ha ez a különbség szignifikáns, akkor a nullhipotézist elvetjük, és az alternatív hipotézist, miszerint az átlagok között különbség van, elfogadjuk.

Függő és független változók. Azokat a változókat hívjuk meg, amelyek értékét a kísérlet során végzett mérések határozzák meg (például tesztpontszám). függő változók. A kísérletben szabályozható változókat (például tanítási módszereket vagy egyéb kritériumokat a megfigyelések csoportokra bontására) ún. tényezőket vagy független változók. Ezeket a fogalmakat a fejezetben ismertetjük részletesebben Statisztikai alapfogalmak(8. fejezet).

Többváltozós varianciaanalízis

A fenti egyszerű példában azonnal kiszámolhatja a független minták t-próbáját a megfelelő modulopció segítségével Alapstatisztika és táblázatok. A kapott eredmények természetesen egybeesnek a varianciaanalízis eredményeivel. Az ANOVA azonban rugalmas és hatékony technikákat tartalmaz, amelyek sokkal összetettebb vizsgálatokhoz is használhatók.

Sok tényező. A világ összetett és sokdimenziós természetű. Rendkívül ritkák az olyan helyzetek, amikor egy bizonyos jelenséget egy változó teljesen leír. Például, ha nagy paradicsom termesztését próbáljuk megtanulni, figyelembe kell venni a növény genetikai szerkezetével, talajtípusával, fényével, hőmérsékletével stb. kapcsolatos tényezőket. Így egy tipikus kísérlet elvégzésekor számos tényezővel kell számolni. A fő ok, amiért az ANOVA használata előnyösebb, mint két minta ismételt összehasonlítása különböző faktorszinteken t- kritérium az, hogy a varianciaanalízis több hatékony kis minták esetén pedig informatívabb.

Tényezőkezelés. Tegyük fel, hogy a fent tárgyalt kétmintás elemzési példában egy másik tényezőt adunk hozzá, pl. Padló- Nem. Minden csoport 3 férfiból és 3 nőből álljon. Ennek a kísérletnek a terve egy 2:2 táblázat formájában is bemutatható:

Kísérlet. 1. csoport Kísérlet. 2. csoport
Férfiak2 6
3 7
1 5
Átlagos2 6
Nők4 8
5 9
3 7
Átlagos4 8

A számítások elvégzése előtt észreveheti, hogy ebben a példában a teljes variancia legalább három forrásból áll:

(1) véletlenszerű hiba (a csoportvariancián belül),

(2) a kísérleti csoporttagsággal kapcsolatos változékonyság, és

(3) a megfigyelt objektumok neme miatti változékonyság.

(Megjegyzendő, hogy a változékonyságnak van egy másik lehetséges forrása is - tényezők kölcsönhatása, amelyet később tárgyalunk). Mi történik, ha nem vesszük figyelembe padlóneme tényezőként az elemzésben és számítsuk ki a szokásos t-kritérium? Ha négyzetösszegeket számolunk, figyelmen kívül hagyva padló -neme(azaz a különböző nemű objektumok egy csoportba való kombinálása a csoporton belüli variancia kiszámításakor, így minden csoporthoz egy négyzetösszeget kapunk, amely egyenlő SS=10, és a négyzetek teljes összege SS= 10+10 = 20), akkor nagyobb csoporton belüli varianciaértéket kapunk, mint pontosabb elemzéssel további alcsoportokra bontással. félig- neme(ebben az esetben a csoporton belüli átlag 2 lesz, és a teljes csoporton belüli négyzetösszeg egyenlő lesz SS = 2+2+2+2 = 8). Ez a különbség abból adódik, hogy az átlagos érték a férfiak - hímek kevesebb az átlagosnál nők -női, és ez az átlagkülönbség növeli az általános csoporton belüli változékonyságot, ha a nemet nem vesszük figyelembe. A hibavariancia szabályozása növeli a teszt érzékenységét (teljesítményét).

Ez a példa a varianciaanalízis másik előnyét mutatja be a hagyományoshoz képest t- két minta kritériuma. A varianciaanalízis lehetővé teszi az egyes tényezők tanulmányozását a fennmaradó tényezők értékének szabályozásával. Valójában ez a fő oka annak, hogy nagyobb statisztikai ereje van (kisebb mintaméret szükséges az értelmes eredmények eléréséhez). Emiatt a varianciaanalízis még kis mintákon is statisztikailag szignifikánsabb eredményt ad, mint az egyszerű t- kritérium.

Interakciós hatások

Van egy másik előnye a varianciaanalízis használatának a hagyományoshoz képest t- kritérium: a varianciaanalízis lehetővé teszi számunkra, hogy észleljük kölcsönhatás tényezők között, és ezért lehetővé teszi bonyolultabb modellek tanulmányozását. Szemléltetésképpen vegyünk egy másik példát.

Fő hatások, páronkénti (kéttényezős) kölcsönhatások. Tegyük fel, hogy két tanulócsoport van, és pszichológiailag az első csoport tanulói elszántak a rájuk bízott feladatok elvégzésére, és céltudatosabbak, mint a lustább tanulókból álló második csoport tanulói. Véletlenszerűen osszuk ketté az egyes csoportokat, és adjunk mindegyik csoport egyik felét egy nehéz feladatot, a másik felét pedig egy könnyű feladatot. Ezután megmérjük, milyen keményen dolgoznak a tanulók ezeken a feladatokon. Ennek a (fiktív) tanulmánynak az átlagait a táblázat tartalmazza:

Milyen következtetést lehet levonni ezekből az eredményekből? Megállapítható-e, hogy: (1) a tanulók intenzívebben dolgoznak egy összetett feladaton; (2) A motivált tanulók keményebben dolgoznak, mint a lusta tanulók? Ezen állítások egyike sem ragadja meg a táblázatban bemutatott eszközök szisztematikus jellegének lényegét. Az eredményeket elemezve helyesebb lenne azt mondani, hogy a nehéz feladatokon csak a motivált tanulók dolgoznak keményebben, míg a könnyű feladatokon csak a lusta tanulók. Vagyis a tanulók jelleme és a feladat nehézsége interakcióba lépve befolyásolják egymást a ráfordított erőfeszítésekre. Ez egy példa párkapcsolat a tanulók jelleme és a feladat nehézsége között. Vegye figyelembe, hogy az 1. és 2. állítás leírja főbb hatások.

Magasabb rendű interakciók. Míg a páronkénti kölcsönhatásokat még mindig viszonylag könnyű megmagyarázni, a magasabb rendű interakciókat sokkal nehezebb megmagyarázni. Képzeljük el, hogy a fent vizsgált példában egy másik tényezőt is bevezetünk padló -Nemés a következő átlagtáblázatot kaptuk:

Milyen következtetéseket lehet most levonni a kapott eredményekből? Az átlagos ábrázolások megkönnyítik az összetett hatások értelmezését. Az ANOVA modul lehetővé teszi, hogy ezeket a grafikonokat szinte egyetlen egérkattintással készítse el.

Az alábbi grafikonokon látható kép a vizsgált háromtényezős kölcsönhatást mutatja.

A grafikonokat áttekintve megállapítható, hogy a nőknél kölcsönhatás van a személyiség és a teszt nehézsége között: a motivált nők keményebben dolgoznak egy nehéz feladaton, mint egy könnyű feladaton. A férfiaknál ugyanez a kölcsönhatás fordított. Látható, hogy a tényezők közötti kölcsönhatás leírása egyre zavarosabbá válik.

Az interakciók leírásának általános módja.Általában a tényezők közötti kölcsönhatást úgy írják le, mint egy hatás változását egy másik hatás hatására. A fent tárgyalt példában a kéttényezős interakció úgy írható le, mint a feladat nehézségét jellemző tényező fő hatásának változása a tanuló jellemét leíró tényező hatására. Az előző bekezdésben szereplő három tényező kölcsönhatására azt mondhatjuk, hogy két tényező (a feladat összetettsége és a tanuló karaktere) kölcsönhatása megváltozik a hatás hatására. nemeNem. Ha négy tényező kölcsönhatását vizsgáljuk, akkor azt mondhatjuk, hogy a három tényező kölcsönhatása a negyedik faktor hatására megváltozik, i. A negyedik faktor különböző szintjein különböző típusú interakciók léteznek. Kiderült, hogy sok területen öt vagy akár több tényező kölcsönhatása sem szokatlan.

Bonyolult tervek

Csoportközi és csoporton belüli tervek (ismételt mérési tervek)

Két különböző csoport összehasonlításakor általában ezt használják t- független minták kritériuma (a modulból Alapstatisztika és táblázatok). Ha két változót hasonlítanak össze ugyanazon az objektumhalmazon (megfigyelések), akkor azt használják t-a függő minták kritériuma. A varianciaanalízishez az is fontos, hogy a minták függőek-e vagy sem. Ha ugyanazokat a változókat ismételten mérik (különböző körülmények között vagy különböző időpontokban) ugyanazokra a tárgyakra, akkor a jelenlétről beszélnek ismételt mérési tényező(más néven csoporton belüli faktor, mivel a csoporton belüli négyzetösszegből számítják ki annak jelentőségét). Ha különböző tárgycsoportokat hasonlítunk össze (például férfiak és nők, három baktériumtörzs stb.), akkor a csoportok közötti különbséget leírjuk. csoportközi tényező. A két leírt faktortípus szignifikanciakritériumának számítására szolgáló módszerek eltérőek, de általános logikájuk és értelmezésük megegyezik.

Csoportközi és csoporton belüli tervek. Sok esetben a kísérlet megköveteli, hogy a tervezésbe mind az alanyok közötti tényezőt, mind az ismételt mérési tényezőt beépítsék. Például női és férfi tanulók matematikai készségeit mérik (ahol padló -Nem-csoportközi faktor) a félév elején és végén. Az egyes tanulók képességeinek két mérőszáma csoporton belüli faktort (ismételt mérési tényezőt) alkot. A főbb hatások és interakciók értelmezése az alanyok és az ismételt mérési tényezők között konzisztens, és nyilvánvalóan mindkét típusú tényező kölcsönhatásba léphet egymással (pl. a nők egy félév során készségeket szereznek, míg a férfiak elveszítik).

Hiányos (beágyazott) tervek

Sok esetben az interakciós hatás elhanyagolható. Ez akkor fordul elő, ha ismert, hogy nincs interakciós hatás a populációban, vagy amikor egy teljes végrehajtást hajtanak végre faktoriális terv lehetetlen. Például négy üzemanyag-adaléknak az üzemanyag-fogyasztásra gyakorolt ​​hatását tanulmányozzák. Négy autó és négy sofőr van kiválasztva. Teljes faktoriális a kísérlet megköveteli, hogy minden kombináció: adalékanyag, vezető, autó - legalább egyszer megjelenjen. Ehhez legalább 4 x 4 x 4 = 64 tesztcsoportra van szükség, ami túl időigényes. Ezenkívül nem valószínű, hogy bármilyen kölcsönhatás lépne fel a vezető és az üzemanyag-adalék között. Ezt figyelembe véve használhatja a tervet latin négyzetek, amely mindössze 16 tesztcsoportot tartalmaz (a négy adalékanyagot A, B, C és D betűk jelölik):

A latin négyzeteket a legtöbb kísérleti tervezésről szóló könyv leírja (pl. Hays, 1988; Lindman, 1974; Milliken és Johnson, 1984; Winer, 1962), és itt nem tárgyaljuk részletesen. Vegye figyelembe, hogy a latin négyzetek Nemnteljes olyan kialakítások, amelyekben nem szerepel a faktorszintek összes kombinációja. Például az 1. sofőr az 1. autót csak A adalékkal, a 3. sofőr az 1. autót csak C adalékkal vezeti. Tényezőszintek adalékanyagok ( A, B, C és D) táblázatcellákba vannak ágyazva autó x sofőr - mint a tojás a fészkekben. Ez a mnemonika hasznos a természet megértéséhez beágyazott vagy beágyazott terveket. Modul Varianciaanalízis egyszerű módszereket kínál az ilyen típusú tervek elemzésére.

Kovariancia-elemzés

fő gondolat

fejezetben Kulcs ötletek Röviden megtárgyaltuk a faktorszabályozás gondolatát, és azt, hogy az additív tényezők beépítése hogyan csökkenti a négyzetes hibák összegét és növeli a tervezés statisztikai erejét. Mindez kiterjeszthető a folytonos értékkészletű változókra. Ha az ilyen folytonos változókat faktorként szerepeltetjük egy tervezésben, akkor ún kovariánsok.

Rögzített kovariánsok

Tegyük fel, hogy összehasonlítjuk a tanulók két csoportjának matematikai készségeit, akiket két különböző tankönyv segítségével tanítottak. Tételezzük fel azt is, hogy az intelligenciahányados (IQ) minden tanuló számára elérhető. Feltételezheti, hogy az IQ összefügg a matematikai készségekkel, és felhasználhatja ezt az információt. Mind a két tanulócsoport esetében kiszámítható az IQ és a matematikai készségek közötti korrelációs együttható. Ezzel a korrelációs együtthatóval elkülöníthető a variancia aránya a csoportokban, ami az IQ hatásával és a variancia megmagyarázhatatlan arányával magyarázható (lásd még Statisztikai alapfogalmak(8. fejezet) és Alapstatisztika és táblázatok(9. fejezet)). A variancia fennmaradó részét hibavarianciaként használjuk fel az elemzésben. Ha összefüggés van az IQ és a matematikai készségek között, akkor a hibavariancia jelentősen csökkenthető SS/(n-1) .

Kovariánsok hatása aF- kritérium. F- a kritérium értékeli a csoportok átlagértékei közötti különbség statisztikai szignifikanciáját, és kiszámítja a csoportok közötti variancia arányát ( KISASSZONYhatás) hibavarianciához ( KISASSZONYhiba) . Ha KISASSZONYhiba csökken például az IQ-tényező, az érték figyelembe vételekor F növeli.

Sok kovariáns. A fentebb egy kovariánsra (IQ) használt érvelés könnyen kiterjeszthető több kovariánsra is. Például az IQ mellett a motiváció mérését, a térbeli gondolkodást stb. A szokásos korrelációs együttható helyett többszörös korrelációs együtthatót alkalmazunk.

Amikor az értékF -kritériumok csökkennek. Néha a kovariánsok bevezetése egy kísérleti tervbe csökkenti a jelentőségét F-kritériumok . Ez jellemzően azt jelzi, hogy a kovariánsok nemcsak a függő változóval (pl. matematikai készségek), hanem a tényezőkkel is (pl. különböző tankönyvek) is korrelálnak. Tegyük fel, hogy az IQ-t a félév végén mérik meg, miután majdnem egy évig két diákcsoportot tanítottak két különböző tankönyv segítségével. Bár a tanulókat véletlenszerűen osztották be a csoportokba, előfordulhat, hogy a tankönyvi különbségek olyan nagyok, hogy mind az IQ, mind a matematikai készségek nagymértékben eltérőek lesznek a csoportok között. Ebben az esetben a kovariánsok nemcsak a hibavarianciát csökkentik, hanem a csoportok közötti varianciát is. Más szóval, miután ellenőriztük a csoportok közötti IQ különbségeket, a matematikai készségek különbségei már nem szignifikánsak. Mondhatod másként is. Az IQ befolyásának „kizárása” után a tankönyv matematikai készségek fejlesztésére gyakorolt ​​hatása akaratlanul is kizárt.

Korrigált átlagok. Ha egy kovariáns befolyásolja az alanyok közötti faktort, akkor számolni kell beállított eszközök, azaz azok az átlagok, amelyeket az összes kovariáns becslés eltávolítása után kapunk.

Kovariánsok és faktorok közötti kölcsönhatások. Ahogyan a tényezők közötti kölcsönhatásokat vizsgáljuk, úgy a kovariánsok és a faktorcsoportok közötti kölcsönhatásokat is vizsgálhatjuk. Tegyük fel, hogy az egyik tankönyv kifejezetten okos tanulóknak való. A második tankönyv unalmas az okos tanulóknak, és ugyanaz a tankönyv a kevésbé okos tanulóknak nehéz. Ennek eredményeként az első csoportban pozitív korreláció van az IQ és a tanulási eredmény között (okosabb tanulók, jobb eredmények), a második csoportban pedig nulla vagy enyhe negatív korreláció (minél okosabb a tanuló, annál kisebb a valószínűsége a matematikai készségek elsajátításának). a második tankönyvből). Egyes tanulmányok ezt a helyzetet a kovarianciaanalízis feltevéseinek megsértésének példájaként tárgyalják. Mivel azonban az ANOVA modul a kovarianciaanalízis legelterjedtebb módszereit használja, lehetőség van különösen a faktorok és a kovariánsok közötti interakció statisztikai szignifikanciájának értékelésére.

Változó kovariánsok

Míg a fix kovariánsokról elég gyakran esik szó a tankönyvekben, addig a változó kovariánsokat sokkal ritkábban említik. Jellemzően az ismételt mérésekkel végzett kísérletek során arra vagyunk kíváncsiak, hogy különböző időpontokban ugyanazok a mennyiségek mérhetők. Nevezetesen ezeknek a különbségeknek a jelentősége érdekel bennünket. Ha a kovariánsokat a függő változók mérésével egyidejűleg mérjük, kiszámítható a kovariáns és a függő változó közötti korreláció.

Például a matematika érdeklődését és a matematikai készségeket a félév elején és végén lehet felfedezni. Érdekes lenne megvizsgálni, hogy a matematika iránti érdeklődés változásai összefüggésben állnak-e a matematikai készségek változásával.

Modul Varianciaanalízis V STATISZTIKA lehetőség szerint automatikusan értékeli a kovariánsok változásainak statisztikai szignifikanciáját a tervekben.

Többváltozós tervezések: többváltozós variancia- és kovarianciaanalízis

Csoportközi tervek

A korábban tárgyalt példák mindegyike csak egy függő változót tartalmazott. Ha egyszerre több függő változó van, akkor csak a számítások összetettsége nő, de a tartalom és az alapelvek nem változnak.

Például egy tanulmányt két különböző tankönyvön végeznek. Ugyanakkor tanulmányozzák a hallgatók fizika és matematika tanulmányi sikereit. Ebben az esetben két függő változóról van szó, és meg kell találni, hogy két különböző tankönyv hogyan befolyásolja őket egyszerre. Ehhez használhatja a többváltozós varianciaanalízist (MANOVA). Egydimenziós helyett F kritérium, többdimenziós használatos F teszt (Wilks l-próba), amely a hibakovariancia mátrix és a csoportközi kovariancia mátrix összehasonlításán alapul.

Ha a függő változók korrelálnak egymással, akkor ezt a korrelációt kell figyelembe venni a szignifikancia-kritérium kiszámításakor. Nyilvánvalóan, ha ugyanazt a mérést kétszer megismételjük, akkor semmi újat nem lehet kapni. Ha egy meglévő dimenzióhoz korrelált dimenziót adunk, akkor némi új információt kapunk, de az új változó redundáns információt tartalmaz, ami a változók közötti kovarianciában tükröződik.

Az eredmények értelmezése. Ha az összesített többváltozós teszt szignifikáns, akkor azt a következtetést vonhatjuk le, hogy a megfelelő hatás (pl. tankönyvtípus) szignifikáns. Felmerülnek azonban a következő kérdések. A tankönyv típusa csak a matematikai készségek, csak a fizikai készségek vagy mindkét képesség fejlesztését befolyásolja? Valójában egy szignifikáns többváltozós teszt megszerzése után egy egyváltozós tesztet vizsgálnak az egyéni főhatás vagy kölcsönhatás szempontjából. F kritérium. Más szóval, külön vizsgáljuk azokat a függő változókat, amelyek hozzájárulnak a többváltozós teszt szignifikanciájához.

Ismételt intézkedések tervek

Ha a tanulók matematikai és fizikakészségeit a félév elején és a végén mérik, akkor ezek ismétlődő mérések. A szignifikancia-kritérium vizsgálata az ilyen tervekben az egydimenziós eset logikus továbbfejlesztése. Megjegyezzük, hogy a többváltozós varianciaanalízis technikákat is gyakran használják a kettőnél több szinttel rendelkező egyváltozós ismételt mérési tényezők jelentőségének vizsgálatára. A megfelelő alkalmazásokról ebben a részben később lesz szó.

Változóértékek összegzése és többváltozós varianciaanalízis

Még az egyváltozós és többváltozós varianciaanalízis gyakorlott használói is gyakran nehezen kapnak eltérő eredményeket, ha többváltozós varianciaanalízist alkalmaznak, például három változóra, és ha egyváltozós varianciaanalízist alkalmaznak e három változó összegére, mintha egyetlen változó voltak.

Ötlet összegzés változó, hogy minden változó tartalmaz néhány valódi változót, amelyet tanulmányozunk, valamint egy véletlenszerű mérési hibát. Ezért a változók értékeinek átlagolásakor a mérési hiba minden mérésnél közelebb lesz a 0-hoz, és az átlagolt értékek megbízhatóbbak. Valójában ebben az esetben az ANOVA alkalmazása a változók összegére ésszerű és hatékony technika. Ha azonban a függő változók többdimenziós jellegűek, a változók értékeinek összegzése nem megfelelő.

Például álljon a függő változó négy mutatóból siker a társadalomban. Mindegyik mutató az emberi tevékenység egy teljesen független aspektusát jellemzi (például szakmai siker, üzleti siker, családi jólét stb.). E változók hozzáadása olyan, mint az alma és a narancs hozzáadása. Ezeknek a változóknak az összege nem lenne megfelelő egydimenziós mérték. Ezért az ilyen adatokat többdimenziós mutatóként kell kezelni többváltozós varianciaanalízis.

Kontrasztelemzés és post hoc tesztek

Miért hasonlítják össze a különálló átlagkészleteket?

A kísérleti adatokkal kapcsolatos hipotéziseket általában nem egyszerűen a fő hatások vagy kölcsönhatások alapján fogalmazzák meg. Példa erre a hipotézis: egy bizonyos tankönyv csak a fiú tanulók matematikai készségeit fejleszti, míg egy másik tankönyv megközelítőleg egyformán hatékony mindkét nem számára, de még mindig kevésbé hatékony a férfiak számára. Megjósolható, hogy a tankönyvek hatékonysága kölcsönhatásban van a tanulók nemével. Azonban ez az előrejelzés is érvényes természet interakciók. Jelentős különbség várható a nemek között az egyik könyvet használó tanulóknál, és gyakorlatilag független eredmények nemenként a másik könyvet használó tanulóknál. Az ilyen típusú hipotéziseket általában kontrasztanalízissel vizsgálják.

A kontrasztok elemzése

Röviden, a kontrasztelemzés lehetővé teszi az összetett hatások bizonyos lineáris kombinációinak statisztikai szignifikanciájának értékelését. A kontrasztelemzés minden összetett ANOVA terv fő és kötelező eleme. Modul Varianciaanalízis meglehetősen sokféle kontrasztelemző képességgel rendelkezik, amelyek lehetővé teszik az eszközök bármilyen típusú összehasonlításának elkülönítését és elemzését.

A posterioriösszehasonlítások

Néha egy kísérlet feldolgozása eredményeként váratlan hatást fedeznek fel. Bár a legtöbb esetben a kreatív kutató bármilyen eredményt meg tud magyarázni, ez nem teszi lehetővé a további elemzést és az előrejelzéshez szükséges becsléseket. Ez a probléma egyike azoknak, amelyeknél a posteriori kritériumok, vagyis olyan kritériumok, amelyek nem használnak eleve hipotéziseket. Szemléltetésül vegye figyelembe a következő kísérletet. Tegyük fel, hogy 100 kártya van, amelyek 1-től 10-ig terjedő számokat tartalmaznak. Ezeket a kártyákat egy fejlécbe helyezve véletlenszerűen kiválasztunk 5 kártyát 20-szor, és kiszámítjuk az átlagértéket (a kártyákra írt számok átlagát) minden mintához. Számíthat-e arra, hogy lesz két olyan minta, amelyek átlagai jelentősen eltérnek egymástól? Ez nagyon hihető! Ha kiválaszt két mintát egy maximális és egy minimális átlaggal, akkor olyan átlagkülönbséget kaphat, amely nagyon eltér például az első két minta átlagkülönbségétől. Ezt a különbséget például kontrasztanalízis segítségével lehet feltárni. Anélkül, hogy részleteznénk, több ún a posteriori olyan kritériumok, amelyek pontosan az első forgatókönyvön alapulnak (20 mintából szélsőséges átlagokat veszünk), azaz ezek a kritériumok a legkülönbözőbb eszközök kiválasztásán alapulnak az összes eszköz összehasonlításához a tervezésben. Ezeket a kritériumokat annak biztosítására használják, hogy mesterséges hatást ne kapjanak pusztán véletlenül, például az eszközök közötti jelentős különbség kimutatására, amikor nincs ilyen. Modul Varianciaanalízis az ilyen kritériumok széles skáláját kínálja. Ha egy több csoportot érintő kísérletben váratlan eredmények születnek, akkor a posteriori a kapott eredmények statisztikai szignifikanciájának vizsgálatára szolgáló eljárások.

I., II., III. és IV. típusú négyzetösszeg

Többváltozós regresszió és varianciaanalízis

Szoros kapcsolat van a többváltozós regressziós módszer és a varianciaanalízis (varianciaanalízis) között. Mindkét módszernél lineáris modellt vizsgálunk. Röviden, szinte minden kísérleti terv megvizsgálható többváltozós regresszióval. Tekintsük a következő egyszerű 2 x 2 csoportközi tervezést.

D.V. A B AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

Az A és B oszlop az A és B faktor szintjeit jellemző kódokat, az AxB oszlop pedig két A és B oszlop szorzatát tartalmazza. Ezeket az adatokat többváltozós regresszióval elemezhetjük. Változó D.V. függő változóként definiálva, változók innen A előtt AxB mint független változók. A regressziós együtthatók szignifikancia vizsgálata egybe fog esni a faktorok főbb hatásainak szignifikancia szignifikancia elemzésében végzett számításokkal. AÉs Bés interakciós hatás AxB.

Kiegyensúlyozatlan és kiegyensúlyozott tervek

Az összes változó korrelációs mátrixának kiszámításakor, például a fent ábrázolt adatokra, észreveheti, hogy a tényezők fő hatásai AÉs Bés interakciós hatás AxB nem korrelált. Az effektusoknak ezt a tulajdonságát ortogonalitásnak is nevezik. Azt mondják a hatások AÉs B - ortogonális vagy független egymástól. Ha egy tervben az összes hatás ortogonális egymásra, mint a fenti példában, akkor a tervet kiegyensúlyozott.

A kiegyensúlyozott terveknek „jó tulajdonságuk” van. Az ilyen tervek elemzéséhez szükséges számítások nagyon egyszerűek. Minden számítás a hatások és a függő változók közötti korreláció kiszámítására vezethető vissza. Mivel a hatások ortogonálisak, részleges korrelációk (mint a teljes többdimenziós regressziók) nem számítanak ki. A való életben azonban a tervek nem mindig kiegyensúlyozottak.

Tekintsünk valós adatokat egyenlőtlen számú megfigyeléssel a cellákban.

A faktor B faktor
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Ha ezeket az adatokat a fentiek szerint kódoljuk, és minden változóra korrelációs mátrixot számolunk, azt találjuk, hogy a tervezési tényezők korrelálnak egymással. A terv tényezői már nem merőlegesek, és az ilyen terveket nevezik kiegyensúlyozatlan. Megjegyzendő, hogy a vizsgált példában a tényezők közötti korreláció teljes mértékben az adatmátrix oszlopaiban lévő 1 és -1 gyakoriságok különbségéből adódik. Más szóval, az egyenlőtlen cellatérfogatú (pontosabban aránytalan térfogatú) kísérleti tervek kiegyensúlyozatlanok lesznek, ami azt jelenti, hogy a fő hatások és kölcsönhatások összezavarodnak. Ebben az esetben a teljes többváltozós regressziót kell kiszámítani a hatások statisztikai szignifikanciájának kiszámításához. Itt több stratégia is létezik.

I., II., III. és IV. típusú négyzetösszeg

Négyzetösszeg típusaénÉsIII. Az egyes tényezők szignifikanciájának vizsgálatához egy többváltozós modellben az egyes tényezők részleges korrelációja kiszámítható, feltéve, hogy az összes többi tényezőt már figyelembe vettük a modellben. A tényezőket lépésről lépésre is beviheti a modellbe, rögzítve az összes, a modellbe már bevitt tényezőt, és figyelmen kívül hagyva az összes többi tényezőt. Általában ez a különbség aközött típus IIIÉs típusén négyzetösszeg (ezt a terminológiát a SAS-ban vezették be, lásd például: SAS, 1982; részletes tárgyalás megtalálható még: Searle, 1987, 461. o.; Woodward, Bonett és Brecht, 1990, 216. o.; vagy Milliken és Johnson, 1984, 138. o.).

Négyzetösszeg típusaII. A következő „köztes” modellalkotási stratégia a következőkből áll: az összes főhatás ellenőrzése, amikor egyetlen főhatás jelentőségét vizsgáljuk; az összes fő hatás és az összes páronkénti kölcsönhatás ellenőrzésében, amikor egy egyéni páronkénti kölcsönhatás jelentőségét vizsgáljuk; az összes páronkénti kölcsönhatás és három tényező összes kölcsönhatása összes fő hatásának ellenőrzésében; három tényező egyéni kölcsönhatásának vizsgálatakor stb. Az így kiszámított hatások négyzetösszegeit ún típusII négyzetek összege. Így, típusII négyzetösszeg vezérlők minden azonos sorrendű és alacsonyabb effektushoz, figyelmen kívül hagyva az összes magasabb rendű hatást.

Négyzetösszeg típusaIV. Végül egyes hiányzó cellákkal rendelkező speciális tervek (hiányos tervek) esetében lehetséges az ún típus IV négyzetek összege. Erről a módszerről a későbbiekben a hiányos (hiányzó cellákkal rendelkező) tervek kapcsán lesz szó.

Az I., II. és III. típusú négyzetösszeg hipotézis értelmezése

Négyzetek összege típusIII legkönnyebben értelmezhető. Emlékezzünk vissza, hogy a négyzetek összege típusIII vizsgálja meg a hatásokat az összes többi hatás ellenőrzése után. Például miután talált egy statisztikailag szignifikáns típusIII hatás faktorra A a modulban Varianciaanalízis, azt mondhatjuk, hogy a faktornak egyetlen szignifikáns hatása van A, az összes többi hatás (tényező) bevezetése után, és ennek megfelelően értelmezze ezt a hatást. Valószínűleg az összes ANOVA-alkalmazás 99%-ában ez az a típusú teszt, amely a kutatót érdekli. Az ilyen típusú négyzetösszegeket általában modulo-ban számítják ki Varianciaanalízis alapértelmezés szerint, függetlenül attól, hogy az opció ki van-e választva Regressziós megközelítés vagy sem (a modulban elfogadott standard megközelítések Varianciaanalízis alább tárgyaljuk).

Négyzetösszegekkel kapott jelentős hatások típus vagy típusII a négyzetösszegeket nem olyan könnyű értelmezni. Legjobban a lépésenkénti többváltozós regresszió keretében értelmezhetők. Ha a négyzetösszeg használatakor típusén a B faktor fő hatása szignifikáns volt (miután az A faktor szerepelt a modellben, de mielőtt az A és B kölcsönhatást hozzáadtuk volna), megállapíthatjuk, hogy a B faktornak szignifikáns fő hatása van, feltéve, hogy nincs kölcsönhatás Az A és B faktor között. (Ha a kritériumot használjuk típusIII, a B faktor is szignifikánsnak bizonyult, akkor azt a következtetést vonhatjuk le, hogy a B faktornak szignifikáns fő hatása van, miután az összes többi tényezőt és azok kölcsönhatásait beemeljük a modellbe).

A marginális jelentése hipotézis típusénÉs típusIIáltalában nincs egyszerű értelmezésük. Ezekben az esetekben azt mondják, hogy a hatások jelentőségét nem lehet csak marginális eszközökkel értelmezni. Inkább bemutatták p Az átlagok egy összetett hipotézishez kapcsolódnak, amely egyesíti az átlagokat és a mintanagyságot. Például, típusII Az A faktorra vonatkozó hipotézisek a korábban tárgyalt 2 x 2-es tervezés egyszerű példájában a következők lennének (lásd Woodward, Bonett és Brecht, 1990, 219. o.):

nij- megfigyelések száma a cellában

uij- átlagos érték a cellában

n. j- marginális átlag

Anélkül, hogy túlságosan belemennénk a részletekbe (további részletekért lásd Milliken és Johnson, 1984, 10. fejezet), világos, hogy ezek nem egyszerű hipotézisek, és a legtöbb esetben egyik sem érdekli különösebben a kutatót. Vannak azonban olyan esetek, amikor hipotézisek típusénérdekes lehet.

Alapértelmezett számítási megközelítés a modulban Varianciaanalízis

Alapértelmezett, ha az opció nincs bejelölve Regressziós megközelítés, modul Varianciaanalízis használ sejt átlag modell. Erre a modellre az a jellemző, hogy a különböző hatások négyzetösszegeit a cellaátlagok lineáris kombinációira számítjuk. Egy teljes faktoriális kísérletben ez olyan négyzetösszegeket eredményez, amelyek megegyeznek a korábban tárgyalt négyzetösszegekkel. típus III. Az opcióban azonban Tervezett összehasonlítások(az ablakban ANOVA eredmények), a felhasználó tesztelheti a hipotézist a súlyozott vagy súlyozatlan cellaértékek bármely lineáris kombinációjával szemben. Így a felhasználó nem csak hipotéziseket tesztelhet típusIII, de bármilyen típusú hipotézis (beleértve típusIV). Ez az általános megközelítés különösen hasznos a hiányzó cellákat tartalmazó tervek (úgynevezett hiányos tervek) vizsgálatakor.

Teljes faktoriális tervezéseknél ez a megközelítés akkor is hasznos, ha a súlyozott határátlagokat akarjuk elemezni. Tegyük fel például, hogy a korábban vizsgált egyszerű 2 x 2-es tervezésben súlyozottan (tényezőszintek szerint) kell összehasonlítanunk B) az A faktor határátlaga. Ez akkor hasznos, ha a megfigyelések cellák közötti eloszlását nem a kísérletvezető készítette, hanem véletlenszerűen szerkesztette meg, és ez a véletlenszerűség tükröződik a megfigyelések számának a B faktor szintjei közötti eloszlásában is. összesített.

Például van egy tényező - az özvegyek kora. A válaszadók lehetséges mintája két csoportra oszlik: 40 év alattiak és 40 év felettiek (B faktor). A második tényező (A faktor) a tervben az volt, hogy az özvegyek részesültek-e szociális támogatásban valamilyen ügynökségtől (néhány özvegyet véletlenszerűen választottak ki, mások kontrollként szolgáltak). Ebben az esetben az özvegyek életkor szerinti megoszlása ​​a mintában az özvegyek életkor szerinti tényleges megoszlását tükrözi a populációban. Özvegyek szociális támogató csoportjának hatékonyságának felmérése minden korosztály két korcsoport súlyozott átlagának felel meg (a csoportban végzett megfigyelések számának megfelelő súlyokkal).

Tervezett összehasonlítások

Vegye figyelembe, hogy a beírt kontrasztegyütthatók összege nem feltétlenül egyenlő 0-val (nulla). Ehelyett a program automatikusan elvégzi a módosításokat annak biztosítására, hogy a megfelelő hipotéziseket ne keverjék össze az általános átlaggal.

Ennek illusztrálására térjünk vissza a korábban tárgyalt egyszerű 2 x 2 tervhez. Emlékezzünk vissza, hogy ennek a kiegyensúlyozatlan tervezésnek a celláiban a megfigyelések száma -1, 2, 3 és 1. Tegyük fel, hogy össze akarjuk hasonlítani az A faktor súlyozott határátlagait (a B faktor szintjének gyakoriságával súlyozva). Kontraszt együtthatókat adhat meg:

Vegye figyelembe, hogy ezek az együtthatók nem adnak össze 0-t. A program úgy állítja be az együtthatókat, hogy azok összeadják 0-t, és a relatív értékeik megmaradnak, azaz:

1/3 2/3 -3/4 -1/4

Ezek a kontrasztok összehasonlítják az A faktor súlyozott átlagait.

Hipotézisek a főátlagról. Az a hipotézis, hogy a súlyozatlan főátlag 0, az együtthatók segítségével tárható fel:

Azt a hipotézist, hogy a súlyozott főátlag 0, a következő módszerrel teszteljük:

A program semmilyen esetben sem állítja be a kontrasztarányt.

Hiányzó cellákkal rendelkező tervek elemzése (hiányos tervek)

Az üres cellákat tartalmazó faktorterveket (a megfigyelések nélküli cellák kombinációit dolgozzák fel) hiányosnak nevezzük. Az ilyen tervekben néhány tényező általában nem merőleges, és egyes kölcsönhatások nem számíthatók ki. Általában nincs jobb módszer az ilyen tervek elemzésére.

Regressziós megközelítés

Egyes régebbi programokban, amelyek az ANOVA-tervek többváltozós regresszióval történő elemzésére támaszkodnak, a hiányos tervek tényezői alapértelmezés szerint a szokásos módon vannak megadva (mintha a terv teljes lenne). Ezután többváltozós regressziós elemzéseket végeznek ezeken az álkódolt tényezőkön. Sajnos ez a módszer olyan eredményeket hoz, amelyeket nagyon nehéz, ha nem lehetetlen értelmezni, mert nem világos, hogy az egyes hatások hogyan járulnak hozzá az eszközök lineáris kombinációjához. Tekintsük a következő egyszerű példát.

A faktor B faktor
B1 B2
A1 3 4, 5
A2 6, 6, 7 Nem fogadott

Ha végrehajtjuk az alak többváltozós regresszióját Függő változó = állandó + A faktor + B faktor, akkor az A és B faktorok jelentőségére vonatkozó hipotézis az átlagok lineáris kombinációi szempontjából így néz ki:

A faktor: A1,B1 sejt = A2,B1 sejt

B faktor: A1,B1 sejt = A1,B2 sejt

Ez az eset egyszerű. Bonyolultabb terveknél lehetetlen ténylegesen meghatározni, hogy pontosan mit is fognak vizsgálni.

A sejt jelentése, ANOVA megközelítés , IV típusú hipotézisek

A szakirodalomban javasolt és előnyösebbnek tűnő megközelítés az értelmes tanulmányozás (a kutatási kérdések szempontjából) eleve hipotézisek a terv celláiban megfigyelt eszközökről. Ennek a megközelítésnek a részletes tárgyalása megtalálható: Dodge (1985), Heiberger (1989), Milliken és Johnson (1984), Searle (1987), vagy Woodward, Bonett és Brecht (1990). Az átlagok lineáris kombinációjával kapcsolatos hipotézisekhez kapcsolódó négyzetösszegeket a nem teljes tervekben, amelyek a hatások egy részének becslését vizsgálják, négyzetösszegeknek is nevezik. IV.

Típushipotézisek automatikus generálásaIV. Ha a többváltozós tervekben összetett hiányzó sejtmintázatok vannak, kívánatos ortogonális (független) hipotézisek meghatározása, amelyek vizsgálata egyenértékű a főbb hatások vagy kölcsönhatások vizsgálatával. Algoritmikus (számítási) stratégiákat (pszeudo-inverz tervezési mátrixon alapuló) fejlesztettek ki, hogy megfelelő súlyokat állítsanak elő az ilyen összehasonlításokhoz. Sajnos a végső hipotéziseket nem határozták meg egyedi módon. Természetesen a hatások azonosításának sorrendjétől függenek, és ritkán teszik lehetővé az egyszerű értelmezést. Ezért ajánlatos alaposan tanulmányozni a hiányzó sejtek természetét, majd hipotéziseket megfogalmazni típusIV, amelyek a legértelmesebben felelnek meg a vizsgálat célkitűzéseinek. Ezután fedezze fel ezeket a hipotéziseket az opció segítségével Tervezett összehasonlítások az ablakban eredmények. Ebben az esetben a legegyszerűbb módja az összehasonlítások megadásának, ha megkövetelik az összes tényező kontrasztvektorának bevezetését együtt az ablakban Tervezett összehasonlítások. A párbeszédpanel felhívása után Tervezett összehasonlítások Az aktuális tervben szereplő összes csoport megjelenik, a hiányzók pedig meg lesznek jelölve.

Hiányzó sejtek és specifikus hatás tesztelése

Számos olyan kialakítás létezik, amelyekben a hiányzó cellák elhelyezkedése nem véletlenszerű, hanem gondosan megtervezett, lehetővé téve a fő hatások egyszerű elemzését anélkül, hogy más hatásokat befolyásolna. Például, ha egy tervben nem áll rendelkezésre a szükséges számú cella, gyakran terveket használnak Latin négyzetek hogy több tényező főbb hatását nagyszámú szinten megbecsüljük. Például egy 4 x 4 x 4 x 4 faktoros kialakításhoz 256 cellára van szükség. Ugyanakkor használhatja Görög-latin tér a fő hatások becsléséhez mindössze 16 cellával a tervben (fejezet Kísérleti tervezés, IV. kötet, az ilyen tervek részletes leírását tartalmazza). Azokat a hiányos terveket, amelyekben a fő hatások (és egyes kölcsönhatások) egyszerű lineáris átlagkombinációk segítségével megbecsülhetők, ún. kiegyensúlyozott hiányos tervek.

A kiegyensúlyozott tervekben a fő hatások és kölcsönhatások kontrasztjának (súlyozásának) generálására szolgáló standard (alapértelmezett) módszer egy varianciaanalízist készít, amelyben a megfelelő hatások négyzetösszegei nincsenek összetévesztve egymással. választási lehetőség Specifikus hatások ablak eredmények hiányzó kontrasztokat generál úgy, hogy nullát ír a hiányzó tervcellákba. Közvetlenül az opció kérése után Specifikus hatások az egyes hipotéziseket vizsgáló felhasználó számára megjelenik egy eredménytáblázat a tényleges súlyokkal. Vegye figyelembe, hogy egy kiegyensúlyozott tervezésben a megfelelő hatások négyzetösszegeit csak akkor számítja ki a rendszer, ha ezek a hatások merőlegesek (függetlenek) az összes többi fő hatásra és kölcsönhatásra. Ellenkező esetben az opciót kell használnia Tervezett összehasonlítások az eszközök közötti értelmes összehasonlítások feltárására.

Hiányzó cellák és összevont hatások/hibakifejezések

Ha opció Regressziós megközelítés a modul indítópaneljén Varianciaanalízis nincs kiválasztva, a cellaátlagmodell kerül felhasználásra az effektusok négyzetösszegének kiszámításakor (az alapértelmezett beállítás). Ha a tervezés nem kiegyensúlyozott, akkor a nem ortogonális hatások kombinálásakor (lásd a fenti opciót Kihagyott sejtek és specifikus hatás) kaphatunk nem merőleges (vagy átfedő) komponensekből álló négyzetösszeget. A kapott eredmények általában nem értelmezhetők. Ezért nagyon körültekintően kell eljárni az összetett, hiányos kísérleti tervek kiválasztásánál és megvalósításánál.

Számos könyv található, amelyek részletesen tárgyalják a különböző típusú terveket. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken és Johnson, 1984; Searle, 1987; Woodward és Bonett, 1990), de az ilyen típusú információk túlmutatnak e tankönyv keretein. Ebben a részben azonban a különböző típusú tervek elemzését bemutatjuk.

Feltételezések és a feltételezések megsértésének hatásai

Eltérés a normális eloszlások feltételezésétől

Tegyük fel, hogy a függő változót numerikus skálán mérjük. Tegyük fel azt is, hogy a függő változó normális eloszlású az egyes csoportokon belül. Varianciaanalízis grafikonok és statisztikák széles skáláját tartalmazza, amelyek alátámasztják ezt a feltételezést.

A zavarok hatásai. Egyáltalán F a teszt nagyon robusztus a normalitástól való eltérésekre (a részletes eredményeket lásd Lindman, 1974). Ha a kurtosis nagyobb, mint 0, akkor a statisztika értéke F nagyon kicsivé válhat. A nullhipotézist elfogadjuk, bár lehet, hogy nem igaz. A helyzet fordított, ha a körtózis kisebb, mint 0. Az eloszlás ferdesége általában kevés hatással van a F statisztika. Ha egy cellában elég nagy a megfigyelések száma, akkor a normalitástól való eltérés nem különösebben jelentős központi határérték tétel, amely szerint az átlagérték eloszlása ​​a kezdeti eloszlástól függetlenül a normálishoz közeli. A fenntarthatóság részletes tárgyalása F statisztika megtalálható Box és Anderson (1955), vagy Lindman (1974).

A variancia egységessége

Feltételezések. Feltételezzük, hogy a különböző tervezési csoportok eltérései azonosak. Ezt a feltevést nevezzük feltevésnek a variancia homogenitása. Emlékezzünk vissza, hogy ennek a résznek az elején a négyzetes hibák összegének kiszámításakor minden csoporton belül elvégeztük az összegzést. Ha két csoport eltérései különböznek egymástól, akkor ezek összeadása nem túl természetes, és nem ad becslést a teljes csoporton belüli variancia mértékére (hiszen ebben az esetben nincs teljes variancia). Modul Varianciaanalízis -ANOVA/MANOVA statisztikai kritériumok széles készletét tartalmazza a variancia homogenitására vonatkozó feltételezésektől való eltérések kimutatására.

A zavarok hatásai. Lindman (1974, 33. o.) azt mutatja be F a kritérium meglehetősen stabil a varianciahomogenitásra vonatkozó feltevések megsértése tekintetében ( heterogenitás variancia, lásd még Box, 1954a, 1954b; Hsu, 1938).

Speciális eset: átlagok és szórások korrelációja. Van amikor F statisztika lehet félrevezetni. Ez akkor fordul elő, ha a tervezési cellák átlagai korrelálnak a varanciával. Modul Varianciaanalízis lehetővé teszi a variancia vagy a szórás szóródásának ábrázolását az átlag függvényében az ilyen korreláció kimutatásához. Az ok, amiért ez az összefüggés veszélyes, a következő. Képzeljük el, hogy a tervben 8 cella van, ebből 7-nek közel azonos az átlaga, és egy cellában az átlag jóval magasabb, mint a többinél. Akkor F a teszt statisztikailag szignifikáns hatást mutathat ki. De tegyük fel, hogy egy nagy átlagértékű cellában a szórás lényegesen nagyobb, mint a többinél, pl. a cellák átlagértéke és szórása függ (minél magasabb az átlag, annál nagyobb a variancia). Ebben az esetben a nagy átlag megbízhatatlan, mert ezt az adatok nagy eltérései okozhatják. azonban F statisztika alapján egyesült a cellákon belüli variancia fogja megragadni a nagy átlagot, bár az egyes cellákon belüli variancia alapján végzett tesztek nem tekintik az összes átlagkülönbséget szignifikánsnak.

Az ilyen típusú adatok (nagy átlag és nagy szórás) gyakran előfordulnak kiugró megfigyelések esetén. Egy-két kiugró megfigyelés nagymértékben eltolja az átlagot és nagymértékben növeli a szórást.

Variancia és kovariancia homogenitása

Feltételezések. A többváltozós, többváltozós függő mértékekkel rendelkező többváltozós tervezések is alkalmazzák a varianciahomogenitás korábban ismertetett feltételezését. Mivel azonban vannak többváltozós függő változók, az is szükséges, hogy ezek keresztkorrelációi (kovarianciai) egységesek legyenek a terv összes cellájában. Modul Varianciaanalízis különböző módokat kínál ezeknek a feltételezéseknek a tesztelésére.

A zavarok hatásai. Többdimenziós analóg F- kritérium - Wilks λ-teszt. Nem sokat tudunk a Wilks λ teszt robusztusságáról a fenti feltevések megsértését illetően. Mivel azonban a modul értelmezése azt eredményezi Varianciaanalízisáltalában az egyváltozós hatások szignifikanciáján alapul (az általános kritérium jelentőségének megállapítása után), a robusztusság tárgyalása főként az egyváltozós varianciaanalízisre vonatkozik. Ezért gondosan meg kell vizsgálni az egyváltozós hatások jelentőségét.

Speciális eset: kovariancia analízis. A variancia/kovariancia homogenitás különösen súlyos megsértése fordulhat elő, ha kovariánsokat is tartalmaznak a tervezésben. Különösen, ha a kovariánsok és a függő mértékek közötti korreláció a tervezésben különböző cellákban változik, az eredmények félreértelmezése következhet be. Ne feledje, hogy a kovarianciaanalízis lényegében regressziós elemzést végez minden egyes sejten belül, hogy elkülönítse a variancia azon részét, amelyet a kovariáns magyaráz. A variancia/kovariancia homogenitás feltételezése azt feltételezi, hogy ezt a regressziós elemzést a következő megkötéssel végezzük: minden regressziós egyenlet (meredekség) minden sejtre azonos. Ha ezt nem feltételezzük, akkor nagy hibák léphetnek fel. Modul Varianciaanalízis számos speciális kritériummal rendelkezik ennek a feltételezésnek a tesztelésére. Célszerű ezeket a kritériumokat használni annak biztosítására, hogy a különböző cellák regressziós egyenletei megközelítőleg azonosak legyenek.

Szférikusság és komplex szimmetria: okai a többváltozós megközelítés alkalmazásának az ismételt méréseknél a varianciaanalízisben

A kettőnél több szinttel rendelkező ismételt mérési tényezőket tartalmazó tervekben az egyváltozós ANOVA használata további feltételezéseket igényel: a vegyületszimmetria-feltevés és a szférikusság feltételezése. Ezek a feltételezések ritkán teljesülnek (lásd alább). Ezért az elmúlt években a többváltozós varianciaanalízis népszerűvé vált az ilyen tervekben (a modulban mindkét megközelítés kombinálva van Varianciaanalízis).

Komplex szimmetria feltételezése A vegyületszimmetria feltételezése az, hogy a különböző ismétlődő mérőszámok varianciái (csoporton belül megosztva) és kovarianciái (csoportokon belül megosztva) homogének (ugyanazok). Ez elegendő feltétel ahhoz, hogy az egyváltozós F-teszt érvényes legyen az ismételt mérésekhez (azaz a jelentett F-értékek átlagosan összhangban vannak az F-eloszlással). Ebben az esetben azonban ez a feltétel nem szükséges.

A szférikusság feltételezése. A szférikusság feltételezése szükséges és elégséges feltétele az F-próba érvényességének. Abból áll, hogy a csoportokon belül minden megfigyelés független és egyenlő eloszlású. Ezeknek a feltételezéseknek a természetét és megsértésük hatását általában nem írják le jól az ANOVA-ról szóló könyvek – ezekről a következő bekezdésekben lesz szó. Azt is bemutatjuk, hogy az egyváltozós megközelítés eredményei eltérhetnek a többváltozós megközelítés eredményeitől, és elmagyarázzuk, hogy ez mit jelent.

A hipotézisek függetlenségének igénye. Az adatok elemzésének általános módja az ANOVA-ban az modell illesztés. Ha az adatokhoz illeszkedő modellhez képest vannak ilyenek eleve hipotéziseket, akkor a varianciát felosztjuk, hogy teszteljük ezeket a hipotéziseket (a fő hatások, kölcsönhatások kritériumai). Számítási szempontból ez a megközelítés kontrasztok halmazát generálja (a terv eszközök összehasonlításának halmaza). Ha azonban a kontrasztok nem függetlenek egymástól, akkor az eltérések felosztása értelmetlenné válik. Például ha két kontraszt AÉs B azonosak, és az eltérés megfelelő részét kivonjuk, majd ugyanazt a részt kétszer kinyerjük. Például hülye és értelmetlen két hipotézist azonosítani: „az 1. cellában az átlag magasabb, mint a 2. cellában” és „az 1. cellában az átlag magasabb, mint a 2. cellában”. Tehát a hipotéziseknek függetlennek vagy ortogonálisnak kell lenniük.

Független hipotézisek ismételt mérésekben. A modulban megvalósított általános algoritmus Varianciaanalízis, megkísérli független (ortogonális) kontraszt létrehozását az egyes hatásokhoz. Az ismételt mérési faktorra vonatkozóan ezek az ellentétek sok hipotézist adnak különbségek a vizsgált tényező szintjei között. Ha azonban ezek a különbségek a csoportokon belül korrelálnak, akkor a kapott kontrasztok már nem függetlenek. Például abban az oktatásban, ahol egy félévben háromszor mérik a hallgatókat, előfordulhat, hogy az 1. és 2. mérés közötti változás negatívan korrelál a tantárgyak 2. és 3. mérése közötti változással. Azok, akik az 1. és 2. dimenzió között elsajátították az anyag nagy részét, kisebb részt sajátítanak el a 2. és 3. dimenzió között eltelt idő alatt. Valójában a legtöbb esetben, amikor az ANOVA-t ismételt mérésekhez alkalmazzák, feltételezhető, hogy a szintek közötti változások korrelálnak az alanyok között. Azonban amikor ez megtörténik, a komplex szimmetria-feltevés és a szférikusság-feltevés nem állja meg a helyét, és független kontrasztok nem számíthatók.

A jogsértések hatásai és kijavításuk módjai. Ha az összetett szimmetria- vagy szférikussági feltételezések nem teljesülnek, az ANOVA hibás eredményeket adhat. Mielőtt a többváltozós eljárásokat kellőképpen kidolgozták volna, több feltételezést javasoltak e feltételezések megsértésének kompenzálására. (Lásd például: Greenhouse & Geisser, 1959 és Huynh & Feldt, 1970). Ezeket a módszereket még mindig széles körben használják (ezért mutatjuk be őket a modulban Varianciaanalízis).

Többváltozós varianciaanalízis megközelítés ismételt mérésekre.Általánosságban elmondható, hogy a komplex szimmetria és szférikusság problémái arra vonatkoznak, hogy az ismételt mérési tényezők hatásainak vizsgálatába bevont kontraszthalmazok (2-nél több szinttel) nem függetlenek egymástól. Azonban nem kell függetlennek lenniük, ha használják őket többdimenziós egy teszt két vagy több ismételt mérési tényező kontraszt statisztikai szignifikanciájának egyidejű tesztelésére. Ez az oka annak, hogy a variancia-technikák többváltozós elemzését egyre gyakrabban alkalmazzák a 2-nél több szinttel rendelkező egyváltozós ismételt mérési tényezők szignifikanciájának tesztelésére. Ez a megközelítés széles körben elfogadott, mivel általában nem igényel komplex szimmetriát vagy gömbszerűséget.

Olyan esetek, amikor a többváltozós varianciaanalízis megközelítés nem használható. Vannak olyan példák (tervek), ahol a többváltozós varianciaanalízis megközelítés nem alkalmazható. Ezek tipikusan olyan esetek, amikor a tervezésben kevés alany van, az ismételt mérési faktorban pedig sok szint van. Ekkor előfordulhat, hogy túl kevés a megfigyelés a többváltozós elemzés elvégzéséhez. Például, ha 12 tantárgy van, p = 4 ismételt mérési tényező, és minden tényezőnek van k = 3 szinteket. Ekkor 4 tényező kölcsönhatása „fogy” (k-1)P = 2 4 = 16 szabadsági fokokat. Azonban csak 12 alany van, így többváltozós teszt ebben a példában nem végezhető el. Modul Varianciaanalízisönállóan észleli ezeket a megfigyeléseket, és csak egydimenziós kritériumokat számít ki.

Az egy- és többváltozós eredmények különbségei. Ha egy vizsgálat nagyszámú ismételt mérést foglal magában, előfordulhatnak olyan esetek, amikor az egyváltozós ismételt mérési ANOVA-módszer olyan eredményeket ad, amelyek nagyon eltérnek a többváltozós megközelítéssel kapott eredményektől. Ez azt jelenti, hogy a megfelelő ismételt mérések szintjei közötti különbségek az egyes alanyok között korrelálnak. Néha ez a tény valamilyen független érdek.

Varianciaanalízis és szerkezeti egyenletmodellezés többváltozós elemzése

Az elmúlt években a strukturális egyenletmodellezés népszerűvé vált a többváltozós varianciaanalízis alternatívájaként (lásd például Bagozzi és Yi, 1989; Bagozzi, Yi és Singh, 1991; Cole, Maxwell, Arvey és Salas, 1993). . Ez a megközelítés nem csak a különböző csoportok átlagaira vonatkozó hipotézisek tesztelését teszi lehetővé, hanem a függő változók korrelációs mátrixairól is. Például lazíthatunk a varianciák és kovariancia homogenitására vonatkozó feltételezéseken, és kifejezetten beépíthetjük a hibavarianciákat és kovarianciákat a modellbe minden csoport esetében. Modul STATISZTIKAStrukturális egyenletmodellezés (SEPATH) (lásd III. kötet) lehetővé teszi az ilyen elemzést.

A statisztika ebben a jegyzetben való felhasználását egy átfogó példa szemlélteti. Tegyük fel, hogy Ön a Perfect Parachute gyártásvezetője. Az ejtőernyők szintetikus szálakból készülnek, amelyeket négy különböző beszállító szállít. Az ejtőernyő egyik fő jellemzője az erőssége. Biztosítania kell, hogy az összes szállított szál ugyanolyan erősségű legyen. A kérdés megválaszolásához kísérleti tervet kell készíteni a különböző beszállítóktól származó szintetikus szálakból szőtt ejtőernyők szilárdságának mérésére. Az ebből a kísérletből nyert információk határozzák meg, hogy melyik szállító biztosítja a legtartósabb ejtőernyőket.

Sok alkalmazás olyan kísérleteket foglal magában, amelyek egyetlen tényező több csoportját vagy szintjét veszik figyelembe. Egyes tényezők, mint például a kerámia égetési hőmérséklete, több numerikus szinttel is rendelkezhetnek (például 300°, 350°, 400° és 450°). Más tényezők, mint például a cikkek elhelyezkedése egy szupermarketben, kategorikus szinttel rendelkezhetnek (pl. első beszállító, második beszállító, harmadik beszállító, negyedik beszállító). Azokat az egytényezős kísérleteket, amelyekben a kísérleti egységeket véletlenszerűen csoportokhoz vagy faktorszintekhez rendelik, teljesen randomizáltnak nevezzük.

HasználatF-kritériumok több matematikai elvárás közötti különbségek felmérésére

Ha a faktor numerikus mérése a csoportokban folyamatos és néhány további feltétel teljesül, akkor varianciaanalízist (ANOVA) alkalmazunk több csoport matematikai elvárásainak összehasonlítására. An elemzés o f Va riance). A varianciaanalízist teljesen randomizált tervek segítségével egyirányú ANOVA eljárásnak nevezzük. Bizonyos szempontból a varianciaanalízis kifejezés téves elnevezés, mivel a csoportok várható értékei közötti különbségeket hasonlítja össze, nem pedig a varianciák között. A matematikai elvárások összehasonlítása azonban éppen az adatok változásának elemzése alapján történik. Az ANOVA eljárásban a mérési eredmények teljes változását csoportok közötti és csoporton belüliekre osztják (1. ábra). A csoporton belüli eltérést a kísérleti hiba, a csoportok közötti eltérést pedig a kísérleti körülmények hatásai magyarázzák. Szimbólum Val vel a csoportok számát jelöli.

Rizs. 1. Partícionálási variáció egy teljesen véletlenszerű kísérletben

Töltse le a jegyzetet vagy formátumban, a példákat formátumban

Tegyünk úgy, mintha Val vel a csoportokat független populációkból vonjuk ki, amelyek normális eloszlásúak és egyenlő varianciával rendelkeznek. A nullhipotézis az, hogy a populációk matematikai elvárásai megegyeznek: H 0: μ 1 = μ 2 = ... = μ s. Az alternatív hipotézis azt állítja, hogy nem minden matematikai elvárás egyforma: H 1: nem minden μ j egyforma j= 1, 2, …, s).

ábrán. A 2. ábra a valódi nullhipotézist mutatja be az öt összehasonlított csoport matematikai elvárásairól, feltéve, hogy a populációk normális eloszlásúak és azonos variancia. A faktor különböző szintjeihez kapcsolódó öt populáció azonos. Következésképpen egymásra helyezkednek, ugyanazzal a matematikai elvárással, változattal és alakkal.

Rizs. 2. Öt általános sokaságnak ugyanaz a matematikai elvárása: μ 1 = μ 2 = μ 3 = μ 4 = μ 5

Másrészt tegyük fel, hogy valójában a nullhipotézis hamis, a negyedik szint a legmagasabb várható értékkel, az első szint valamivel alacsonyabb, a többi szint pedig azonos, sőt még alacsonyabb várható értékekkel rendelkezik ( 3. ábra). Vegyük észre, hogy a várt értékek kivételével mind az öt populáció azonos (azaz azonos változatossággal és alakkal).

Rizs. 3. Megfigyelhető a kísérleti körülmények hatása: μ 4 > μ 1 > μ 2 = μ 3 = μ 5

A több általános sokaság matematikai elvárásainak egyenlőségére vonatkozó hipotézis tesztelésekor a teljes variációt két részre bontjuk: a csoportok közötti eltérésekre, illetve a csoporton belüli, az azonos csoportba tartozó elemek közötti különbségekre. A teljes eltérést a teljes négyzetösszeg fejezi ki (SST – sum of squares total). Mivel a nullhipotézis az, hogy a matematikai elvárások minden Val vel A csoportok egyenlőek egymással, a teljes variáció egyenlő az egyes megfigyelések és az összes mintára számított összátlag (átlagok átlaga) közötti különbségek négyzetes összegével. Teljes variáció:

Ahol - Általános átlag, X ij - én-e megfigyelés be j- csoport vagy szint, n j- a megfigyelések száma j csoport, n- a megfigyelések teljes száma az összes csoportban (pl. n = n 1 + n 2 + … + n c), Val vel- a vizsgált csoportok vagy szintek száma.

Csoportok közötti variáció, amelyet általában a csoportok közötti négyzetösszegnek neveznek (SSA – a csoportok közötti négyzetösszeg), egyenlő az egyes csoportok mintaátlaga közötti különbségek négyzetösszegével. jés általános átlag , megszorozva a megfelelő csoport térfogatával n j:

Ahol Val vel- a tanulmányozott csoportok vagy szintek száma, n j- a megfigyelések száma j csoport, j- átlagos érték j csoport, - általános átlag.

Csoporton belüli variáció, amelyet általában csoporton belüli négyzetösszegnek neveznek (SSW - csoportokon belüli négyzetösszeg), egyenlő az egyes csoportok elemei közötti különbségek négyzetösszegével és a csoport mintaátlagával. j:

Ahol xij - én th elem j csoport, j- átlagos érték j th csoport.

Mivel összehasonlítják Val vel faktorszintek, a csoportközi négyzetösszeg rendelkezik s – 1 szabadsági fokokat. Mindegyikének Val vel szintekkel rendelkezik n j – 1 szabadsági fok, tehát a csoporton belüli négyzetösszeg is rendelkezik n- Val vel szabadsági fokok, és

Ezenkívül a négyzetek teljes összege rendelkezik n – 1 szabadsági fokok, mivel minden megfigyelés xijÖsszehasonlítjuk az összesre számított összesített átlaggal n megfigyelések. Ha ezen összegek mindegyikét elosztjuk a megfelelő számú szabadságfokkal, háromféle diszperzió adódik: csoportközi(átlagos négyzet – MSA), csoporton belüli(átlag négyzet belül - MSW) és teljes(átlagos négyzetösszeg – MST):

Annak ellenére, hogy a varianciaanalízis fő célja a matematikai elvárások összehasonlítása Val vel csoportok a kísérleti körülmények hatásának azonosítása érdekében, elnevezése annak köszönhető, hogy a fő eszköz a különböző típusú varianciaanalízis. Ha a nullhipotézis igaz, és a matematikai elvárások között Val vel csoportok között nincs szignifikáns különbség, mindhárom variancia - MSA, MSW és MST - varianciabecslés σ 2 az elemzett adatokban rejlő. Így a nullhipotézis tesztelésére H 0: μ 1 = μ 2 = ... = μ sés alternatív hipotézis H 1: nem minden μ j egyforma j = 1, 2, …, Val vel), statisztikát kell kiszámítani F-kritérium, amely két variancia, az MSA és az MSW aránya. Teszt F-statisztika az egyirányú varianciaanalízisben

Statisztika F- kritériumoknak megfelelően F-elosztás s – 1 szabadságfokokat a számlálóban M.S.A.És n – s szabadsági fokok a nevezőben M.S.W.. Adott α szignifikanciaszint esetén a nullhipotézist elvetjük, ha a számított F FU, velejárója F-elosztás s – 1 n – s szabadsági fokok a nevezőben. Így, amint az ábra mutatja. A 4. ábrán a döntési szabály a következőképpen van megfogalmazva: nullhipotézis H 0 elutasítva, ha F>FU; különben nem utasítják el.

Rizs. 4. A varianciaanalízis kritikus területe hipotézis tesztelésekor H 0

Ha a nullhipotézis H 0 igaz, kiszámított F-statisztika közel 1, mivel számlálója és nevezője azonos mennyiség becslése - az elemzett adatokban rejlő σ 2 diszperzió. Ha a nullhipotézis H 0 hamis (és szignifikáns különbség van a különböző csoportok matematikai elvárásai között), számított F-statisztika egynél jóval nagyobb lesz, mert számlálója, az MSA az adatok természetes változékonysága mellett a kísérleti feltételek hatását vagy a csoportok közötti különbséget is becsüli, míg az MSW nevező csak az adatok természetes változékonyságát becsüli. . Így az ANOVA eljárás az F-kritérium, amelyben egy adott α szignifikancia szinten a nullhipotézist elvetjük, ha a számított F-a statisztika nagyobb, mint a felső kritikus érték FU, velejárója F-elosztás s – 1 szabadságfokokat a számlálóban és n – s a nevező szabadságfokát, amint az ábra mutatja. 4.

Az egyirányú varianciaanalízis szemléltetésére térjünk vissza a jegyzet elején felvázolt forgatókönyvhöz. A kísérlet célja annak megállapítása, hogy a különböző beszállítóktól származó szintetikus szálakból szőtt ejtőernyők azonos szilárdságúak-e. Minden csoportnak öt ejtőernyője van. A csoportok beszállítók szerint vannak felosztva - 1. beszállító, 2. beszállító, 3. beszállító és 4. beszállító. Az ejtőernyők szilárdságát egy speciális eszközzel mérik, amely mindkét oldalon teszteli a szövet szakadását. Az ejtőernyő töréséhez szükséges erőt egy speciális skálán mérik. Minél nagyobb a törőerő, annál erősebb az ejtőernyő. Az Excel lehetővé teszi az elemzést F- statisztika egyetlen kattintással. Menjen végig a menün AdatAdatelemzés gombot, és válassza ki a sort Egyirányú ANOVA, töltse ki a megnyíló ablakot (5. ábra). A kísérleti eredményeket (szakítószilárdság), néhány leíró statisztikát és az egytényezős varianciaanalízis eredményeit az 1. ábra mutatja be. 6.

Rizs. 5. Ablak Egyirányú varianciaelemzési csomag Excel

Rizs. 6. Különböző beszállítóktól származó szintetikus szálakból szőtt ejtőernyők szilárdsági mutatói, leíró statisztikák és egyirányú varianciaanalízis eredményei

A 6. ábra elemzése azt mutatja, hogy van némi különbség a mintaátlagok között. Az első szállítótól kapott szálak átlagos szilárdsága 19,52, a másodiktól 24,26, a harmadiktól 22,84 és a negyediktől 21,16. Statisztikailag szignifikáns ez a különbség? A szakítóerő eloszlását a szórási diagram (7. ábra) szemlélteti. Világosan mutatja a különbségeket mind a csoportok között, mind a csoportokon belül. Ha az egyes csoportok nagyobb méretűek lennének, elemzésükhöz szár-levél diagram, dobozdiagram vagy harangdiagram használható.

Rizs. 7. Négy szállítótól beszerzett szintetikus szálból szőtt ejtőernyők szilárdsági diszperziójának diagramja.

A nullhipotézis azt állítja, hogy nincs szignifikáns különbség az átlagos erősségi pontszámok között: H 0: μ 1 = μ 2 = μ 3 = μ 4. Egy alternatív hipotézis az, hogy van legalább egy szállító, akinek az átlagos szálszilárdsága eltér a többitől: H 1: nem minden μj egyforma ( j = 1, 2, …, Val vel).

Teljes átlag (lásd: 6. ábra) = ÁTLAG(D12:D15) = 21,945; meghatározásához átlagolhatja mind a 20 eredeti számot: = ÁTLAG(A3:D7). A varianciaértékek kiszámításra kerülnek Elemző csomagés tükröződnek a lemezen Varianciaanalízis(lásd: 6. ábra): SSA = 63,286, SSW = 97,504, SST = 160,790 (lásd az oszlopot SS táblázatok Varianciaanalízis 6. ábra). Az átlagokat úgy számítjuk ki, hogy ezeket a négyzetösszegeket elosztjuk a megfelelő számú szabadságfokkal. Mert a Val vel= 4, a n= 20, a következő szabadsági fokokat kapjuk; SSA esetében: s – 1= 3; SSW esetén: n–c= 16; SST esetén: n – 1= 19 (lásd oszlop df). Így: MSA = SSA / ( s – 1)= 21,095; MSW = SSW / ( n–c) = 6,094; MST = SST / ( n – 1) = 8,463 (lásd az oszlopot KISASSZONY). F-statisztika = MSA / MSW = 3,462 (lásd az oszlopot F).

Felső kritikus érték FU, jellemző F-eloszlás, az =F.OBR(0,95;3;16) = 3,239 képlettel meghatározva. Az =F.OBR() függvény paraméterei: α = 0,05, a számlálónak három, a nevezőnek 16 szabadságfoka van. Így a számított F-3,462-vel egyenlő statisztika meghaladja a felső kritikus értéket FU= 3,239, a nullhipotézist elvetjük (8. ábra).

Rizs. 8. A varianciaanalízis kritikus tartománya 0,05 szignifikanciaszinten, ha a számlálónak három szabadságfoka van, a nevező pedig -16

R-érték, azaz annak a valószínűsége, hogy ha a nullhipotézis igaz F-statisztika legalább 3,46, ami 0,041 vagy 4,1% (lásd az oszlopot p-érték táblázatok Varianciaanalízis 6. ábra). Mivel ez az érték nem haladja meg az α = 5 szignifikancia szintet, a nullhipotézist elvetjük. Ráadásul, R-érték azt jelzi, hogy az általános populációk matematikai elvárásai között ekkora vagy nagyobb eltérés kimutatásának valószínűsége 4,1%.

Így. A négy minta átlaga között különbség van. A nullhipotézis az volt, hogy a négy populáció összes matematikai elvárása egyenlő. Ilyen körülmények között az összes ejtőernyő erejének teljes variabilitásának (azaz a teljes SST-variációnak) mértékét a rendszer az egyes megfigyelések közötti különbségek négyzetének összegzésével számítja ki. X ijés általános átlag . A teljes variációt ezután két komponensre bontottuk (lásd 1. ábra). Az első komponens az SSA csoportok közötti, a második az SSW csoporton belüli variációja volt.

Mi magyarázza az adatok változékonyságát? Más szóval, miért nem minden megfigyelés egyforma? Ennek egyik oka, hogy a különböző cégek különböző erősségű szálakat szállítanak. Részben ez magyarázza, hogy a csoportok eltérő matematikai elvárásokat támasztanak: minél erősebb a kísérleti feltételek hatása, annál nagyobb a különbség a csoportok matematikai elvárásai között. Az adatok változékonyságának másik oka bármely folyamat természetes változékonysága, jelen esetben az ejtőernyők előállítása. Még ha az összes szálat ugyanattól a beszállítótól vásárolnák is, szilárdságuk nem lenne azonos, minden más tényező változatlansága mellett. Mivel ez a hatás minden csoporton belül jelentkezik, csoporton belüli variációnak nevezzük.

A mintaátlagok közötti különbségeket csoportok közötti SSA-nak nevezzük. A csoporton belüli eltérések egy része, mint már jeleztük, az adatok különböző csoportokhoz való tartozásával magyarázható. Azonban még akkor is, ha a csoportok teljesen azonosak lennének (vagyis a nullhipotézis igaz), a csoportok közötti eltérés továbbra is fennállna. Ennek oka az ejtőernyős gyártási folyamat természetes változékonysága. Mivel a minták különbözőek, a mintaátlagaik különböznek egymástól. Ezért, ha a nullhipotézis igaz, mind a csoportok közötti, mind a csoporton belüli variabilitás a populáció változékonyságának becslését jelenti. Ha a nullhipotézis hamis, a csoportok közötti hipotézis nagyobb lesz. Ez a tény az alapja F-kritériumok több csoport matematikai elvárásai közötti különbségek összehasonlítására.

Az egyirányú ANOVA elvégzése és a cégek közötti szignifikáns különbség megállapítása után továbbra sem ismert, hogy melyik beszállító különbözik jelentősen a többitől. Csak azt tudjuk, hogy az általános populációk matematikai elvárásai nem egyenlőek. Más szóval, a matematikai elvárások közül legalább egy jelentősen eltér a többitől. Annak meghatározásához, hogy melyik szállító különbözik a többitől, használhatja Tukey eljárás, a beszállítók közötti páros összehasonlítással. Ezt az eljárást John Tukey fejlesztette ki. Ezt követően ő és K. Kramer egymástól függetlenül módosították ezt az eljárást olyan helyzetekre, amikor a mintaméretek eltérnek egymástól.

Többszörös összehasonlítás: Tukey-Kramer eljárás

A mi forgatókönyvünkben egyirányú varianciaanalízist alkalmaztunk az ejtőernyők erejének összehasonlítására. Miután a négy csoport matematikai elvárásai között szignifikáns különbségeket találtunk, meg kell határozni, hogy mely csoportok térnek el egymástól. Bár a probléma megoldására többféle mód is létezik, csak a Tukey-Kramer többszörös összehasonlítási eljárást írjuk le. Ez a módszer egy példa a post hoc összehasonlító eljárásokra, mivel a tesztelt hipotézist az adatok elemzése után fogalmazzák meg. A Tukey-Kramer eljárás lehetővé teszi az összes csoportpár egyidejű összehasonlítását. Az első szakaszban kiszámítják a különbségeket xj -Xj, Ahol j ≠j, matematikai elvárások között s(ek – 1)/2 csoportok. Kritikus hatókör A Tukey-Kramer eljárást a következő képlettel számítjuk ki:

Ahol Q U- a studentizált tartományeloszlás felső kritikus értéke, amely rendelkezik Val vel szabadságfokokat a számlálóban és n - Val vel szabadsági fokok a nevezőben.

Ha a mintaméretek nem azonosak, a kritikus tartományt minden matematikai elváráspárra külön számítjuk ki. Az utolsó szakaszban mindegyik s(ek – 1)/2 matematikai elváráspárokat hasonlítjuk össze a megfelelő kritikus tartománnyal. Egy pár elemeit szignifikánsan eltérőnek tekintjük, ha a különbségi modulus | Xj -Xj| közöttük meghaladja a kritikus tartományt.

Alkalmazzuk a Tukey-Kramer eljárást az ejtőernyők szilárdságának problémájára. Mivel az ejtőernyős cégnek négy beszállítója van, 4(4 – 1)/2 = 6 beszállítópárt kell ellenőrizni (9. ábra).

Rizs. 9. A mintaátlagok páronkénti összehasonlítása

Mivel minden csoport azonos hangerővel rendelkezik (azaz az összes n j = n j), elegendő csak egy kritikus tartományt kiszámítani. Ehhez a táblázat szerint ANOVA(6. ábra) meghatározzuk az MSW = 6,094 értéket. Aztán megtaláljuk az értéket Q Uα = 0,05-nél, Val vel= 4 (a szabadságfok száma a számlálóban) és n- Val vel= 20 – 4 = 16 (a szabadságfok száma a nevezőben). Sajnos az Excelben nem találtam a megfelelő függvényt, ezért a táblázatot használtam (10. ábra).

Rizs. 10. A tanulói tartomány kritikus értéke Q U

Kapunk:

Mivel csak 4,74 > 4,47 (lásd a 9. ábra alsó táblázatát), statisztikailag szignifikáns különbség van az első és a második szállító között. Az összes többi párnak vannak olyan mintaértékei, amelyek nem teszik lehetővé, hogy a különbségeikről beszéljünk. Következésképpen az első szállítótól vásárolt szálakból szőtt ejtőernyők átlagos szilárdsága lényegesen kisebb, mint a másodiké.

Az egyirányú varianciaanalízis szükséges feltételei

Az ejtőernyők szilárdsági problémájának megoldása során nem ellenőriztük, hogy milyen feltételek mellett lehet-e egytényezőt használni. F-kritérium. Honnan tudod, hogy használhatod-e az egytényezőt? F-kritérium konkrét kísérleti adatok elemzésekor? Egyetlen tényező F-kritérium csak akkor alkalmazható, ha három alapfeltevés teljesül: a kísérleti adatok véletlenszerűek és függetlenek, normális eloszlásúak, szórásaik egyenlőek.

Első tipp - véletlenszerűség és adatfüggetlenség- mindig el kell végezni, mivel bármely kísérlet helyessége a választás véletlenszerűségétől és/vagy a véletlenszerűsítési folyamattól függ. Az eredmények torzításának elkerülése érdekében szükséges az adatok kinyerése Val veláltalános populációk véletlenszerűen és egymástól függetlenül. Hasonlóképpen, az adatokat véletlenszerűen kell elosztani Val vel az általunk érdekelt faktor szintjei (kísérleti csoportok). E feltételek megsértése súlyosan torzíthatja a varianciaanalízis eredményeit.

Második tipp - normalitás- azt jelenti, hogy az adatok normál eloszlású populációkból származnak. Ami pedig azt illeti t-kritériumok, egyirányú varianciaanalízis alapján F-kritériumok viszonylag kevéssé érzékenyek ennek a feltételnek a megsértésére. Ha az eloszlás nem tér el túl jelentősen a normáltól, a szignifikancia szint F-kritérium keveset változik, különösen, ha a minta mérete elég nagy. Ha az eloszlás normalitása feltétele súlyosan sérül, akkor azt alkalmazni kell.

Harmadik tipp - a variancia homogenitása- azt jelenti, hogy az egyes sokaságok szórása egyenlő egymással (azaz σ 1 2 = σ 2 2 = ... = σ j 2). Ez a feltevés lehetővé teszi annak eldöntését, hogy a csoporton belüli eltéréseket szétválasztjuk vagy összevonjuk. Ha a csoportok mérete megegyezik, a variancia homogenitásának feltétele csekély hatással van a következtetésekre. F-kritériumok. Ha azonban a minták mérete nem egyenlő, a varianciaegyenlőség feltételének megsértése súlyosan torzíthatja a varianciaanalízis eredményeit. Ezért törekedni kell arra, hogy a minták mérete egyenlő legyen. A varianciahomogenitás feltevésének ellenőrzésének egyik módszere a kritérium Levene az alábbiakban leírt.

Ha mindhárom feltétel közül csak a varianciahomogenitás feltétele sérül, hasonló eljárás t-kritérium külön variancia használatával (további részletekért lásd). Ha azonban a normál eloszlás és a varianciahomogenitás feltevései egyszerre sérülnek, akkor az adatokat normalizálni kell, és csökkenteni kell a szórások közötti különbségeket, vagy nem paraméteres eljárást kell alkalmazni.

Levene teszt a variancia homogenitásának vizsgálatára

Habár F-a kritérium viszonylag ellenálló a csoportok szórásegyenlősége feltételének megsértésével szemben, ennek a feltevésnek a durva megsértése jelentősen befolyásolja a kritérium szignifikanciaszintjét és erejét. Talán az egyik legerősebb a kritérium Levene. Az eltérések egyenlőségének ellenőrzésére Val veláltalános populációk esetén a következő hipotéziseket fogjuk tesztelni:

Н 0: σ 1 2 = σ 2 2 = … = σj 2

H 1: Nem mind σ j 2 ugyanazok ( j = 1, 2, …, Val vel)

A módosított Levene-teszt azon az állításon alapul, hogy ha a csoportokban a variabilitás azonos, akkor a megfigyelések és a csoportmediánok közötti különbségek abszolút értékeinek varianciaanalízise használható a varianciaegyenlőség nullhipotézisének tesztelésére. Tehát először ki kell számítania a megfigyelések és a mediánok közötti különbségek abszolút értékét az egyes csoportokban, majd végezzen egyirányú varianciaanalízist a különbségek kapott abszolút értékén. Levene kritériumának illusztrálására térjünk vissza a jegyzet elején felvázolt forgatókönyvhöz. ábrán bemutatott adatok felhasználásával. A 6. ábrán hasonló elemzést fogunk végezni, de a kiindulási adatok és a mediánok eltéréseinek moduljaihoz viszonyítva minden mintára külön-külön (11. ábra).

A rovat legfrissebb anyagai:

Tantárgyi munka: Varianciaanalízis Többváltozós varianciaanalízis
Tantárgyi munka: Varianciaanalízis Többváltozós varianciaanalízis

A varianciaanalízis olyan statisztikai módszerek összessége, amelyek bizonyos jellemzők és...

Hogyan találjuk meg a legkisebb közös többszöröst, nok két vagy több számra
Hogyan találjuk meg a legkisebb közös többszöröst, nok két vagy több számra

Az LCM megtalálása Ahhoz, hogy a különböző nevezőjű törtek összeadásánál és kivonásánál megtaláljuk a közös nevezőt, ismerni és tudni kell...

A legegyszerűbb formára való redukció esetei Egy sík erőrendszer egyensúlyi egyenleteinek formái
A legegyszerűbb formára való redukció esetei Egy sík erőrendszer egyensúlyi egyenleteinek formái

Legyen egy merev testre egyszerre több, különböző síkban ható nyomatékpáros erő. Meg lehet adni ezt a párrendszert...