Hypotesförkastning & Chi2-test - Sannolikhet & Statistik

Nollhypotes

Säg att vi har två stokastiska variabler, och och vill undersöka om det finns ett samband mellan dessa. Då brukar nollhypotesen användas som är formulerad för det rakt motsatta fallet, att det inte finns något samband alls! Målet vid sambandsanalysen blir därefter att kunna förkasta nollhypotesen med en viss procentuell säkerhet och därmed bevisa att ett sådant samband är troligt.

Olika typer av signifikanstest

De vanligaste -testen förekommer i två olika slag:

Fördelningstest
Homogenitetstest

Skillnaden mellan dessa test är främst i vilket syfte de används och att de har olika testvariabler som jämförs med -fördelningen. Teorin bakom jämförelsen ligger i att approximeras till ett värde på -fördelningen och därför inte får understiga det värdet om en förkastning av nollhypotesen är önskvärt.

Fördelningstest

Detta test kallas informellt för -testet och används för att bekräfta om ett stickprov tillhör den sannolikhetsfördelning som är given där nollhypotesen är formulerad så att stickprovet tillhör den givna fördelningen, det vill säga, att resultatet är oförändrat.

För att undersöka detta har vi en testvariabel som har följande utseende:

där är ett värde i observationsserien, är den respektive förkomstsannolikheten för just det värdet, är längden på observationsserien och är summan för observationsserien, det vill säga: .

Innan ett fördelningstest ens kan inledas måste termen vara större än för alla värden i observationsserien, alltså

När detta är satisfierat kan -testet påbörjas, om inte kan det vara önskvärt att slå ihop värden så att observationsserien krymps.

När får ett värde är det värdet bundet till observationen, därför används beteckningen för att påpeka detta och för att veta om den uppställda nollhypotesen kan förkastas måste följande förhållande satisfiera

där är den angivna signifikasnivån och är antalet värden i observationsserien. Värdet på kan läsas av i tabellen för -fördelningen. Om förhållandet satisfieras kallas det: nollhypotesen förkastas på nivån .

Exercise
Fyra elektronikbolag konkurrerar om kunder. De har en produkt var inom branschen. Den nuvarande kundfördelningen mellan företagen och ges av:

Företaget har förändrat sin produkt och har genom en marknadsundersökning fått reda på att personer föredrog deras produkt i jämförelse med , , personerna som föredrog produkter från och respektive.

Utred om produktförändringen kommer medföra en förändring av kunderna. Använd förkastningsnivån .

Solution
Nollhypotesen i denna uppgift kan formuleras som att produktförändringen inte kommer medföra någon skillnad i marknadsandelarna. Vi utreder därför om vi kan förkasta hypotesen, det vill säga, bevisa att det faktiskt har skett en förändring!

Vi använder oss av ett -fördelningstest för att de om marknadsundersökningen speglar den givna fördelningen. Vår nollhypotes blir därmed att och utreder om villkoret satisfieras, där är procentsatserna för respektive företag och är populationen marknadsundersökningen verkade över, det vill säga personer.

Vi får:

Följaktligen satisfieras villkoret och vi kan fortsätta med hypotesprövningen. Vi beräknar testvariabeln till:

Vi beräknar nu genom att använda frihetsgrader och . Detta ger oss att (Se KTHs formelblad).

Avslutningsvis ser vi att vilket ger att vi kan förkasta på nivån . Detta innebär att den dena produkten från företag troligtvis kommer medföra en förändring av fördelningen av kunderna.

Homogenitetstest

Ett homogenitetstest används då flera observationsserier är givna och man vill se om de tillhör en och samma sannolikhetsfördelning. Den har därför en annan testvariabel än det vanliga -testet:

är återigen våra observationvärden, men eftersom vi nu har flera observationsserier behöver vi även använda för att skilja på serierna från grupperna. är nu därför sannolikheten för värdets grupp med avseende på samtliga grupper där är summan av värdet serie. är längden på serien och är längden på grupperna. (se gärna tabellen nedan för förtydligande).

	Grupp 1	Grupp 2	Grupp3	Seriesumma
Serie 1
Serie 2
Gruppsumma				Totalsumma:

Om följande förhållande satisfieras förakastar fördelningstestet nollhypotesen på nivån

När man beräknar på homogenitetstest är oerhört lätt att göra fel och därför är det superviktigt att veta att den kan beräknas på de flesta TI-minräknare! Mata bara in grupperna och serierna (utan summorna) genom att klicka på och sedan kolumnen . När det är gjort klickar du på och sedan kolumnen och väljer . När det är gjort och du valt rätt matris och klickat på beräkna är det den översta siffran som motsvarar . Om du fastnat någonstans på vägen kan du kolla denna guide.

Tänk dock på att du fortfarande måste presentera dina beräkningar och att -test funktionen på miniräknaren är ett bra sätt att kontrollera ditt svar.

Sist men inte minst är nollhypotesen i ett homogenitetstest formulerad så att den utgår från att observationsserierna kommer från samma sannolikhetsfördelning.

Exercise
Vi har att
Antalet bilar som passerar en onsdag vid tre olika klockslag är och
Antalet bilar som passerar en lördag vid samma tre olika klockslag är och .
Avgör huruvida det är samma proportioner av bilar de olika dagarna med en felrisk på .

Solution
Vi sammanfattar först informationen i en tabell så det blir mer strukturerat. Vi har tre klockslag och två dagar. Antalet bilar per dag och tid är:

Tid 1 Tid 2 Tid 3
Onsdag 12 22 9
Lördag 32 14 6

Då uppgiften efterfrågar att bekräfta om observationsserierna tillhör samma sannolikhetsfördelning vet vi att det är ett homogenitetstest som ska genomföras med nollhypotesen att de tillhör samma fördelning. För att undersöka med testvariabeln

Vi har två olika observationsserier, en serie för onsdag och en för lördag och tre olika grupperingar som representerar de olika klockslagen. Detta ger oss att seriesumman

är antalet bilar som passerat per dag. För onsdag blir detta och för lördag . Det totala antalet bilar blir därmed bilar.

Vi tar nu fram gruppsummorna som är antalet bilar som passerat vid samma klockslag. Dessa är , , för varje respektive klockslag. Detta kan därför sammanfattas till en enda tabell:

Tid 1 Tid 2 Tid 3 Summa - dag
Onsdag 12 22 9 43
Lördag 32 14 6 52
Summa - tid 44 36 15 Totalt antal bilar: 95

där sannolikheten för varje grupp, i detta fall klockslag är

Vi använder oss nu av formeln för att skatta och får att ges av:

Vi läser nu av värdet för i en tabell och får

Avslutligen ser vi att vilket innebär att vi kan förkasta på nivån då observationsserierna kommer från olika sannolikhetsfördelning.

	Tid 1	Tid 2	Tid 3	Summa - dag
Onsdag	12	22	9	43
Lördag	32	14	6	52
Summa - tid	44	36	15	Totalt antal bilar: 95