Sannolikhet & Statistik

Back to All Courses

Lesson 9

Hypotesförkastning & Chi2-test

by Christian Abdelmassih

Nollhypotes

Säg att vi har två stokastiska variabler, och och vill undersöka om det finns ett samband mellan dessa. Då brukar nollhypotesen användas som är formulerad för det rakt motsatta fallet, att det inte finns något samband alls! Målet vid sambandsanalysen blir därefter att kunna förkasta nollhypotesen med en viss procentuell säkerhet och därmed bevisa att ett sådant samband är troligt.

Olika typer av signifikanstest

De vanligaste -testen förekommer i två olika slag:

  1. Fördelningstest

  2. Homogenitetstest

Skillnaden mellan dessa test är främst i vilket syfte de används och att de har olika testvariabler som jämförs med -fördelningen. Teorin bakom jämförelsen ligger i att approximeras till ett värde -fördelningen och därför inte får understiga det värdet om en förkastning av nollhypotesen är önskvärt.

Fördelningstest

Detta test kallas informellt för -testet och används för att bekräfta om ett stickprov tillhör den sannolikhetsfördelning som är given där nollhypotesen är formulerad så att stickprovet tillhör den givna fördelningen, det vill säga, att resultatet är oförändrat.


För att undersöka detta har vi en testvariabel som har följande utseende:





där är ett värde i observationsserien, är den respektive förkomstsannolikheten för just det värdet, är längden på observationsserien och är summan för observationsserien, det vill säga: .


Innan ett fördelningstest ens kan inledas måste termen vara större än för alla värden i observationsserien, alltså





När detta är satisfierat kan -testet påbörjas, om inte kan det vara önskvärt att slå ihop värden så att observationsserien krymps.


När får ett värde är det värdet bundet till observationen, därför används beteckningen för att påpeka detta och för att veta om den uppställda nollhypotesen kan förkastas måste följande förhållande satisfiera





där är den angivna signifikasnivån och är antalet värden i observationsserien. Värdet på kan läsas av i tabellen för -fördelningen. Om förhållandet satisfieras kallas det: nollhypotesen förkastas på nivån .


Exercise

Fyra elektronikbolag konkurrerar om kunder. De har en produkt var inom branschen. Den nuvarande kundfördelningen mellan företagen och ges av:



Företaget har förändrat sin produkt och har genom en marknadsundersökning fått reda på att personer föredrog deras produkt i jämförelse med , , personerna som föredrog produkter från och respektive.


Utred om produktförändringen kommer medföra en förändring av kunderna. Använd förkastningsnivån .

Solution

Nollhypotesen i denna uppgift kan formuleras som att produktförändringen inte kommer medföra någon skillnad i marknadsandelarna. Vi utreder därför om vi kan förkasta hypotesen, det vill säga, bevisa att det faktiskt har skett en förändring!


Vi använder oss av ett -fördelningstest för att de om marknadsundersökningen speglar den givna fördelningen. Vår nollhypotes blir därmed att och utreder om villkoret satisfieras, där är procentsatserna för respektive företag och är populationen marknadsundersökningen verkade över, det vill säga personer.


Vi får:





Följaktligen satisfieras villkoret och vi kan fortsätta med hypotesprövningen. Vi beräknar testvariabeln till:






Vi beräknar nu genom att använda frihetsgrader och . Detta ger oss att (Se KTHs formelblad).


Avslutningsvis ser vi att vilket ger att vi kan förkasta på nivån . Detta innebär att den dena produkten från företag troligtvis kommer medföra en förändring av fördelningen av kunderna.

Homogenitetstest

Ett homogenitetstest används då flera observationsserier är givna och man vill se om de tillhör en och samma sannolikhetsfördelning. Den har därför en annan testvariabel än det vanliga -testet:




är återigen våra observationvärden, men eftersom vi nu har flera observationsserier behöver vi även använda för att skilja på serierna från grupperna. är nu därför sannolikheten för värdets grupp med avseende på samtliga grupper där är summan av värdet serie. är längden på serien och är längden på grupperna. (se gärna tabellen nedan för förtydligande).


Grupp 1Grupp 2Grupp3Seriesumma
Serie 1  
Serie 2
GruppsummaTotalsumma:


Om följande förhållande satisfieras förakastar fördelningstestet nollhypotesen på nivån




När man beräknar på homogenitetstest är oerhört lätt att göra fel och därför är det superviktigt att veta att den kan beräknas på de flesta TI-minräknare! Mata bara in grupperna och serierna (utan summorna) genom att klicka på och sedan kolumnen . När det är gjort klickar du på och sedan kolumnen och väljer . När det är gjort och du valt rätt matris och klickat på beräkna är det den översta siffran som motsvarar . Om du fastnat någonstans på vägen kan du kolla denna guide.


Tänk dock på att du fortfarande måste presentera dina beräkningar och att -test funktionen på miniräknaren är ett bra sätt att kontrollera ditt svar.


Sist men inte minst är nollhypotesen i ett homogenitetstest formulerad så att den utgår från att observationsserierna kommer från samma sannolikhetsfördelning.


Exercise

Vi har att

  • Antalet bilar som passerar en onsdag vid tre olika klockslag är  och 

  • Antalet bilar som passerar en lördag vid samma tre olika klockslag är och .

Avgör huruvida det är samma proportioner av bilar de olika dagarna med en felrisk på .

Solution

Vi sammanfattar först informationen i en tabell så det blir mer strukturerat. Vi har tre klockslag och två dagar. Antalet bilar per dag och tid är:


Tid 1Tid 2Tid 3
Onsdag12229
Lördag32146


Då uppgiften efterfrågar att bekräfta om observationsserierna tillhör samma sannolikhetsfördelning vet vi att det är ett homogenitetstest som ska genomföras med nollhypotesen att de tillhör samma fördelning. För att undersöka med testvariabeln


Vi har två olika observationsserier, en serie för onsdag och en för lördag och tre olika grupperingar som representerar de olika klockslagen. Detta ger oss att seriesumman


är antalet bilar som passerat per dag. För onsdag blir detta och för lördag . Det totala antalet bilar blir därmed bilar.


Vi tar nu fram gruppsummorna som är antalet bilar som passerat vid samma klockslag. Dessa är , , för varje respektive klockslag. Detta kan därför sammanfattas till en enda tabell:


Tid 1Tid 2Tid 3Summa - dag
Onsdag1222943
Lördag3214652
Summa  - tid443615Totalt antal bilar: 95


där sannolikheten för varje grupp, i detta fall klockslag är





Vi använder oss nu av formeln för att skatta och får att ges av:






Vi läser nu av värdet för i en tabell och får


Avslutligen ser vi att vilket innebär att vi kan förkasta på nivån då observationsserierna kommer från olika sannolikhetsfördelning.