Konfidensintervall

I vissa fall vid uppskattning av en okänd parameter duger inte punktskattning då ett uppskattningsvärde inte ger tillräckligt med information. Då kan man istället använda intervallskattning som också kallas konfidensintervall.

Punktskattning används nästan alltid i konfidensintervall så det är viktigt att du kan det innan du tar dig an detta kapitel.

Intervallskattning baserar sig på en procentsats som definierar hur stor sannolikheten att resultatet av den slumpbaserade händelsen befinner sig inom intervallet. Denna procentsats kallas konfidensgrad. Om vi har en konfidensgrad på kommer vi alltså enbart av fallen att hamna utanför intervallet. Felrisken blir därmed och konfidensgraden

För att skapa ett konfidensintervall krävs, precis som vid punktskattningen, ett stickprov av utfallsvärden . Då konfidensintervallet beror på detta stickprov kommer därmed intervallers ändpunkter betraktas vara stokastiska variabler som är funktioner av stickprovet.

Precis som punktskattning kan beräkningarna skilja sig en aning beroende på given information. Oftast brukar den okända parametern som ska skattas vara normalfördelad eller chi2 fördelad . Vi går igen de vanligaste metoderna nedan.

Alla metoder nedan förutsätter att man applicerar det på en normalfördelning. Detta gäller alla metoder förutom den approximativa-metoden.

t-metoden

Denna metod används också för att skapa ett konfidensintervall för väntevärdet men då både väntevärdet och standardavvikelsen är okända samt att standardavvikelsen inte beror av väntevärdet. Konfidensintervallet för denna väntevärdet ges då av:

där är en punktskattning av väntevärdet, är en punktskattning av standardavvikningen och är det värde som läses ur -fördelningen för respektive felrisk och parameter.

Vad -termen är beror på de s.v. som stickprovet är taget ifrån. Om variablerna har en normalfördelning ges termen av där är antalet variabler. Men om stickprovet istället kommer från två olika serier med variabler, och där båda är normalfördelade med samma standardavvikning men olika väntevärden, och att stickprovet av fördelningarna slås samman genom t.ex. subtraktion, då kommer termen istället att vara .

Exercise
Två kemistudenter mäter halten i kranvatten ur samma kran. Deras mätvärden blir:
Värde 1 Värde 2 Värde 3 Värde 4 Värde 5
Karolin 7.2 7.5 6.8 7.8 8.1
Anton 7.4 7.6 7.0 7.0 8.0

Undersök skillnaden mellan deras resultat och formulera ett konfidensintervall för den förväntade skillnaden. Anta normalfördelning och använd konfidensgraden .

	Värde 1	Värde 2	Värde 3	Värde 4	Värde 5
Karolin	7.2	7.5	6.8	7.8	8.1
Anton	7.4	7.6	7.0	7.0	8.0

Solution
Vi börjar med att ta fram skillnaden mellan deras resultat genom att ta Karolins värden minus Antons. Vi får skillnaden till:

Vi ser därefter att varken väntevärde eller standardavvikning är given vilket innebär att vi måste använda -metodens formel .

Då Anton och Karolin tar proverna från samma kran måste båda deras mätvärden komma från liknande fördelningar med samma väntevärde. Detta ger oss att kan beskrivas genom . (se KTHs formelblad, §11.1 d)

Vi använder nu punktskattning för att skatta väntevärdet genom det aritmetiska medelvärdet av stickprovet. Efter punktskattningen får vi värdet . Detta ger oss:

Som i sin tur ger oss

Genom sammanslagningen av Karolins och Antons stickprov kan det nu tolkas att det nya stickprovet kommer från en serie s.v. där utfallet är skillnaden. Detta ger oss att den stokastiska variabel för det aritmetiska medelvärdet kan beskrivas: .

Detta är relevant eftersom det innebär att vår okända parameter råkar uttryckas av samma sak! Alltså: och därmed kan vi uttrycka väntevärdets standardavvikning som där skattas genom roten ur stickprovsvariansen . Vi får detta värde till

Vilket är ekvivalent med

och får därmed intervallet till

Vi fortsätter nu förenkla intervallet genom att sätta in värdet för och insättning av konfidensgraden . Detta ger oss: och sedan:

Till sist läser nu av -fördelningen i KTHs tabellsamling och får att . Detta ger oss intervallet och avslutningsvis:

Metod genom chi2-fördelningen

Denna metod kräver liknande förutsättningar som ovanstående, att både väntevärdet och standardavvikelsen är okända. Men det som denna metod skiljer sig i är att den skapar ett konfidensintervall för standardavvikelsen istället. Detta gör standardavvikelsen till vår okända parameter .

Förutsatt att stickprovet som ges är från normalfördelningen gäller nedanstående formel:

där är en punktskattning av standardavvikelsen och samt är värdet som läses ur tabellsamligen för fördelningen för frihetsgraden och den tillhörande arean respektive .

Exercise
Inför en jämförelse av betygsskillnaden mellan könen görs två stickprov, ett för varje kö som ges av och . Antag att könens betygsfördelning är normalfördelade med samma standardavvikelse.

Betygen mäts på en traditionell till skala och medelvärdet av varje stickprov beräknas till och . och variansskattningen anses vara och .

Beräkna ett konfidensintervall för standardavvikelsen med konfidensgraden .

Solution
I uppgiftsbeskrivningen ges det att intervallet är tänkt att mäta betygskillnaden. Då vi har fått skattningar för varje individuell fördelning behöver vi slå samman informationen så att den omfattar den nya fördelningen som mäter skillnaden.

Om vi reflekterar vi över uppgiften vi har fått, så har könens fördelningar troligtvis olika väntevärden. Den nya fördelningen beskrivs dessutom som skillnaden mellan dessa, därmed är det rimligt att beräkna den nya punkskattningen av variansen genom formeln (se KTHs formelsamling, §11.2b):

Då vi vet att och lägger vi in det i formeln och utför beräkningen

Då och kan nu beskriva konfidensintervallet som:

Genom ovanstående reflektion får vi dessutom att då könens fördelningar troligtvis har olika väntevärden och att den nya fördelningen beskrivs som skillnaden mellan dessa är det möjligt att anta att .

Vi sätter in värdet på och och får:

Efter att ha tagit en titt i KTHs tabellsamling (tabell 4) ser vi att och . Detta ger oss intervallet:

Och avslutningsvis:

Innan du fortsätter

Eftersom -metoden och den approximativa metoden inte är förekommande på tentorna har jag inte inte skrivit några övningstal om de. Jag rekommenderar dock att ni läser igenom det i fallet att de skulle komma.

Lambda-metoden

(lambda)-metoden skapar konfidensintervall för väntevärdet då standardavvikningen är given men inte väntevärdet. Detta gör väntevärdet till vår okända parameter som ska skattas. För att använda -metoden måste de givna utfallen, stickprovet det vill säga, vara normalfördelad .

Om ovanstående satisfieras kommer konfidensintervallet att kunna ställas upp genom:

där är felrisken och är en punktskattning av väntevärdet och där är antalet värden i stickprovet.

Approximativa metoden

Den approximativa-metoden är snarlik -metoden och används för att skapa approximativa konfidensitervall. Detta är användbart när fördelningen metoden ska appliceras på inte är en normalfördelning men kan approximeras som en genom CGS. Formeln ges av:

Bortsett från skillnaden från -metoden gällande approximation gäller även att vi nu bör skatta .