Hem » Featured, Vetenskap

Grundläggande statistik – medelvärde, varians och standarddeviation.

27 juli 2011 1 123 views Okommenterad, bli den förste?
Grundläggande statistik – medelvärde, varians och standarddeviation.

Disclaimer: Jag skriver dessa inlägg halvt om halvt som inlärningshjälp för mig själv och håller alltså just nu på att lära mig statistik. Risken att det därför slinker in fel och otydligheter är relativt stor. Jag hoppas naturligtvis att så inte är fallet men jag kan inte garantera något. Om någon mer kunnig statistiker finner fel eller oklarheter i det jag skriver så skriv gärna en kommentar så skall jag åtgärda det så snart som möjligt.

Medelvärdesmodellen är en av de enklaste statistika modellerna och också, kanske just på grund av detta, en av de mest användbara. Det finns en mängd olika medelvärden (aritmetiskt, geometriskt, harmoniskt medelvärde etc.) men det som vanligen menas med medelvärde är det aritmetiska medelvärdet som definieras som:

Varians

Där x är medelvärdet och ekvationen anger att man skall summera alla tal från  x1 till  xn och dela med antalet tal (n). Som exempel så beräknas medelvärdet för mängden (34, 27, 45, 55, 22, 34) som följer:

Medelvärdeexempel

Endast ett medelvärde är dock en ganska dålig statistik modell. Eftersom det finns ett oändligt spann av ursprungsdata som ger oss samma medelvärde så kan vi inte säga mycket utifrån bara det. Om man t.ex. hade bytt ut 34 mot -66 och 55 mot 155 i mängden ovanför så hade vi fått samma medelvärde men de enskilda datapunkterna hade legat längre ifrån vårt medelvärde (haft högre spridning). Det motsatta fallet hade istället varit om vår mängd hade bestått av (217/6, 217/6, 217/6, 217/6, 217/6, 217/6). I det fallet hade vårt medelvärde perfekt beskrivit vår mängd (låg spridning).

Kort sagt, vi vet utifrån ett medelvärde, ingenting om spridningen av vår data så nästa viktiga steg är att hitta någon metod för att uppskatta spridningen av vår datapunkter kring medelvärdet. Den intuitiva metoden hade kanske varit att summera alla enskilda avvikelser. E.g.

Sum of errors

Dock fungerar inte detta eftersom summan av alla mätpunkter är densamma som produkten av medelvärdet * antalet observationer. D.v.s differensen mellan  xi + … +  xn och  x * n kommer alltid att vara 0.

Ett sätt att undkomma detta problem är att kvadrera alla avvikelser. Detta kallas för sum of squared errors (SSE). Man kan se det som att alla avvikelser ges samma ”riktning” (eftersom alla blir positiva) och att de därmed alla bidrar till att uppskatta totalfelet istället för att slå ut varandra (ett medelvärde kommer alltid, om inte alla datapunkter är identiska ha vissa punkter som ligger under det och vissa som ligger över det därför kommer avvikelsen i vissa fall vara positivt och i andra fall negativt). SSE definieras som:

Sum of squared errors

Som vi har definierat SSE så är det uppenbart att det kommer att bli större ju fler datapunkter vi har. Vi vet att vår exempelmängd har samma spridning oavsett om vi har en eller tusen instanser av varje specifik punkt men SSE kommer vara tusen gånger så stort för en mängd med tusen gånger fler (identiska) punkter. Bara SSE är därför ingen bra uppskattning av spridningen av vår data. Den intuitiva lösningen på det är naturligtvis att dela SSE med antalet observationer. Dock är detta fel.

Anledningen till detta är något som kallas frihetsgrader (degree of freedom). I korthet kan man säga att det handlar om antalet oberoende observationer man har. När vi försöker räkna ut avvikelsen så är våra observationer lika med observationer av avvikelse från medelvärdet. Vi räknar ut dessa avvikelser med hjälp av medelvärdet (en observation =  xix) vilket gör att medelvärdet kommer att påverka våra observationer på ett sånt sätt att en specifik observation inte längre kan ses som oberoende eftersom det är möjligt att räkna ut den utifrån de andra värdena och medelvärdet. En generell regel är att frihetsgraden för en uppskattning är lika med antalet observationer minus det antal parametrar man har uppskattat på vägen till uppskattningen i fråga. Detta hänger samman med att vi alltid bara har en delmängd av all data. Vårt medelvärde är en uppskattning och inte det sanna medelvärdet. En mer ingående diskussion av detta faller dock utanför ramarna för vad jag vill (och kan) göra.

I vårt ursprungliga exempel så är antalet observationer 6 och antalet parametrar vi uppskattat på vägen till det som vi kallar för varians är 1 (nämligen medelvärdet). Alltså har vi i det här fallet 5 frihetsgrader vilket kan generaliseras till n – 1 frihetsgrader. D.v.s. hade vi istället för 6 observationer haft 27 stycken så hade vi haft 26 frihetsgrader. Variansen kan på det här sättet definieras som:

Varians

Variansen är alltså genomsnittsfelet mellan medelvärdet och den observerade datan. Det finns dock ett problem med variansen som mätvärde och det är enheten. Eftersom vi kvadrerade våra fel så är enheten för variansen också kvadrerad. Lösningen är dock enkel, ta roten ur variansen så får man ut ett okvadrerat värde på spridningen. Detta kallas för standarddeviation (SD) eller standardavvikelse och definieras alltså som roten ur variansen eller lite snyggare som:

Standardavvikelse

Standardavvikelsen (SD) är alltså ett mått för spridning kring medelvärdet. En liten standardavvikelse visar att mätdatan ligger i ett snävt intervall kring medelvärdet medans en stor standardavvikelse då tvärtom indikerar att datan är kraftigt utspridd kring medelvärdet. Kombinationen av ett medelvärde och en standardavvikelse ger därför en mycket bättre bild av en datamängd än vad endast ett medelvärde gör.

För övrigt rekommenderar jag http://onlinestatbook.com/


Lämna en kommentar!

Skriv din kommentar här nedanför, eller trackback lägg till en från din egen sida. Du kan också prenumerera på kommentarer via RSS.

Skriv vad ni vill!

Du kan använda följande taggar:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Den här bloggen kan använda Gravatar. För att skfffa din egen globala avatar, registrera dig på Gravatar.