Varians er et svært nyttig begrep i deskriptiv statistikk, inferential statistikk og sannsynlighetsregning. Varians i matematikk er et av de såkalte statistiske mål som kan hjelpe oss til å få oversikt over statistiske data.
Varians er et mål på hvor mye observasjonene i et observasjonssett i gjennomsnitt avviker fra gjennomsnittet (middelverdien). For ugrupperte observasjoner har varians én betydning, og for grupperte observasjoner, hvor observasjonene er inndelt i intervaller, en annen. I denne artikkelen skal vi først se på hvordan man beregner varians for ugrupperte observasjoner. Den siste delen av artikkelen forklarer hvordan man beregner varians for grupperte observasjoner.
Varians må ikke forveksles med variasjonsbredde. Disse to statistiske målene har veldig forskjellige betydning og anvendelse, til tross for at navnene høres like ut. Både varians og variasjonsbredde er spredningsmål som sier noe om hvor mye dataene i et datasett varierer. Men mens variasjonsbredden er forskjellen mellom den største og minste verdien i et datamateriale, er varians et mål for hvor mye observasjonene i observasjonssettet i gjennomsnitt avviker fra gjennomsnittet. Variasjonsbredden karakteriserer endepunktene, mens varians er et mål for gjennomsnittstendensen i observasjonsmaterialet. Du kan lese mer om disse statiske målene i artiklen Standardavvik.
Varians er ikke et av de statistiske målene man bare kan lese av. Det må regnes ut. Varians for ugrupperte observasjonssett er enkelt å beregne ved hjelp av nedenstående formel:
V er varians
x er de enkelte observasjonene
er gjennomsnitt
f(x) er frekvensen av de enkelte observasjonene
Dette høres kanskje vanskeligere og mer komplisert ut enn det egentlig er. La oss se på et par eksempler som kan bidra til å gjøre begrepet varians mer overskuelig og lettere å forstå.
En person reiser ofte frem og tilbake mellom Oslo og Kristiansand. Dette sorterte observasjonssettet viser prisene på de siste 10 reisene:
160, 160, 160, 160, 160, 250, 250, 404, 404, 404
Pris Hyppighet Frekvens
160 5 0,50 = 50 %
250 2 0,20 = 20 %
404 3 0,30 = 30 %
Gjennomsnittet beregnes til:
=
Før man kan regne ut varians, må man kjenne til både frekvens og gjennomsnitt. Når disse to statistiske målene er beregnet, kan man finne variansen:
V = 11163,36
Dermed er varians for prisen på reiser mellom Oslo og Kristiansand lik 11163,36. Varians alene betyr ikke så mye, men i kombinasjon med andre statistiske mål kan den gi interessant informasjon om hvor mye verdiene i et observasjonssett varierer.
Observasjonssettet under er hentet fra eksempel 3 i artikkelen Gjennomsnitt. Her skal vi vise hvordan man beregner varians for dette datamaterialet.
To elever får følgende fordeling av poeng på 20 prøver, angitt med hyppighet og frekvens:
Karakter Elev 1 Elev 2
4: 2 = 0,10 8 = 0,40
7: 8 = 0,40 2 = 0,10
10: 8 = 0,40 2 = 0,10
12: 2 = 0,10 8 = 0,40
Sum: N = 20 N = 20
For elev 1 har vi regnet ut at gjennomsnittet = 8,4, og for elev 2 er gjennomsnittet = 8,1.
Deretter kan varians beregnes ved å bruke formelen for varians:
Variansen viser at det er stor forskjell på de to elevenes poengfordeling, en forskjell som er grundigere forklart i artikkelen Standardavvik.
Varians for grupperte observasjoner er definert litt annerledes enn varians for ugrupperte observasjoner.
For grupperte observasjoner antar man at de enkelte observasjonene ligger jevnt fordelt i intervallet. Man fastsetter et intervallmidtpunkt, . Hvordan man finner intervallmidtpunkt er forklart i artikkelen Gjennomsnitt.
Beregning av varians for grupperte observasjoner foregår nesten på samme måte som for ugrupperte observasjoner. Man må bare sette inn og f(I), fordi det er intervaller som danner grunnlaget for beregningen av varians.
Formelen ser slik ut:
V er variansen
er det fastsatte intervallmidtpunktet
er gjennomsnittet
f(I) er intervallfrekvensen
Fra eksempel 4 i artikkelen Gjennomsnitt kjenner vi til følgende datasett om aldersfordelingen av 25 barn i alderen 0 - 15 år:
Aldersintervall, år |
Intervallhyppighet |
Intervallfrekvens f(I) |
0 - 3 |
4 |
0,16 = 16 % |
4 - 6 |
5 |
0,20 = 20 % |
7 - 10 |
10 |
0,40 = 40 % |
11 - 15 |
6 |
0,24 = 24 % |
Vi fastsetter et intervallmidtpunkt, som er en alder midt i intervallet:
0 - 3 år:
4 - 6 år:
7 - 10 år:
11 - 15 år:
Gjennomsnittet er beregnet til = 7,76
Nå kan variansen beregnes:
V = 18,7712
Varians alene sier ikke så mye, men når man tar kvadratroten av V og regner ut standardavviket (spredning), gir det mer håndgripelig informasjon.