Akkurat nå er 12 pålogget.

Varians

Varians er et svært nyttig begrep i deskriptiv statistikk, inferential statistikk og sannsynlighetsregning. Varians i matematikk er et av de såkalte statistiske mål som kan hjelpe oss til å få oversikt over statistiske data.

Hva er varians?

Varians er et mål på hvor mye observasjonene i et observasjonssett i gjennomsnitt avviker fra gjennomsnittet (middelverdien). For ugrupperte observasjoner har varians én betydning, og for grupperte observasjoner, hvor observasjonene er inndelt i intervaller, en annen. I denne artikkelen skal vi først se på hvordan man beregner varians for ugrupperte observasjoner. Den siste delen av artikkelen forklarer hvordan man beregner varians for grupperte observasjoner.

Varians og variasjonsbredde

Varians må ikke forveksles med variasjonsbredde. Disse to statistiske målene har veldig forskjellige betydning og anvendelse, til tross for at navnene høres like ut. Både varians og variasjonsbredde er spredningsmål som sier noe om hvor mye dataene i et datasett varierer. Men mens variasjonsbredden er forskjellen mellom den største og minste verdien i et datamateriale, er varians et mål for hvor mye observasjonene i observasjonssettet i gjennomsnitt avviker fra gjennomsnittet. Variasjonsbredden karakteriserer endepunktene, mens varians er et mål for gjennomsnittstendensen i observasjonsmaterialet. Du kan lese mer om disse statiske målene i artiklen Standardavvik.

Varians formel

Varians er ikke et av de statistiske målene man bare kan lese av. Det må regnes ut. Varians for ugrupperte observasjonssett er enkelt å beregne ved hjelp av nedenstående formel:

V = \sum (x - \bar{x})^2 \cdot f(x)

V er varians

x er de enkelte observasjonene

\bar{x} er gjennomsnitt

f(x) er frekvensen av de enkelte observasjonene

Dette høres kanskje vanskeligere og mer komplisert ut enn det egentlig er. La oss se på et par eksempler som kan bidra til å gjøre begrepet varians mer overskuelig og lettere å forstå.

Eksempler på beregning av varians

Eksempel 1

En person reiser ofte frem og tilbake mellom Oslo og Kristiansand. Dette sorterte observasjonssettet viser prisene på de siste 10 reisene:

160, 160, 160, 160, 160, 250, 250, 404, 404, 404

Pris           Hyppighet       Frekvens

160                5               0,50 = 50 %

250                2               0,20 = 20 %

404                3               0,30 = 30 %

Gjennomsnittet beregnes til:

\bar{x} = ((160 \cdot 0,50) + (250 \cdot 0,20) + (404 \cdot 0,30)) = 251,20

Før man kan regne ut varians, må man kjenne til både frekvens og gjennomsnitt. Når disse to statistiske målene er beregnet, kan man finne variansen:

  V = (160 - 251,20)^2 \cdot 0,50 + (250 - 251,20)^2 \cdot 0,20 + (404 - 251,20)^2 \cdot 0,30
\Updownarrow 
  V = 11163,36

Dermed er varians for prisen på reiser mellom Oslo og Kristiansand lik 11163,36. Varians alene betyr ikke så mye, men i kombinasjon med andre statistiske mål kan den gi interessant informasjon om hvor mye verdiene i et observasjonssett varierer.

Eksempel 2

Observasjonssettet under er hentet fra eksempel 3 i artikkelen Gjennomsnitt. Her skal vi vise hvordan man beregner varians for dette datamaterialet.

To elever får følgende fordeling av poeng på 20 prøver, angitt med hyppighet og frekvens:

Karakter             Elev 1                 Elev 2

4:                      2 = 0,10          8 = 0,40

7:                      8 = 0,40          2 = 0,10

10:                    8 = 0,40          2 = 0,10

12:                    2 = 0,10          8 = 0,40

Sum:                N = 20             N = 20

For elev 1 har vi regnet ut at gjennomsnittet = 8,4, og for elev 2 er gjennomsnittet = 8,1.

Deretter kan varians beregnes ved å bruke formelen for varians:

  V_{elev 1} = (4 - 8,4)^2 \cdot 0,10 + (7 - 8,4)^2 \cdot 0,40 + (10 - 8,4)^2 \cdot 0,40 + (12 - 8,4)^2 \cdot 0,10
\Updownarrow
  V_{elev 1} = 5,04

  V_{elev 2} = (4 - 8,1)^2 \cdot 0,40 + (7 - 8,1)^2 \cdot 0,10 + (10 - 8,1)^2 \cdot 0,10 + (12 - 8,1)^2 \cdot 0,40
\Updownarrow
  V_{elev 2} = 13,37

Variansen viser at det er stor forskjell på de to elevenes poengfordeling, en forskjell som er grundigere forklart i artikkelen Standardavvik.

Varians for grupperte observasjoner

Varians for grupperte observasjoner er definert litt annerledes enn varians for ugrupperte observasjoner.

For grupperte observasjoner antar man at de enkelte observasjonene ligger jevnt fordelt i intervallet. Man fastsetter et intervallmidtpunkt, x_ {midt}. Hvordan man finner intervallmidtpunkt er forklart i artikkelen Gjennomsnitt.

Beregning av varians for grupperte observasjoner foregår nesten på samme måte som for ugrupperte observasjoner. Man må bare sette inn x_ {midt} og f(I), fordi det er intervaller som danner grunnlaget for beregningen av varians.

Formelen ser slik ut:

V = \sum (x_{midt} - \bar{x})^2 \cdot f(I)

V er variansen

x_ {midt} er det fastsatte intervallmidtpunktet

\bar{x} er gjennomsnittet

f(I) er intervallfrekvensen

Eksempel 3

Fra eksempel 4 i artikkelen Gjennomsnitt kjenner vi til følgende datasett om aldersfordelingen av 25 barn i alderen 0 - 15 år:

Aldersintervall, år

Intervallhyppighet

Intervallfrekvens f(I)

0 - 3 

4

0,16 = 16 %

4 - 6

5

0,20 = 20 %

7 - 10

10

0,40 = 40 %

11 - 15

6

0,24 = 24 %

Vi fastsetter et intervallmidtpunkt, som er en alder midt i intervallet:

0 - 3 år:       x_{midt} = 1,5

4 - 6 år:       x_{midt} = 5

7 - 10 år:     x_{midt} = 8,5

11 - 15 år:   x_{midt} = 13

Gjennomsnittet er beregnet til \bar{x} = 7,76

Nå kan variansen beregnes:

  V = (1,5 - 7,76)^2 \cdot 0,16 + (5 - 7,76)^2 \cdot 0,20 + (7,5 - 7,76)^2 \cdot 0,40 + (13 - 7,76)^2 \cdot 0,24
\Updownarrow
  V = 18,7712

Varians alene sier ikke så mye, men når man tar kvadratroten av V og regner ut standardavviket (spredning), gir det mer håndgripelig informasjon.