Akkurat nå er 25 pålogget.

Median

En median er et flertydig matematisk begrep. Median har én betydning innen trigonometri, og en helt annen i forbindelse med statistikk. I denne artikkelen skal vi ta for oss median innen statistikk.

Median definisjon

Definisjonen på en median er at den er verdien til tallet som deler et utvalg i to deler slik at hver del har like mange elementer. Medianen er den midterste verdien i et sortert observasjonssett. Hvis man setter alle observasjonene opp i stigende rekkefølge, er medianen verdien i midten.

Medianen omtales også som 2. kvartil.

I denne artikkelen skal vi først behandle og vise eksempler på hvordan man finner medianen i ugrupperte observasjoner. Deretter vil vi forklare fremgangsmåten for å beregne median for grupperte observasjoner.

Median og gjennomsnitt

Median forveksles av og til med gjennomsnitt (middelverdi). Både gjennomsnitt og median sier noe om middeltendensen i et datamateriale. Men det er viktig å ikke blande sammen disse to ulike statistiske mål. Gjennomsnitt er summen av alle verdier delt på antall verdier i et datamateriale. Det regnes ut ved å summere alle observasjonene og så dele totalsummen på antall observasjoner. Medianen er det midterste tallet i et datamateriale etter at alle tallene er blitt sortert i stigende rekkefølge.

Median og sortering av observasjoner

Når man skal finne medianen, begynner man med å sortere alle de enkelte observasjonene. Det gjør man ved å sette opp alle tallene i en rekkefølge som går fra det minste til det største. Etter at observasjonene er satt opp i en ordnet rekkefølge, kan man finne den midterste observasjonen, medianen.

Hvis man for eksempel har et datamateriale med de 5 observasjonene (6, 1, 16, 21, 12), ser det slik ut i rekkefølge:

                 1, 6, 12, 16, 21

Median = 12

Median når antall observasjoner er et oddetall

I et observasjonssett med 5 observasjoner (34, 36, 49, 51, 54), er medianen 49. Det er nemlig dette tallet som står i midten. Det er to tall som er mindre enn 49, og to tall som er større enn 49.

Det kan kanskje hjelpe å forestille seg at man fjerner tallene fra ytterpunktene og inn mot midten. Først tar man bort 34 og 54, så tar man bort 36 og 51. Til sist gjenstår bare 49, og dette tallet er derfor tallsettets median.

Dette kan stilles opp ved å bruke nedenstående formel for median. Formelen forutsetter at man gir alle observasjonene et nummer i rekkefølgen. Hvis vi bruker tallene ovenfor som eksempel, er 34 observasjon nr. 1, 36 er observasjon nr. 2 osv. På denne måten kan man finne den observasjonen som er den midterste i tallrekken av observasjoner:

\(m = \frac{N + 1}{2}\)

\(m\) er den midterste nummererte observasjonen i et sortert observasjonssett.

\(N\) er antall observasjoner

Har man for eksempel et observasjonssett med 57 observasjoner (N = 57), ser formelen slik ut:

\(m = \frac{57 + 1}{2} \Rightarrow m = \frac{58}{2} \Rightarrow m = 29\)

Observasjon nr. 29 er dermed den midterste. Når man har talt seg frem til denne observasjonen i det sorterte observasjonssettet, har man funnet medianen.

Median når antall observasjoner er et partall

Hvis antall observasjoner er et partall, er det litt vanskeligere å finne medianen. Da fremgår den ikke direkte, og man kan ikke bare telle seg frem i rekken slik man kan hvis antall observasjoner er et oddetall.

Man kan for eksempel ikke telle seg frem til det midterste tallet av tallrekken (2, 4, 6, 8). Derfor kan man heller ikke direkte se hvilket tall som er median.

Det er tre måter å finne medianen for tallsett hvor antall observasjoner er et partall. Hvilken måte man bruker, er avhengig av hva slags observasjonsmateriale det dreier seg om.

La oss se på et eksempel for å illustrere forskjellen på de tre variantene av median for et observasjonssett hvor antall observasjoner er et partall.

Som eksempel tar vi for oss et sortert observasjonssett med 6 observasjoner: (28, 49, 57, 59, 64, 65) 

De to midterste tallene i observasjonssettet er 57 og 59.

  • Man kan si at gjennomsnittet av de to midterste tallene, 58, er median.
  • Eller man kan si at begge de to tallene 57 og 59 er tallsettets medianer.
  • Til slutt kan man også si at medianen er et eller annet tall mellom 57 og 59.

Det vanligste er å bruke gjennomsnittet av de to midterste verdiene som median. I eksempelet over blir medianen derfor 58. Men vær oppmerksom på hva det er som undersøkes, og om det gir mening å bruke gjennomsnittet av de to midterste verdiene.

I store observasjonssett kan det være vanskelig å få oversikt over hvilket tall som er den midterste verdien og dermed tallsettets median. Nedenfor skal vi vise hvordan man skal håndtere dette.

Tommelfingerregel for median

Når antall observasjoner er et partall, vil summen av de to midterste observasjonene alltid være den samme som summen av den første og siste observasjonen.

Man kan for eksempel forestille seg at det er 78 observasjoner i et datasett (N = 78). Medianen finner man ved først å nummerere observasjonene fra (1 - 78) og benytte formelen over.

\(m = \frac{79}{2} = 39,5\)

Når antall observasjoner er et partall, vil resultatet aldri være et helt tall. I stedet bruker man de to midterste observasjonene til å beregne median. Dette er de to hele tallene på hver side av m. I dette eksempelet er det observasjon nummer 39 og  observasjon nummer 40.

De to midterste observasjonene vil alltid være lik summen av de to ytterste observasjonene, den minste og den største. I dette eksempelet blir det (1 + 78 = 79). Som det fremgår, er (39 + 40) også 79.

Median for grupperte observasjoner

Når man skal finne median for grupperte observasjoner, skal man kumulere frekvenser og tegne en sumkurve.

Under vises den årlige lønnsinntekten for ansatte i en bedrift med 38 ansatte. De ansattes lønnsinntekter er inndelt i intervaller. Deretter er intervallhyppigheten for hvert intervall lagt sammen. Intervallfrekvens beregnes ved å dividere intervallhyppigheten med (N = 38) og gange med 100 %. Deretter kumuleres disse frekvensene som en sum av alle intervallfrekvensene under det aktuelle intervallet.

Lønnsinntekt i kr.

Intervallhyppighet

Intervallfrekvens

Kumulert intervallfrekvens

250.000 - 300.000

5

13,16 %

13,16 %

300.000 - 350.000

8

21,05 %

34,21 %

350.000 - 400.000

12

31,58 %

65,79 %

400.000 - 450.000

7

18,42 %

84,21 %

450.000 - 500.000

4

10,53 %

94,74 %

500.000 - 550.000

0

0 %

94,74 %

550.000 - 600.000

2

5,26 %

100,00 %

Sum:

N = 38

100 %

Median kalles også for 2. kvartil eller 0,50-kvartilen. Det fremgår av tabellen over at medianen er et sted i intervallet 350.000 - 400.000 kr. pr. år, fordi det er i dette intervallet den kumulerte frekvensen overstiger 50 %.

For å komme nærmere svaret, er man nødt til å tegne en sumkurve.

Man kan for eksempel tegne en sumkurve i Excel. Man skal bruke intervallsluttpunktene på x-aksen og de kumulerte frekvensene i prosent på y-aksen, som på figuren under.

Når man tegner en sumkurve, antar man at observasjonene fordeler seg omkring midtpunktet i intervallet.

Videre må man lage et punkt der hyppigheten er 0, og hvor derfor også den kumulerte frekvens er lik 0 %. Det gjøres for å kunne tegne det punktet som skjærer x-aksen, ellers blir sumkurven hengende i luften. Man kunne for eksempel lage et intervall fra 200.000 - 250.000 kr. hvor hyppigheten er 0. Som det fremgår under, er intervallsluttpunktet 250.000 kr. lik en kumulert frekvens på 0 %.

Når man har tegnet inn en sumkurve over de grupperte observasjonene, kan man lese av medianen. Den er der hvor sumkurven er lik 50 % på den kumulerte frekvensen.

Her er de underordnede gitterlinjene satt til en avstand på 20.000 kr. og medianen, som er lik 50 % av de grupperte observasjonene, kan nå avleses.

Medianen = 376.000 kr.

Man kan også si at medianinntekten er 376.000 kr.