Histogram er en vanlig måte å organisere og presentere data i forbindelse med deskriptiv statistikk. Et histogram er ikke et statistisk mål, men en måte å stille opp statistiske data for å gjøre opplysningene mer oversiktlige.
Et histogram er et kolonnediagram som viser frekvensdata. Det er en grafisk måte å illustrere et observasjonssett. Et histogram er en måte å illustrere grupperte observasjoner i et observasjonssett hvor observasjonene er inndelt i intervaller eller grupper.
Et histogram er nyttig både for data som er kontinuerlige og for data som er diskrete. Kontinuerlige data kan anta uendelig mange verdier, og man deler opp verdiene i intervaller. Diskrete data er informasjon som kun har bestemte verdier, som heltall. For et kontinuerlig datasett vil hver søyle representere et intervall av verdier. For diskrete data vil hver søyle typisk representere én verdi eller en gruppe av verdier.
Begrepene stolpediagram og søylediagram brukes ofte om hverandre. Begge er grafiske fremstillinger av en frekvensfordeling med en vannrett akse og en loddrett akse. Hver verdi på variabelen representeres av en søyle eller stolpe. Vanligvis brukes tynne stolpediagram i forbindelse med tall, og vanlige søylediagram i forbindelse med andre ting. På begge er det høyden på stolpene eller søylene som er i fokus, fordi det er høyden som bestemmer verdien.
Et histogram settes opp på samme måte som et søylediagram, men søylene settes opp uten mellomrom. I et histogram er det arealet som bestemmer verdien. Dette beregnes på bakgrunn av bredde og høyde, og arealet under søylen er derfor like viktig som høyden. Hver søyle representerer en verdi eller et intervall av verdier for en observasjon, og søylens areal viser hyppigheten eller frekvensen av denne verdien eller dette intervallet.
Et histogram kan ha så mange eller få søyler man ønsker, og man bestemmer selv intervallene. Man vil også i noen tilfeller se histogram hvor flere statistiske observasjoner vises samlet. Dette gjør man vanligvis ved å la søyler i forskjellige farger representere de forskjellige observasjonene, og stille dem ved siden av hverandre i histogrammet.
Histogrammet under er laget med utgangspunkt i datasettet som er brukt i artiklen om median, nemlig lønnsinntekten for de ansatte i en virksomhet med 38 ansatte. Hver søyle forteller oss hvor stor prosentandel av de ansatte som får en lønn innen det intervallet som står under søylen.
Et histogram brukes til å presentere visuelt hvordan tallene i ofte store observasjonssett er fordelt. Det kan ofte være en fordel å lage to ekstra intervaller, ett på hver ende av de eksisterende intervallene, hvor frekvensen er lik 0. På den måten går det tydelig frem at det er et avgrenset datamateriale som vises i histogrammet.
I et histogram er det arealet som er det viktigste. Bredden på de forskjellige søylene behøver ikke å være den samme, det er arealet beregnet på bakgrunn av bredde og høyde som er det viktigste. Det er likevel vanlig å gruppere datasettet i intervaller som er like brede. Dette gjør histogrammet mer oversiktlig, fordi forholdet mellom høydene indikerer frekvensene, eller tallverdien.
Man må også sørge for å ha nok intervaller i histogrammet man lager. Hvis man har for få intervaller, kan statistisk interessante mindre grupperinger forsvinne i de større gruppene.
Det er selvfølgelig også viktig å ha nok målinger. Ellers kan tilfeldige avvik forvrenge resultatene som vises i histogrammet.
Det kan ofte være greit å bruke Excel til å lage histogram. Nyere Microsoft Excel versjoner har et eget histogramverktøy. Under finner du en trinnvis veiledning for hvordan du lager et histogram i versjoner av Excel som ikke har histogramverktøy.
Man lager et histogram i Excel ved å begynne på samme måte som når man lager et søylediagram. Deretter endrer man mellomrommene mellom søylene, og gjør diagrammet om til et histogram.
Man må huske at data for et histogram skal være beregnet i prosent. Hvis man for eksempel bare har data som antall for hver verdi, må man regne dem om til prosent. Dette gjøres ved å ta summen av alle antall, for hver verdi dividere antall med det samlede antall, og så gange med 100%.
I dette eksempelet skal vi se på aldersfordelingen i en virksomhet.
Vi har et datasett med 38 ansatte (N = 38) og deres respektive alder. Fordi de 38 personene har vidt forskjellige aldre, grupperer vi dem i intervaller for å gjøre det mer oversiktlig. Vi grupperer i 5-års intervaller. Dette gir 9 grupper, og dette gir et godt overblikk over aldersfordelingen.
For å kunne lage et histogram, må man regne om antall ansatte i hver aldersgruppe til frekvens i prosent. Det gjør man ved å dividere med det samlede antall ansatte og gange med 100 %.
Aldersinterval, i år | Hyppighed | Frekvens |
15-20 | 0 | 0 % |
20-25 | 5 | 13,16 % |
25-30 | 12 | 31,58 % |
30-35 | 14 | 36,84 % |
35-40 | 4 | 10,53 % |
40-45 | 2 | 5,26 % |
45-50 | 1 | 2,63 % |
50-55 | 0 | 0 % |
55-60 | 0 | 0 % |
I alt: | N = 38 | 100,00 % |
Vi skriver nå aldersintervaller og frekvenser inn i et regneark (for eksempel Excel) og lager et histogram ut i fra disse data.
Her ser man virksomhetens aldersfordeling i et histogram. Histogrammet er oversiktlig og gir leseren umiddelbart den vesentlige informasjonen. Man kan for eksempel raskt se at virksomheten i hovedsak består av unge mennesker. Det fremgår også at det ikke er noen helt unge ansatte, og ingen ansatte over 50 år.