Beskrivende statistiske metoder

Beskrivende statistiske metoder


Statistikere skille mellom to typer statistikk: beskrivende og slutnings. I beskrivende statistikk, verdier beskriver et sett med tall som følge av å teste en komplett gruppe eller «befolkning». Disse beskrivelsene tillater en innsamling av data som skal oppsummeres effektivt ved å tilveiebringe en indikasjon på hvor midten av data ligger, og hvor spredt ut verdiene er.

Sentral tendens

En viktig beskrivelse av et datasett som er et mål på sentraltendens. Dette er verdien rundt hvilken tallene har en tendens til å samles. Det er tre måter å beskrive dette. Den midlere eller gjennomsnittlig, er summen av alle verdiene dividert med antall verdier. Modusen er verdien som vises oftest i datasettet (merk det kan være mer enn én modus). Medianen er den verdien som har like mange andre verdier som er mindre enn det som er større enn det er.

Avviks

En annen viktig beskrivelse av et sett med tall er variansen, som er spredningen av verdiene. I et datasett med en liten varians, vil verdiene være nær hverandre, mens det motsatte er tilfelle for en stor varians. Statistikere vanligvis bruke standardavviket som et mål for varians. Standardavvik er beregnet av en komplisert formel, men du kan tenke på det som å gi en indikasjon på gjennomsnittlig avstand på alle datapunkter fra det sentrale datapunkt.

persentiler

Statistikk bruker også begrepet persentil. Den "n'te" persentil av et sett med tall er verdien som har n prosent av datasettet under. Så, for eksempel, er en student som har skåre på en test på 90-persentilen har scoret høyere enn 90 prosent av de andre elevene. De mest brukte prosentiler i trinn på 25 prosent og er dermed kalles kvartiler. De mest brukte kvartiler er den første kvartil, lik den 25. persentil, og den tredje kvartil, tilsvarende 75 prosent.

Område

Utvalget av et datasett er også viktig. En statistician kan noen ganger regne ut ved å ta gjennomsnittet pluss eller minus tre ganger standardavviket, men dette gjelder bare for symmetriske datasettene. Den vanligste måten å beskrive området er rett og slett å gi de laveste og høyeste verdiene i datasettet. Disse verdiene kan være nyttig for å tolke de andre statistikker siden, for eksempel, kan middelverdien av et datasett bli fordreid av en enkelt meget høy eller meget lav verdi.