Hvordan finne et problem med et restplott

I statistikk residualene er forskjellene mellom verdiene for den avhengige variabel forutsagt av modellen og verdiene av selve avhengig variabel. Ordinær regresjon forutsetter at residualene er normalfordelt. Det forutsetter også at variansen av restene er konstant over nivået av de uavhengige variable, og at restene ikke er relatert til den uavhengige. En måte å sjekke de to siste forutsetningene er å se på en restplott, som plotter en uavhengig variabel på x-aksen og residualene på y-aksen.

Bruksanvisning

1 Sjekk for endring i spredning av variansen som uavhengig variabel øker. Ser på restene i nærheten av den nedre ende av den x-aksen, nær midten av x-aksen og nær den øvre ende. Avstanden mellom høyeste og laveste rest bør være omtrent lik på tvers av nivåer av den uavhengige variabelen. Hvis de ikke er det, har du et problem som kalles heteroskedastisitet.

2 Se etter en økning eller reduksjon i residualene som uavhengig variabel øker. På alle nivåer av den uavhengige variabelen, residualene bør være sentrert rundt 0. Det bør være verken en økning eller nedgang, eller bør det være en U-formet mønster (lav i midten, høy i begge ender) eller en omvendt U -formet mønster. Tomten skal se ut som en blob. Hvis den ikke gjør det, da har du et problem med variabler som er i modellen.

3 Se etter uteliggere. Ingen gjenværende burde være mye høyere enn de andre. Hvis ett punkt hopper ut, eller noen få gjør, enten mye lavere eller mye høyere enn de andre, da de kan være assosiert med utliggere. Dette kan være en dataregistrering feil, eller det kan være en svært uvanlig sak.