Hvordan bruke avviks Inflasjon Factor i store utvalgsstørrelser

Hvordan bruke avviks Inflasjon Factor i store utvalgsstørrelser


Variansen inflasjon faktor er et mål på kollinearitet i multippel regresjon. Multippel regresjon er en statistisk teknikk for å undersøke forholdet mellom en kvantitativ avhengig variabel, og mer enn en uavhengig variabel. Kollinearitet oppstår når de uavhengige variablene er sterkt relatert til hverandre. For eksempel, hvis vi var interessert i forholdet mellom ulike kropps dimensjoner (som benlengde, arm lengde, skulderbredde og så videre) og kroppsvekt, er det sannsynlig at det ville være kollinearitet blant de uavhengige variablene. Prøvestørrelsen er ikke relevant for beregning av variansen inflasjons faktorer. Det er en VIF for hver uavhengige variabelen.

Bruksanvisning

1 Beregne varians inflasjon faktorer for regresjon. I SAS, kan du gjøre dette med VIF alternativet på MODELL uttalelse i PROC REG. I R, kan du gjøre det med VIF-funksjonen i bilen pakken, som er tilgjengelig fra CRAN. Hvis statistikk pakken ikke beregne VIF, kan det bli beregnet som 1 / (1 - R (k) ^ 2), hvor R (k) ^ 2 er R ^ 2-verdi fra regresjon av den k-te uavhengige variabelen i andre uavhengige variabler.

2 Vurdere omfanget av kollinearitet. VIF for variable k er et mål på hvor mye variansen av koeffisienten for denne variabelen i den opprinnelige regresjonen er oppblåst. VIFs over 4 er muligens problematisk; VIFs over 10 er mer definitivt problematisk.

3 Finne kilden til kollinearitet, hvis den finnes. En måte å gjøre dette på er å se på sammenhenger av den problematiske variabel med de andre uavhengige variablene og se hvilke som er høyest.

4 Bestemme hva du skal gjøre om kollinearitet. Alternativene inkluderer fjerning av variabler, ved hjelp av delvis minste kvadrat regresjon eller bruke ryggen regresjon. Valget vil avhenge av omstendighetene. Hvis en variabel ikke er nøkkelen til etterforskningen, fjerner det kan være bra. Hvis variablene har ingen sterk vesentlige betydning, da er delvis minste kvadraters et godt valg. Dersom alle variablene er viktig, da ridge regresjon er et godt valg.