Hvordan beregne Imputation

August 29

I statistikken er imputering substitusjon av noen verdi for en manglende datapunkt. Manglende data kan oppstå, for eksempel i undersøkelser hvor noen spørsmål er igjen ubesvart. De fleste standard statistiske metoder krever hver rekord felt som skal fylles. En annen grunn for imputering er at, med mindre de tomme cellene er fylt med data, mange statistiske pakker vil, som standard, slette posten (kalt listwise eller Casewise sletting).

Bruksanvisning

Marginal og Betinget Mean Imputation

1 Finn den gjennomsnittlige verdien av den uavhengige variabelen som har manglende data.

2 Sett dette gjennomsnitt i hver tom celle der det uavhengige variabelen ikke ble rapportert.

3 Utfør listwise sletting å beregne betinget imputering.

4 Regress alle variablene på variabel med manglende data ved hjelp av statistisk programvare.

5 Bruk relasjoner fra at regresjon til å forutsi hva de manglende data skal være. Så hvis de uavhengige variablene er X1, X2 og X3, og X1 har manglende data, og deretter bruke verdiene av X2 og X3 til å forutsi den manglende verdi av X1 for hver post med manglende X1.

Double Imputation

6 Utfør listwise sletting.

7 Regress alle variablene på variabel med manglende data ved hjelp av statistisk programvare.

8 Beregn standardavviket av restene av den variable av manglende data.

9 Bruk relasjoner fra at regresjon til å forutsi hva de manglende data skal være.

10 Tilfeldig trekke et tall, "u", fra en standard normalfordeling for hvert imputering.
Multipliser "u" ved standardavvik fra trinn 3, og legge produktet til godtgjørelses som "u" ble trukket. Gjør dette for hver imputering, med en ny "u" for hver enkelt. Dette legger et tilfeldig element til imputations, adressering falsk sammenheng mellom manglende data variabel og avhengig variabel som imputing opprettet.

Hint

SAS har en prosedyre kalt MI som gjør multiplum imputation.The maximum likelihood metoden gir også en behandling av manglende data, men dobbelt godtgjørelses har alle sine fordeler og krever ikke kjennskap til sannsynlighetsfordelingsfunksjonene.
Listwise sletting kan føre til partisk resultater hvis ikke-rapportering korrelerer med en viss variabel value.Marginal bety imputering er kjent for å produsere partisk estimater av avvik og kovarians og derfor bør være avoided.Conditional bety imputering, fordi det ikke bidrar til tilfeldigheten feilene, fører til en undervurdering av de vanlige feilene. Dette i sin tur fører til en overestimert av teststatistikk, for eksempel F-forholdet, som ikke måle så mye variasjon som den ville hvis de manglende data ble ikke manglet. Derfor p-verdier ende opp undervurdert, og nullhypotesen er altfor lett avvist. Doble imputering adresser dette problemet.