Ulempene ved lineær regresjon

Lineær regresjon er en statistisk metode for å undersøke forholdet mellom en avhengig variabel, og en eller flere uavhengige variabler. Den avhengige variabelen må være sammenhengende (dvs. i stand til å ta på en hvilken som helst verdi) eller i det minste nær kontinuerlig. De uavhengige variablene kan være av hvilken som helst type. Selv om regresjon ikke kan vise kausalitet av seg selv, er avhengig variabel vanligvis påvirkes av de uavhengige variablene.

Bare Ser på lineære sammenhenger

Ved sin natur, lineær regresjon bare ser på lineære sammenhenger mellom avhengige og uavhengige variabler. Det vil si at det forutsetter at det er et lineært forhold mellom dem. Noen ganger er dette feil. For eksempel er forholdet mellom inntekt og alder buet, dvs. en tendens inntekt til å stige i de tidlige deler av voksenlivet, flate ut i senere voksen alder og nedgang etter folk pensjonere. Du kan se om dette er et problem ved å se på grafiske fremstillinger av forholdet.

Bare ser på Mean av den avhengige variabelen

Lineær regresjon ser ved et forhold mellom den midlere av den avhengige variable, og de uavhengige variabler. For eksempel, hvis du ser på forholdet mellom fødselsvekt spedbarn og mors egenskaper som alder, vil lineær regresjon se på den gjennomsnittlige vekten av babyer født av mødre i ulike aldre. Men noen ganger trenger du å se på ytterpunktene av den avhengige variabelen, for eksempel, babyer er i fare når deres vekter er lave, slik at du ønsker å se på ytterpunktene i dette eksemplet.

På samme måte som middelverdien er ikke en fullstendig beskrivelse av en enkelt variabel, er lineær regresjon ikke en fullstendig beskrivelse av relasjoner mellom variabler. Du kan håndtere dette problemet ved hjelp quantile regresjon.

Følsom for Outliers

Uteliggere er data som er overraskende. Uteliggere kan være univariate (basert på en variabel) eller multivariate. Hvis du ser på alder og inntekt, ville univariate uteliggere være ting som en person som er 118 år gammel, eller en som har gjort $ 12 millioner i fjor. En multivariat uteliggeren ville være en 18-åring som har gjort $ 100.000. I dette tilfellet, verken alder eller inntekten er veldig ekstrem, men svært få 18-år-gamle folk gjør så mye penger.

Uteliggere kan ha store effekter på regresjon. Du kan håndtere dette problemet ved å be om innflytelse statistikk fra statistisk programvare.

Dataene må være uavhengig

Lineær regresjon antar at dataene er uavhengige. Det betyr at resultatet av en gjenstand (for eksempel en person) har ingenting å gjøre med de av en annen. Dette er ofte, men ikke alltid, fornuftig. To vanlige tilfeller hvor det ikke gir mening er clustering i tid og rom.

Et klassisk eksempel på gruppering i verdensrommet er student testresultater, når du har studenter fra ulike klasser, karakterer, skoler og skolekretser. Studenter i samme klasse pleier å være like på mange måter, det vil si, de kommer ofte fra samme nabolag, de har de samme lærerne osv Dermed er de ikke er uavhengige.

Eksempler på gruppering i tid er noen studier der man måler samme fag flere ganger. For eksempel i en studie av kosthold og vekt, kan du måle hver person flere ganger. Disse dataene er ikke uavhengige fordi hva en person veier ved en anledning er relatert til hva han eller hun veier ved andre anledninger. En måte å håndtere dette på er med multilevel-modeller.