Hva er R2 Lineær regresjon?

Hva er R2 Lineær regresjon?


Statistikere og forskere har ofte et krav om å undersøke forholdet mellom to variabler, ofte kalt x og y. Hensikten med å teste eventuelle to slike variabler er vanligvis å se om det er noen sammenheng mellom dem, kjent som en korrelasjon i vitenskap. For eksempel kan en forsker ønsker å vite om timer med soling kan være knyttet til forekomst av hudkreft. Til matematisk å beskrive styrken av en korrelasjon mellom to variabler, slike søkerne ofte R2.

lineær regresjon

Statistikere bruke teknikken for lineær regresjon for å finne den rette linjen som passer best til en serie av x og y dataparene. De gjør dette gjennom en rekke beregninger som stammer ligningen av den beste linje. Denne matematiske beskrivelsen av linjen vil være en lineær ligning, og har den generelle form av y = mx + b, hvor x og y er de to variablene i dataparene, m er helningen av linjen, og b er dens y-aksen.

Korrelasjonskoeffisient

Beregningene som finner den beste rette linje vil frembringe en lineær ligning for å passe hvilken som helst sett av data, selv om dataene ikke er faktisk meget lineær. For å få en indikasjon på hvor godt dataene faktisk passer en rett linje, statistikere også beregne et tall kjent som korrelasjonskoeffisienten. Dette er gitt symbolet R eller R, og er et mål på hvor tett på linje dataparene er den beste rette linje gjennom dem.

Betydningen av R

R kan ha en hvilken som helst verdi mellom -1 og 1. En negativ verdi for R betyr ganske enkelt at de best tilpassede rette linje skrår nedover beveger seg mot venstre til høyre i stedet for oppover. Jo nærmere R er enten en av de to ytterpunktene, jo bedre tilpasning av datapunktene til den linje, med enten -1 eller 1 er en perfekt tilpasning og en R-verdi på null betyr at det ikke er noen tilpasning, og punktene er helt tilfeldig. Hvis datapunktene er godt justert til rett linje, er det sies å være noen sammenheng mellom dem, derav navnet korrelasjonskoeffisient for R.

R2

Noen statistikere foretrekker å arbeide med verdien av R2, som er rett og slett den korrelasjonskoeffisient kvadrat, eller multiplisert med seg selv, og er kjent som koeffisienten. R2 er svært lik R, og også beskriver korrelasjonen mellom de to variable, men det er også litt annerledes. Den måler den prosentvise variasjon i y-variabel som kan tilskrives variasjoner i x variabel. En R2-verdi på 0,9, for eksempel betyr at 90 prosent av variasjonen i y-data er på grunn av variasjon i x-data. Dette betyr ikke nødvendigvis at x er virkelig påvirker y, men at det ser ut til å gjøre det.