Beskrivende diskriminant analyse

Hvis du har to eller flere grupper av fag og flere variabler om hvert fag, og du vil finne ut hvordan gruppene skiller seg på variabler, vil du bruke beskrivende diskriminant analyse. Beskrivende diskriminantfunksjoner analyse viser hvilke variabler er best på å skille en gruppe fra den andre.

Funksjon

Beskrivende diskriminant analyse gjør det mulig å beskrive to eller flere grupper av fag (for eksempel mennesker) i form av variablene som du har tilgjengelig og på måter som gjør forskjellene mellom gruppene så stor som mulig. Den bruker informasjon om middelverdier og standardavvik av variabler for å skape vektede kombinasjoner av variable som skiller gruppene.

typer

De to brede typer diskriminant analyse er parametrisk og parametriske. Parametrisk diskriminant analyse foruts fordelingen av hver gruppe er multivariat normalt. Nonparametric diskriminant analyse slapper denne forutsetningen, på noen kostnader ved makten.

Typer av Parametrisk diskriminant analyse

Den vanligste typen av parametre diskriminant analyse er Fisher lineær diskriminant analyse, noe som skaper lineære kombinasjoner av de variable. Det vil si at verdien av hver variabel er multiplisert med en konstant, og da disse produkter er lagt sammen for å skape en diskriminant poengsum. Et alternativ er kvadratisk diskriminant analyse, som legger kvadratiske ledd.

Typer av parametrisk diskriminant analyse

To vanlige typer nonparametric diskriminant analyse er kjernen og k-nærmeste nabo. Kjernen diskriminant analyse anslår fordelingen av variablene i hver gruppe ved hjelp av én av en rekke komplekse funksjoner som er kjent som anslag kjernetetthet. Dette er nødvendig fordi når fordelingen av noen variable ikke er normal, gjennomsnitt og standardavvik er ikke nok å beskrive fordelingen.

K-nærmeste nabo metoder først definere "nærhet" og deretter forsøke å finne grupper av motiver som er så nær som mulig til hverandre.

Opplæring og test datasett

Alle fremgangsmåter for diskriminant analyse blir vanligvis utviklet på et treningsdatasett og deretter testet på en separat testdatasettet. Den vanlige metoden innebærer tilfeldig splitte den opprinnelige datasettet i to, og ved hjelp av en for trening og den andre for testing.