Introduksjon til Kernel Density Estimering

January 29

Kernel Density Estimering er en statistisk metode for å representere en rekke data. Kernel Density Estimering relatert til histogrammer, og tilbyr en måte å beregne fordelingen av en variabel i befolkningen. Fremgangsmåten er forholdsvis sofistikert men resultatene en visuell tolkning av en variabel sannsynlig tetthet, med andre ord, med hvilken en variabel vises frekvensen i en populasjon.

Bruker

Kjernen Tetthet Estimering anslår form av en tetthetsfunksjon. En tetthetsfunksjonen viser frekvensen som en variabel vises i et tilfeldig utvalg av befolkningen. The Kernel Density Estimering er ansett som en ikke-parametrisk metode. I statistikken er det parametrisk og ikke-parametriske metoder. Parametriske metoder gjøre flere forutsetninger enn ikke-para seg. Ingen forutsetninger om fordeling, midler, eller standardavvik er nødvendig i ikke-parametrisk statistikk. For eksempel, hvis du ønsket å vite om den tiende test i et klasserom ville ha en høyere poengsum enn den første ni, i para resonnement du må vite gjennomsnitt og standardavvik for å utlede et svar. I ikke-parametrisk resonnement, er det bare å vite antall test er nok til å vite den siste testen har en 10 prosent sjanse for å være over de tidligere score.

Kernel

The Kernel Density Estimering har to viktige komponenter: kjernen og båndbredde. The Kernel er tetthetsfunksjonen. Det er seks vanlige typer funksjoner tetthet i ikke-parametrisk statistikk: normal, uniform, trekantet, Epanechnikov, kvar, triweight og cosinus. Hver av disse funksjoner blir brukt til å beregne hyppigheten av en stokastisk variabel i en populasjon.

båndbredde

Den andre komponent, båndbredden, jevner ut de resulterende dataene fra tetthetsfunksjonen av kjernen. Båndbredden har derfor sterkt påvirker visuell representasjon av data. En taggete linje kan bli gradvis glattet inntil dataene er så omskrevet at det ikke lenger er nyttig. I kjernen tetthet estimering formel, er båndbredden representeres av bokstaven h. Det må være positiv og resultere i en fordeling som summerer til en.

Fordeler

Kernel Density Estimering har fordeler til andre ikke-parametrisk estimering metoder, spesielt histogrammer. Histogram representerer fordelingen av en variabel i binger langs en horisontal rekkevidde. Stablede hyller representerer en større tetthet av den variable i sektoren av dataene. Fordi histogrammer symbolisere data gjennom binger, er variabelen compartmentalized og forskjellige distribusjoner er hakkete og diskret, ikke ekte væsken fordelingen av en variabel som virkelig eksisterer i en befolkning. Kjernen Tetthet Estimering bedre representerer denne fluiditet med jevn linje, hvis glatthet bestemmes av båndbredden valgt i formel kjernen tetthet.