Hva er Gaussian distribusjon?

December 20

I statistikk er gaussisk, eller normal, fordeling som brukes til å karakterisere komplekse systemer med mange faktorer. Som beskrevet i Stephen Stigler er The History of Statistics, Abraham De Moivre oppfunnet fordelingen som bærer Karl Fredrick Gauss navn. Gauss bidrag lå i sin anvendelse for distribusjon til minste kvadraters metode for å minimere feil ved festing av data med en linje med beste tilpasning. Han dermed gjort det den viktigste feilfordeling i statistikk.

Motivasjon

Hva er fordelingen av et utvalg av data? Hva om du ikke kjenner dataunderliggende fordeling? Er det noen måte å teste hypoteser om dataene uten å vite den underliggende fordelingen? Takket være den sentrale grensesetningen, er svaret ja.

Erklæring om Theorem

Den sier at en prøve bety fra en uendelig populasjon er omtrent normal, eller Gaussisk, med bety det samme som det underliggende befolkning, og varians lik populasjonsvariansen dividert med prøvestørrelsen. Tilnærmingen forbedrer som utvalgsstørrelsen blir stor.

Tilnærming uttalelsen er noen ganger feilinformasjon som en konklusjon om konvergens til en normalfordeling. Siden tilnærmet normale distribusjons endringer som utvalgsstørrelsen øker, er en slik uttalelse misvisende.

Teoremet ble utviklet av Pierre Simon Laplace.

Hvorfor det er overalt

Normalfordelinger er allestedsnærværende. Årsaken kommer fra sentralgrensesetningen. Ofte, når en verdi blir målt, er det summen effekten av mange uavhengige variabler. Derfor er den verdi som måles i seg selv har en sample-midlere kvalitet til den. For eksempel kan en fordeling av utøverens prestasjoner har en klokkeform, som følge av forskjeller i kosthold, trening, genetikk, coaching og psykologi. Selv menns høyder har en normal fordeling, å være en funksjon av mange biologiske faktorer.

Gaussisk copulas

Hva kalles en "copula funksjon" med en gaussisk fordeling var i nyhetene i 2009 på grunn av sin bruk i vurderingen av risikoen for å investere i collateralized obligasjoner. Misbruk av funksjonen var instrumental i finanskrisen i 2008-2009. Selv om det var mange årsaker til krisen, i ettertid Gaussian distribusjoner sannsynligvis ikke burde ha blitt brukt. En funksjon med en tykkere hale ville ha gitt større sannsynlighet bivirkninger.

derivasjon

Den sentrale grensesetningen kan påvises i mange linjer ved å analysere øyeblikket genererer funksjon (MGF) av (utvalgsgjennomsnitt - populasjon)? / (Populasjonsvariansen / utvalgsstørrelsen) som en funksjon av mgf av den underliggende befolkningen. Tilnærmingen del av teoremet er innført ved å utvide den underliggende befolkningens mgf som en potensrekke, så viser de fleste vilkårene er ubetydelig som utvalgsstørrelsen blir stor.

Det kan påvises i langt færre linjer ved hjelp av en Taylor-ekspansjon på den karakteristiske ligningen for den samme funksjon, og gjør det prøvestørrelsen stor.

Computational Convenience

Noen statistiske modeller anta feilene å være Gaussian. Dette gjør det mulig fordelinger av funksjoner av vanlige variable, som den chi-square og F-fordeling, som skal brukes i hypotesetesting. Nærmere bestemt, i den F-test, F-statistikken sammensatt av et forhold av chi-kvadrat fordelinger, som i seg selv er funksjoner av en normal varians-parameteren. Forholdet mellom de to årsakene variansen å kansellere ut, slik at hypotesetesting uten kunnskap om avvik bortsett fra sin normalitet og utholdenhet.