Matematiske og statistiske metoder for genetisk analyse

Matematiske og statistiske metoder for genetisk analyse


Genetikk er en gren av biologi opptatt med studiet av gener, variasjon, og arvelig hos dyr og planter. Matematikk og statistikk spiller en stor rolle i den disiplinen genetikk, spesielt subdiscipline av populasjonsgenetikk. Populasjonsgenetikk studerer frekvens og fordeling av ulike alleler i en bestemt populasjon av organismer og hvordan de forholder seg til andre populasjoner av organismer. Lene er deler av den genetiske koden som er knyttet til bestemte egenskaper.

Gjennomsnitt

Den mest grunnleggende form av statistisk analyse er gjennomsnittet. Det finnes tre typer gjennomsnitt: gjennomsnitt, median og modus. Middelverdien blir funnet ved å finne summen av et sett av data, og dividere denne sum med antall datapunkter. Median er funnet ved alle datapunkter i rekkefølge etter størrelse og velge midtdatapunkt. Modusen er ganske enkelt dataverdien som vises oftest. Alle tre typer av gjennomsnitt er brukt i populasjonsgenetikk, men det mest vanlige er middelverdien.

Avviks

Variansen er et mål på hvor mye verdiene i et sett med data variere. Avviket er symbolisert ved s ^ 2, eller et sigma kvadrerte symbol. Variansen beregnes ved å finne summen av kvadratet av forskjellen mellom hver verdi og den midlere verdi, og deretter dividere med en mindre enn antall datapunkter. Et eksempel på avvik kan innebære at antall plasser på en spesiell type bille. Anta det er fem biller i settet, og antall plasser på hver bille er 5, 5, 6, 6 og 8. Gjennomsnittlig er:

(5 + 5 + 6 + 6 + 8) / 5 = 6

Avviket er beregnet som følger:

[(5-6) ^ 2 + (5-6) ^ 2 + (6-6) ^ 2 + (6-6) ^ 2 + (8-6) ^ 2] / (5-1) = 1,5

Dette gir oss en indikasjon på spredningen av verdiene.

standard~~POS=TRUNC avvik~~POS=HEADCOMP

Standardavviket er et annet mål for spredning. Det er kvadratroten av variansen. Det har den fordel at den har de samme enheter som det datasettet som det er avledet fra. I det eksempel som er gitt ovenfor standardavviket er:

(1,5) ^ (0,5) = 1,22474

Dette indikerer at standardavviket i antall flekker på befolkningen i biller er ca 1.22 flekker.

Sammenheng

Korrelasjon er et mål på mengden av assosiasjon mellom to sett med data. I populasjonsgenetikk, kan korrelasjoner brukes til å studere sammenhengen mellom besittelse av bestemte gener og forekomster av bestemte egenskaper. Korrelasjon er symbolisert ved et r med senket xy, der x og y er variablene i de to settene med data. Korrelasjoner er alltid mellom -1 og 1. -1 betyr at det er en negativ korrelasjon, 0 betyr at det ikke er noen sammenheng, og en betyr at det er en positiv korrelasjon.

regresjon

Regresjon er en statistisk verktøy som brukes for å finne forholdet mellom to variabler. Regresjonskoeffisienten er gitt symbolet b med senket yx, hvor y og x har de variable av de to datasettene. Regresjonskoeffisienten måler spådd endring i ay variabel per en enhet endring i variabelen x.

Genetiske lidelser nomenklatur

Når man diskuterer genetisk lidelse, er det flere tekniske termer som beskriver mønsteret av uorden i den generelle befolkningen. Disse vilkårene omfatter forekomst, utbredelse, dødelighet og levetid risiko. Forekomsten av en genetisk lidelse er andelen personer i befolkningen med en bestemt genetisk lidelse. Forekomsten av en genetisk lidelse er antall mennesker innenfor en bestemt undergruppe, for eksempel en bestemt aldersgruppe, som har en bestemt genetisk lidelse. Dødelighet refererer til det antall personer i en bestemt gruppe som dør av en spesiell lidelse per år. Et eksempel på en dødelighet statistikk kan være "10 000 mennesker i USA døde av syndrom X i 2010." Livstidsrisikoen er den gjennomsnittlige risikoen for å utvikle en bestemt genetisk lidelse på et tidspunkt i en persons liv.