Beslutning Tre algoritmen i Data Mining
En beslutning treet er en datamaskin krevende statistisk metode for å kategorisere elementer, inkludert slike ting som folk, bedrifter, nettsider eller noe annet basert på variabler. Det er spesielt nyttig når det er et stort antall variabler, som kan interagere statistisk.
Økende a Tree
En beslutning treet begynner med alle fag i en gruppe. Programmet går deretter gjennom hver mulig oppdeling av hver variabel, for å finne den beste måten å splitte den noden i to noder. Hvert av disse nodene blir deretter delt igjen, og så videre, inntil kriteriene for stopping er oppfylt. Disse kriteriene kan settes av brukeren og inkluderer slike ting som størrelsen på en node, renhet på en node, størrelsen på barnet noder og andre kriterier.
Beskjæring a Tree
Forskning viser at det er bedre å vokse et stort tre og deretter beskjære det. Ulike metoder for beskjæring eksisterer, men alle er basert på ideen om å få et tre som er stabil; en som fungerer ikke bare med prøven du har, men på andre prøvene også.
Cross-validere et tre
Ideelt sett vil du nok data til å vokse og beskjære et tre på en del av dine data og deretter teste den på en annen del av dine data. Hvis dette ikke er mulig, finnes det andre metoder for kryss-validering av trær.
fordeler
En fordel å beslutningstrær er at produksjonen er lett å forklare for folk uten statistisk trening. En annen fordel er at de tillater deg å se på samspillet som oppstår i bare enkelte deler av dataene.