Beslutning Tre algoritmen i Data Mining

En beslutning treet er en datamaskin krevende statistisk metode for å kategorisere elementer, inkludert slike ting som folk, bedrifter, nettsider eller noe annet basert på variabler. Det er spesielt nyttig når det er et stort antall variabler, som kan interagere statistisk.

Økende a Tree

En beslutning treet begynner med alle fag i en gruppe. Programmet går deretter gjennom hver mulig oppdeling av hver variabel, for å finne den beste måten å splitte den noden i to noder. Hvert av disse nodene blir deretter delt igjen, og så videre, inntil kriteriene for stopping er oppfylt. Disse kriteriene kan settes av brukeren og inkluderer slike ting som størrelsen på en node, renhet på en node, størrelsen på barnet noder og andre kriterier.

Beskjæring a Tree

Forskning viser at det er bedre å vokse et stort tre og deretter beskjære det. Ulike metoder for beskjæring eksisterer, men alle er basert på ideen om å få et tre som er stabil; en som fungerer ikke bare med prøven du har, men på andre prøvene også.

Cross-validere et tre

Ideelt sett vil du nok data til å vokse og beskjære et tre på en del av dine data og deretter teste den på en annen del av dine data. Hvis dette ikke er mulig, finnes det andre metoder for kryss-validering av trær.

fordeler

En fordel å beslutningstrær er at produksjonen er lett å forklare for folk uten statistisk trening. En annen fordel er at de tillater deg å se på samspillet som oppstår i bare enkelte deler av dataene.