Metoder for bygger gyldigheten av en test

To viktige egenskaper av en test er pålitelighet og gyldighet. I lekmann vilkår, er pålitelighet et mål på om score på en test er repeterbare og internt konsistent. Gyldighet er en målestokk på om testen måler hva du tror det måler. Gyldighet er mye vanskeligere å vurdere, og det er flere måter å gjøre det.

Face Gyldighet

Face validitet betyr at spørsmålene på testen vises gyldig "på sitt ansikt". For eksempel, i en test av aritmetikk for tredjeklassinger, spørsmål om multiplikasjon og divisjon ville ha høy ansikt gyldighet. Formålet med aritmetisk test ville være klart for studentene, men hensikten med spørsmål om verb og substantiv er kanskje ikke så opplagt for tredje-klassinger, og at testen ville ha lav ansikt gyldighet. Vanligvis er ansikt gyldighet antatt, men noen ganger et spørsmål kan være gyldig på andre måter, men ikke ansikt gyldig. .

Criterion Gyldighet (også kjent som kriterium Relaterte Gyldighet)

Kriterium gyldighet vurderer resultatene av en test sammenlignet med noe kriterium som allerede har blitt validert. Ofte den nye testen er billigere eller mer praktisk enn tidligere test. For eksempel kan du vurdere gyldigheten av en kjøresimulator ved å sammenligne den med ytelse i en faktisk bil. Dersom simulatoren hadde god gyldighet, kan det være en billigere (og en mindre farlig) måte å vurdere kjøre dyktighet.

Konstruer Gyldighet

Begrepsvaliditet måler forholdet mellom score på en test og tiltak av andre teoretiske utlegninger. Det finnes to typer begrepsvaliditet: Konvergent og diskriminere. Konvergent validitet betyr at resultatet på en test bør korrelerer sterkt med score på tester av beslektede konstruksjoner. Diskriminere gyldighet betyr at poengsummene bør korrelerer dårlig med score på tester av urelaterte konstruksjoner. For eksempel bør score på en test av depresjon korrelerer mer høyt med score på angst tester enn med score på tester av aritmetikk.

innhold Gyldighet

Innhold gyldighet betyr at test dekker hele spekteret av materiale som den er beregnet til å måle. Det er vanligvis vurderes ved å konsultere eksperter på området. For eksempel bør en test av aritmetikk dekker alle områder av aritmetiske som har blitt dekket av barn i en bestemt klasse. For et annet eksempel, bør en test av kjøreferdigheter dekker alle ferdigheter som er nødvendige for å kjøre en bil.