Når skal man normalisere eller standardisere data?

Innholdsfortegnelse:

Når skal man normalisere eller standardisere data?
Når skal man normalisere eller standardisere data?
Anonim

Normalisering er nyttig når dataene dine har varierende skalaer og algoritmen du bruker ikke gjør antakelser om distribusjonen av dataene dine, for eksempel k-nærmeste naboer og kunstig nevrale nettverk. Standardisering forutsetter at dataene dine har en Gaussisk (klokkekurve) fordeling.

Når bør vi normalisere data?

Dataene bør normaliseres eller standardiseres for å bringe alle variablene i proporsjon med hverandre. For eksempel, hvis en variabel er 100 ganger større enn en annen (i gjennomsnitt), kan modellen din oppføre seg bedre hvis du normaliserer/standardiserer de to variablene til å være omtrent likeverdige.

Hva er forskjellen mellom normalisering og standardisering?

Normalisering betyr vanligvis omskalering av verdiene til et område på [0, 1]. Standardisering betyr vanligvis omskalering av data til å ha et middel på 0 og et standardavvik på 1 (enhetsvarians).

Når og hvorfor trenger vi datanormalisering?

I enklere termer, normalization sørger for at alle dataene dine ser ut og leses på samme måte på tvers av alle poster. Normalisering vil standardisere felt inkludert firmanavn, kontaktnavn, URL-er, adresseinformasjon (gater, stater og byer), telefonnumre og stillings titler.

Hvordan velger du normalisering og standardisering?

I næringslivet betyr "normalisering" vanligvis at verdiområdet er"normalisert til å være fra 0,0 til 1,0". "Standardisering" betyr vanligvis at verdiområdet er "standardisert" for å måle hvor mange standardavvik verdien er fra gjennomsnittet.

Anbefalt: