Normalisering er nyttig når dataene dine har varierende skalaer og algoritmen du bruker ikke gjør antakelser om distribusjonen av dataene dine, for eksempel k-nærmeste naboer og kunstig nevrale nettverk. Standardisering forutsetter at dataene dine har en Gaussisk (klokkekurve) fordeling.
Når bør vi normalisere data?
Dataene bør normaliseres eller standardiseres for å bringe alle variablene i proporsjon med hverandre. For eksempel, hvis en variabel er 100 ganger større enn en annen (i gjennomsnitt), kan modellen din oppføre seg bedre hvis du normaliserer/standardiserer de to variablene til å være omtrent likeverdige.
Hva er forskjellen mellom normalisering og standardisering?
Normalisering betyr vanligvis omskalering av verdiene til et område på [0, 1]. Standardisering betyr vanligvis omskalering av data til å ha et middel på 0 og et standardavvik på 1 (enhetsvarians).
Når og hvorfor trenger vi datanormalisering?
I enklere termer, normalization sørger for at alle dataene dine ser ut og leses på samme måte på tvers av alle poster. Normalisering vil standardisere felt inkludert firmanavn, kontaktnavn, URL-er, adresseinformasjon (gater, stater og byer), telefonnumre og stillings titler.
Hvordan velger du normalisering og standardisering?
I næringslivet betyr "normalisering" vanligvis at verdiområdet er"normalisert til å være fra 0,0 til 1,0". "Standardisering" betyr vanligvis at verdiområdet er "standardisert" for å måle hvor mange standardavvik verdien er fra gjennomsnittet.