Normalisering brukes for å eliminere overflødige data og sikrer at det genereres klynger av god kvalitet som kan forbedre effektiviteten til klyngealgoritmer. Så det blir et viktig trinn før klynging som euklidisk avstand er veldig følsom for endringene i forskjellene[3].
Må vi normalisere data for K-betyr-klyngning?
Som i k-NN-metoden, må egenskapene som brukes for clustering måles i sammenlignbare enheter. I dette tilfellet er ikke enheter et problem siden alle 6 karakteristikkene er uttrykt på en 5-punkts skala. Normalisering eller standardisering er ikke nødvendig.
Hvordan forbereder du data før gruppering?
Dataforberedelse
For å utføre en klyngeanalyse i R, generelt, bør dataene forberedes som følger: Rader er observasjoner (individer) og kolonner er variabler. Eventuelle manglende verdier i dataene må fjernes eller estimeres. Dataene må standardiseres (dvs. skaleres) for å gjøre variabler sammenlignbare.
Bør data skaleres for clustering?
I clustering beregner du likheten mellom to eksempler ved å kombinere alle funksjonsdataene for disse eksemplene til en numerisk verdi. Kombinering av funksjonsdata krever at dataene har samme skala.
Hvorfor er det viktig å normalisere funksjoner før gruppering?
Standardisering er et viktig trinn for dataforbehandling.
Som forklart i denne artikkelen, minimerer k-betyret feilfunksjonen ved å bruke Newton-algoritmen, dvs. en gradientbasert optimaliseringsalgoritme. Normalisering av dataene forbedrer konvergensen av slike algoritmer.