Cosinuslikhet brukes vanligvis som en metrikk for måling av avstand når størrelsen på vektorene ikke spiller noen rolle. Dette skjer for eksempel når du arbeider med tekstdata representert ved antall ord.
Når bør jeg bruke cosinuslikhet?
Cosinuslikhet måler likheten mellom to vektorer i et indre produktrom. Den måles ved cosinus til vinkelen mellom to vektorer og bestemmer om to vektorer peker i omtrent samme retning. Den brukes ofte til å måle dokumentlikhet i tekstanalyse.
Hvorfor bruke cosinuslikhet i stedet for euklidisk avstand?
Cosinuslikheten er fordelaktig fordi selv om de to lignende dokumentene er langt fra hverandre på den euklidiske avstanden på grunn av størrelsen (som ordet "cricket" dukket opp 50 ganger i ett dokument og 10 ganger i et annet) har fortsatt en mindre vinkel mellom dem. Mindre vinkel, større likhet.
Hva er forskjellen mellom cosinuslikhet og euklidisk avstand?
I denne artikkelen har vi studert de formelle definisjonene av euklidisk avstand og cosinuslikhet. Den euklidiske avstanden tilsvarer L2-normen for en forskjell mellom vektorer. Cosinuslikheten er proporsjonal med prikkproduktet til to vektorer og omvendt proporsjonal med produktet av deres størrelser.
Hva er forskjellen mellom cosinuslikhet og cosinusavstand?
Vanligvis bruker folk cosinuslikheten som en likhetsmetrikk mellom vektorer. Nå kan avstanden defineres som 1-cos_similarity. Intuisjonen bak dette er at hvis 2 vektorer er helt like, så er likheten 1 (vinkel=0) og dermed er avstanden 0 (1-1=0).