余弦距離,也稱為余弦相似度,是用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小的度量。
向量,是多維空間中有方向的線段,如果兩個向量的方向一致,即夾角接近零,那么這兩個向量就相近。而要確定兩個向量方向是否一致,這就要用到余弦定理計算向量的夾角。
余弦定理描述了三角形中任何一個夾角和三個邊的關系。給定三角形的三條邊,可以使用余弦定理求出三角形各個角的角度。假定三角形的三條邊為a,b和c,對應的三個角為A,B和C,那么角A的余弦為:
如果將三角形的兩邊b和c看成是兩個向量,則上述公式等價于:
其中分母表示兩個向量b和c的長度,分子表示兩個向量的內積。
舉一個具體的例子,假如新聞X和新聞Y對應向量分別是:
x1, x2, ..., x6400和
y1, y2, ..., y6400
則,它們之間的余弦距離可以用它們之間夾角的余弦值來表示: