Embedding

用Embedding尋找相似性的相關討論
ChatGPT教我的事 Q: 餘弦距離與歐式距離計算相似度的差異,如果我要計算的是兩篇文章之間的內容的相似度,什麼比較適合? A: 餘弦距離(Cosine Similarity)和歐式距離(Euclidean Distance)都是常見的相似度(或距離)度量方法。然而,對於文本的相似度比較,兩者有著顯著的差異。 餘弦距離是基於兩個向量的夾角來度量它們的相似度的。它比較的是兩個向量的方向,而不是它們的大小。換句話說,如果兩篇文章的主題相同,即使一篇文章長度比另一篇文章長得多,餘弦相似性仍可能是高的。這對於文本相似度的比較非常有用,因為我們通常對文章的主題或內容更感興趣,而不是文章的長度。 歐式距離是基於兩個點在空間中的實際距離來度量它們的相異度的。這種方法對於兩篇文章的長度非常敏感。如果一篇文章的長度遠大於另一篇文章,即使它們的內容非常相似,它們的歐式距離可能也會非常大。這在比較文本相似性時可能不是我們想要的。 因此,如果你要計算兩篇文章之間的內容相似度,餘弦相似度通常會是一個更好的選擇。你可以將每篇文章轉換為一個「詞袋」(bag-of-words)向量或一個TF-IDF向量