Embedding

Generative AI 詠唱者忘年會 - 我也會說脫口秀

昨天解鎖了在脫口秀場地講脫口秀的成就?! 這一次Generative AI 詠唱者忘年會的場地,竟然是卡美地+喜劇俱樂部,是真的人家講脫口秀的場地。我懷疑昨天每一個講者,都有偷偷努力想段子,用脫口秀的形式在講AI。 不得不說,場地有趣,觀眾超讚,跟所有參與者,完成了一次非常好玩的演講體驗,非常感謝 慕約 的邀請。 每次參加 布丁 跟慕約的Gen AI活動,如果自己要上台,壓力都很大,觀眾裡面都臥虎藏龍,每一個同台的講者都超級認真,乾貨滿滿,變成自己都要花比平常多好幾倍的力氣做準備,不然會丟臉。 昨天也跟其他講者學習了很多,AI跑得太快,一不小心我們現在做的都變傳統,透過社群彼此學習可以快速成長。 昨天我所分享的內容,只是我們到目前的探索,還有很多未知的領域,甚至今天都不知道對不對的做法。像昨天講到兩個向量空間,直接用向量相加揉在一起變成一個新的向量空間,布丁就直接 comment 說這是錯的吧XD。 如果對昨天的演講內容有興趣的朋友,簡報檔在這裡。也歡迎給我建議。 簡報檔 https://happylee.blog/rs/

Happy Lee 李昆謀
Happy Lee 李昆謀
演講

用Embedding尋找相似性的相關討論

ChatGPT教我的事 Q: 餘弦距離與歐式距離計算相似度的差異,如果我要計算的是兩篇文章之間的內容的相似度,什麼比較適合? A: 餘弦距離(Cosine Similarity)和歐式距離(Euclidean Distance)都是常見的相似度(或距離)度量方法。然而,對於文本的相似度比較,兩者有著顯著的差異。 餘弦距離是基於兩個向量的夾角來度量它們的相似度的。它比較的是兩個向量的方向,而不是它們的大小。換句話說,如果兩篇文章的主題相同,即使一篇文章長度比另一篇文章長得多,餘弦相似性仍可能是高的。這對於文本相似度的比較非常有用,因為我們通常對文章的主題或內容更感興趣,而不是文章的長度。 歐式距離是基於兩個點在空間中的實際距離來度量它們的相異度的。這種方法對於兩篇文章的長度非常敏感。如果一篇文章的長度遠大於另一篇文章,即使它們的內容非常相似,它們的歐式距離可能也會非常大。這在比較文本相似性時可能不是我們想要的。 因此,如果你要計算兩篇文章之間的內容相似度,餘弦相似度通常會是一個更好的選擇。你可以將每篇文章轉換為一個「詞袋」(bag-of-words)向量或一個TF-IDF向量

Happy Lee 李昆謀
Happy Lee 李昆謀
Embedding
Clicky