雅卡爾指數(英語:Jaccard index),又稱為交並比Intersection over Union)、雅卡爾相似係數Jaccard similarity coefficient),是用於比較樣本集的相似性與多樣性的統計量。雅卡爾係數能夠量度有限樣本集合的相似度,其定義為兩個集合交集大小與併集大小之間的比例:

集合A與B的交集與聯集

如果AB完全重合,則定義J(A,B) = 1。於是有

雅卡爾距離Jaccard distance)則用於量度樣本集之間的不相似度,其定義為1減去雅卡爾係數,即

此外,亦有人將雅卡爾距離定義兩集合對稱差的大小與併集大小之間的比例。

雅卡爾距離是所有有限樣本集合間的度量[1][2][3]

參見

編輯

參考文獻

編輯
  1. ^ Sven Kosub, "A note on the triangle inequality for the Jaccard distance" arXiv:1612.02696頁面存檔備份,存於網際網路檔案館
  2. ^ Lipkus, Alan H, A proof of the triangle inequality for the Tanimoto distance, J Math Chem, 1999, 26 (1-3): 263–265 
  3. ^ Levandowsky, Michael; Winter, David, Distance between sets, Nature, 1971, 234 (5): 34–35, doi:10.1038/234034a0