2024-01-02

协同过滤之推荐系统中的相似性探讨

1. 从购物篮到文式图

在常见的购物篮分析中，常常出现这样的数据：

购物篮
A B
B C
A B C
A B
C D
D E
C E

在讨论A和B的相似性的时候，用文式图可以方便的表示：

那么A和B越相似的表现是：

【频繁一项集】A和B的出现次数很多，数据充足有说服力，即频繁一项集大 1.1 count(A) = 3, count(B) = 4，这两个值足够大
【support】A∩B的值很大，数据充足有说服力，表现为重合面积大，即频繁二项集大或者support高 2.1 频繁二项集 = count(A∩B) = 3，这个值越大越好 2.2 support = count(A∩B) / count(ALL) = 3 / 7，这个值越大越好
【jaccard】A∩B的值在A∪B的中占比很大，有A就有B，表现为jaccard相似度高 3.1 jaccard(A, B) = count(A∩B) / count(A∪B) = 3/4 ，这个值越大越好

2. 从文式图到行为关联

文式图应用到推荐往往是条件概率，求在先验下（使用A）后验的概率（使用B）是多少。

同理, （confidence可称conf） conf(A|B) = 3/4

发现， conf(B|A)和conf(A|B)不同，说明conf是非对称的相似度； jaccard(A, B)和jaccard(B, A)相同，说明jaccard是对称的相似度。

【置信度的痛点】但是推荐过程中，使用会出现偏热的现象，是因为后验B太热门导致的。

A是用户的先验（比如是手管的app）； B1是一款热门软件（比如微信）； B2是一款相对冷门的软件（比如同步助手）；

可以发现由于B1的体量太大，导致conf(B1|A)很大；由于B2的体量较小，导致conf(B2|A)偏小；但是明显应该推荐B2，因为B2都快和A重合进去了，应该对B1的体量进行惩罚。

【提升度】提升度是置信度B1体量惩罚的其中一种方法，含义为：

lift(B|A) = conf(B|A) / P(B) = p(A∩B) | (P(A) * P(B)) = count(A, B) * ALL / (count(A) * count(B)) = ( 3 乘 7 ) / (3 乘 4) = 21/12

其中， lift等于1，表示先验知识A的知道与否对B的概率没有影响。 lift大于1，表示促进作用； lift小于1，表示抑制作用；

发现， lift(A|B)=lift(B|A)，即lift是对称的。

又发现， lift公式和cos很相似，对比下两者： cos(A, B) = p(A∩B) / sqrt( P(A) * P(B) )； lift(A, B) = p(A∩B) / ( P(A) * P(B) ) 差别仅仅在于一个sqrt，所以cos又被称作，harmonized lift，因为化简后， cos = count(A, B) / sqrt( count(A) * count(B) ) lift = count(A, B) * ALL / (count(A) * count(B)) 所以lift和ALL相关，而cos和ALL无关，只关心A和B，不关心外界。

【总结】在实际应用中，一般需要如下步骤：