Jimmy Blog

Welcome!

相似度评价--《Programing Collective Intelligence》读书笔记

相似度评价

根据对象与其它对象的关系,评价两个对象之间的相似度。又称为紧密度(closeness)。相似度表现了对象之间联系的紧密程度, 是其它算法的基础,例如在聚类算法中,相似度是判断聚类的标准。

相似度算法有很多,其中比较典型的是:欧几里得距离和皮尔逊相关度。还有一个在书后提到的:Tanimoto系数。

欧几里得距离评价(P10)

选取几个对象作为评价的指标,构成坐标轴,其它的对象对评价对象的对应值能够对应到空间的响应位置。距离的定义是(物理距离): \[\sqrt{\sum \Delta x}\]其中,\(\Delta x\)为两点在对应坐标轴上的投影之差。

此方法简单,但缺乏灵活性。

皮尔逊相关度评价(P11)

相较于欧几里得距离评价来说,此方法能够容单个对象评价的倾向性。如对象A和B,A对于每个评价对象的评价都比B稍高,存在“夸大分值”的情况,但是A与B对评价对象的 好和差的评价标准是相同的。 用皮尔逊相关度计算,A和B也能够获得较高的相关度,仍然是拟合的。计算方法见P13。

Tanimoto系数(P47)

此方法在第三章聚类中提到。主要是针对对评价对象只有0和1两种评价值的情况。此时,判断两个对象是否相似,则是通过判断是否对同一个评价对象打了 分。主要是计算两个对象的打分集合的并集和交集。并集集合元素除以交集得到系数。计算方法见P47。

comments powered by Disqus