数据采集09

2022-04-22  本文已影响0人  Nefelibatas

体系评估

在使用用户画像和物品画像时,首先需要对画像体系进行有效性判断,即体系评估,以期达成使用目标。

在对用户画像和物品画像评估时,我们可以基于画像标签的指标分别从准确率、覆盖率、平均标签数、时效性、其他指标等维度进行评定。在这里,我们把用户和物品统称为项目,以下举例皆是以用户画像为主,物品画像为辅。

准确率

准确率是画像标签中最核心的指标,对于体系匹配效果具有决定性意义,比如说我们想找到 58 同城到家精选偏好是 100-200 元的保洁服务的用户,如果标记为 100-200 元的这个用户的标签是错的,那我们找到的用户也肯定是错的。

标签的准确率为被打对标签的项目数除以打上这个标签的项目数,关于准确率的计算方法如下所示:
p = \frac{|U_{tag-true}|}{|U_{tag}|}

覆盖率

覆盖率是画像标签的重要指标之一,是体系匹配效能达成的保证,比如我们还是想找 58 同城到家精选偏好是 100-200元 的保洁服务的用户,如果“100-200 元”这个标签标记的用户只有 3 人,那么这个标签也没有意义,因此标签需要覆盖总体项目的一定比例

关于覆盖率的计算方法是打上该标签的项目数与总项目数之比,其具体计算公式如下所示:

cover = \frac{|U_{tag}|}{|U|}

平均标签数

标签是项目单个维度的反映,因此我们需要给每个项目打上多种标签,只有这样我们才能更全面地理解这个项目,那项目的平均标签数如何定义呢?

关于平均标签数的计算方法是项目的标签总数与被打上标签的项目数之比。
aver = \frac{\sum^n_{i=1}tag_i}{|U|}

其他指标

标签具有唯一性、可读性等其他指标,因这些指标无法给出量化标准,所以在评估时只是用来作为辅助参考,如在 58 同城本地服务中,“货车搬家”“厢货搬家”属于同义标签,因此需要进行统一归一化处理。

特别声明一下:在对画像体系进行评估时,我们需要优先保证画像标签的准确率和覆盖率。

上一篇下一篇

猜你喜欢

热点阅读