【连载】2.2 策略产品发现问题 - 搭建监控系统
监控是一种针对相对稳定的产品,通过对数据性指标的收集和观察,自动、实时发现问题的有效手段。
监控体系的搭建分两步:
首先定义监控指标,告诉机器观察哪些指标;
其次定义报警规则,根据重要程度高低采取相应方式进行报警
1.定义监控指标 - 产品框架拆解
举个例子:
百度搜索用户操作的行为定为白盒,后台提供的逻辑服务用户看不到定为黑盒部分
1.1 效果监控:针对产品的白盒部分,监控用户的体验,即产品的核心目标。该指标发生异常变化时需要重点即刻关注
例:百度搜索中的 “图片类结果”
覆盖情况:当用户表达图片类需求是,产品展现在搜索结果中
满足效果:当用户看到该特性结果时,产生了点击或其他代表满足的行为
a. 覆盖情况
b. 满足效果
1.2 策略监控:针对产品的黑盒部分,监控某个策略的运转情况,对象为各类中间指标。该指标经常受到某个项目的迭代影响,监测作用大于监控
例:百度搜索中的 “图片类结果”
a.需求识别策略
如何衡量需求识别策略的效果?理想情况是覆盖程度和准确程度,但事实上机器时无法判断出自己的准确程度只能用 [识别到了多少]衡量
监控指标:
覆盖率 = 识别为图片需求的流量 / 网页搜索总流量
需求强度分布:强中弱的比例 * 图片需求 (根据文本区分强弱,比如吴亦凡图片为强、吴亦凡为中、中国有嘻哈为弱)
b.检索策略
如何衡量检索策略的效果?通过检索结果的质量来衡量
监控指标:相关性打分=每个搜索词对应结果的相关性打分均值
c.展现策略
如何衡量展现策略的效果?监控各种样式展示的表现:样式比例、点击率
2.定义报警规则
根据产品历史数据得到正常波动区间,在正常区间外即发起报警给相关负责人。
2.1 界定正常波动区间
数据敏感度:波动是否超过历史波动范围
三西格玛理论:波动范围在 ±3(标准差)
2.1 评估指标的重要程度
举个例子:
今日头条生物科技新闻<娱乐类,抓取<展现
2.3 报警时间维度 - 小时级监控(阈值高、紧急程度较高),天级监控(阈值低、紧急程度一般)
2.4 异常情况报警处理方式
3. 局限性
考虑到准确性,监控覆盖的精度(策略意义上的召回率)有限。
监控虽然可以帮助发现异常,但是通常不能直接定位问题,最终依然需要人工手段确认最后的问题
4.小结
对于任何一个复杂的策略系统,人工去排查每一个模块给用户带来的影响,是一种非常不经济的方式。所以线上监控作为一种自动、实时、针对效果的问题发现方法,日趋重要。