TGI指数-用户画像和内容偏好
先上概念:
TGI(Target Group Index)指数,是反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势的指数。 TGI指数= [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数100。
总体来说,TGI就是一种多维度相关性并计算出偏好、排名的方法。
01 指标拆解
TGI计算公式中,有三个关键点需要进一步拆解:某一特征,总体,目标群体。
随便举个栗子,假设我们要研究A公司脱发TGI指数:
某一特征,就是我们想要分析的某种行为或者状态,这里是脱发(或者说受脱发困扰)
总体,是我们研究的所有对象,即A公司所有人
目标群体,是总体中我们感兴趣的一个分组,假设我们关注的分组是数据部,那目标群体就是数据部
于是乎,公式中分子“目标群体中具有某一特征的群体所占比例”可以理解为“数据部脱发人数占数据部的比例”,假设数据部有15个人,有9个人受脱发困扰,那数据部脱发人数占比就是9/15,等于60%。
而分母“总体中具有相同特征的群体所占比例”,等同于“全公司受脱发困扰人数占公司总人数的比例”,假设公司一共500人,有120人受脱发困扰,那这个比例是24%。
所以,数据部脱发TGI指数,可以用60% / 24% * 100 = 250,其他部门脱发TGI指数计算逻辑是一样的,用本部门脱发人数占比 / 公司脱发人数占比 * 100即可。
TGI指数大于100,代表着某类用户更具有相应的倾向或者偏好,数值越大则倾向和偏好越强;小于100,则说明该类用户相关倾向较弱(和平均相比);而等于100则表示在平均水平。
刚才的例子中,我们瞎掰的数据部脱发TGI指数是250,远远高于100,看来搞数据的脱发风险极高,数据才是真正的发际线推手。
使用Python计算:https://cloud.tencent.com/developer/article/1522875
02 再看一个栗子
一个例子表示一下我说的公式。假设这个产品用户有100万,70万年轻人,20万中年人,10万老年人。产品里面的功能有两个,工作功能40万用户在用,娱乐功能60万用户在用。我用例子表示一下我说的公式
1.当我想看工作用途的人的特点时,我拿到使用工作功能的40万用户,假设我发现里面的用户分布是,年轻人18万,中年人15万,老年人7万。从直观判断,中年人占比一下子多了,说明工作用途更倾向中年人。年轻人18万,是用工作用途中最多的,但是年轻人基数大,所以工作用途不倾向年轻人。用TGI表示是,中年人(15/40)/(20/100)100=187.5,年轻人(18/40)/(70/100)*100=64.3。
2.当我想看这20万中年人的特点时,我看到15万用工作用途,5万用娱乐用途。用TGI表示是,工作用途(15/20)/(40/100)100=187.5,娱乐用途(5/20)/(60/100)*100=40.3,说明中年人更倾向工作用途。
3.TGI就是对比来看的,对比目标群体和总体的特征差异。
https://zhuanlan.zhihu.com/p/54554462
03 上手计算
踩了几次坑,终于发现最难的其实是首先你定下你要分析是以什么维度分析的。
如图所示(隐藏数字后),这次我要分析的是内容分类的偏好是如何的:
这是一个有关人物属性对应喜欢的内容分类,👈左边我是按照年龄、性别等属性列举下来的,而👆上面则是按照内容的分类
TGI Step1定目标看我的表名:一个是听的特点,第二个是年龄的特点。
TGI Step1定目标在这个听的特点中我的目的其实是看某一种分类下听的人群有什么特点,而年龄的特点则是某一个年龄段他们喜欢什么样的内容类别;我为了看看有什么区别于是两种都做了一下。可以看到我用不同颜色标注的,前一个图其实是纵向对比是纵轴,而后一个图是横向对比横轴。
先看第一个听的特点如何计算:
如果我们想知道比如音乐分类下是什么年龄段的用户,首先总人数是444,先算出每个年龄段的比例各是多少,如图,最多的是18-24,以及25-32的年龄段,各占40%以上。
Step2接着我们算所有选了Music的314个人中,他们在不同年龄比例的分布是多少;
Step3最后,我们把刚才的得到的两个数相除,注意,这里是用后者除以前者,也就是用听音乐的比例除以年龄比例
Step4这样我们就可以看出来其实18-24岁的人群是超过100,超过平均水平的,其他则是低于平均水平。
我们再反过来算第二张表,得到这样的数据:
Step 5也就是说在18-24岁这个年龄段,他们最倾向的内容偏好是娱乐、音乐类,最不倾向足球和宗教。
这样两张表的对比,我们可以确认音乐类是18-24岁的偏爱分类。
再大概说一下第二张表是是怎么算的:
首先还是刚才那些数据,算出喜欢音乐的占所有人的比例314/444=70.72
然后是每一个年龄段选音乐的人占所有人年龄段的比例
最后音乐在年龄的占比/选择音乐在总人数的占比
如果我们想快速通过数据可视化看大于100的数据,可以设置大于100的数才有这个色阶显示,于是再看一下下面两个图:
听的内容特点:纵轴对比 年龄的特点:横轴对比两个图很多相似,最大的不同在于relationship 情感类这个分类,纵向对比小于18岁的人最偏爱这个分类,接着是25-32,和18-24岁。而横向对比的时候18-24和25-32则再没有出现高于平均的情感这个分类,相反,18-24岁主要是娱乐,25-32岁主要是新闻。因此我们可以得出的结论是情感类内容受33岁以下的喜爱,但25-32更偏好的是新闻,18-24更偏好的是娱乐。
以上是我算了好几次之后终于搞懂了的TGI指数,欢迎大家讨论和指正。
另外如果还想看如何用TGI做用户画像可以看下这篇:
https://zhuanlan.zhihu.com/p/54554462