2019-03-26
快速看下,先了解下推荐系统整个环节,画像是基础,但是是其中一部分。了解下召回,排序 预估等,每一步都做了什么,为什么这么做,然后对应相应的算法,模型
这样比较快,跟后续的工作也衔接起来
在设计词汇表时,需要考虑本体的复用,这是本体知识共享、知识应用增加可行性的重要步骤。
本体构建工具:protege,最终形成一种树状结构,通过树结构清晰的体现了领域概念间的类属关系,每一个子树都对应领域中独立的、模块化的知识模型。
对象属性主要用来约束两个类实例间的关系,定义域为类,值域为某个类的实例,数据属性约束类的实例,定义域为某个类的实例,值域为布尔型、字符串型、整型或时间等。
Protégé
软件是斯坦福大学医学院生物信息研究中心基于Java语言开发的本体编辑和知识获取软件,或者说是本体开发工具,也是基于知识的编辑器,属于开放源代码软件。这个软件主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具。
如果类和属性时本体的“骨骼”,实例则是本体的“血肉”。例如,红高粱时电影类的实例,张艺谋时导演类的实例,姜文时演员类的实例,则红高粱、张艺谋、姜文之间就有关系。
利用protege创建的本体,其数据一般以RDF、OWL、或XML格式的文件形式进行存储。而推荐系统中的数据大多采用关系数据库进行存储,这就使得本体数据无法直接在推荐系统中使用。
群体用户画像分析:用户画像通过将用户标签化,可以实现对用户的精炼概括。在设置推荐系统时,不可能针对所有的用户画像来进行设计。因为不同的用户画像间不可避免存在相互冲突的需求,从而会使得推荐系统难以决断,因此,针对系统中存在的大量的用户画像,就需要实施有效的用户画像管理。
用户画像作为目标用户的标签化,不仅仅用来分析目标用户,还应该包含用户间的关联分析,即群体用户画像分析。群体用户画像分析旨在依据不同的评估维度和模型算法,通过聚类方式将具有相同特征的用户划归成同一族群,进而发现核心的、规模较大的用户群,从而在设计推荐系统时考虑优先满足核心用户群的需求,进一步在不存在冲突的情况下尽量满足次要用户群的需求。通常情况下,一个系统会选取3~6个用户群来代表系统可能会面向的所有用户。可见,群体用户画像技术的出现,能够帮助推荐系统设计人员方便地从海量的用户群体中发现存在的差异化特征,从而根据该差异化特征设计并提供有针对性的产品及服务。
群体用户画像分析的流程主要包括:
1.用户画像获取。可以通过推荐系统的数据统计模块获得。
2.用户画像相似度计算。根据不同的用户画像计算相互间的相似程度,时区分用户群体的重要指标,时开展用户画像聚类的前提条件。
3.用户画像聚类。根据用户画像间的相似程度,将相似的用户画像聚为一类。
4.群体用户画像生成。针对不同类别的用户分别建立有代表性的典型用户画像。
用户画像之间的相似度计算需要结合定量相似度计算和定性相似度来进行计算。
在用户画像相似度的计算过程中,往往会基于多个定量标签的数据来计算相似度,值得主义的是,不同定量标签数值的取值范围可能存在数量级级别的差异,从而使得相似度计算过程中,某些定量标签对综合相似度贡献微乎其微。因此,在计算之前,对不同定量标签的数据进行归一化处理就尤为重要。归一化是物理系统中一种无量纲处理手段。在这里,归一化是将不同取值范围的定量标签数据统一映射到[0,1]区间。常用的归一化方法有线性函数转化、对数函数转换、反正切函数转换等。
线性函数转换为:Y=(X-Xmin)/(Xmax-Xmin)的绝对值。
其中,X Y 分别表示转换前后的值,Xmax Xmin分别表示待转换值的最大值和最小值。
对数函数转换Y等于log以10为底X的对数。
反正切函数转化为Y=atan(X)2/pi
具体的某个定量标签相似度计算:
数值计算应根据具体的用户画像采用不同的计算方式,可以采用欧氏距离、余弦相似度、Jaccard系数等。对于标量标签,通常采用欧式距离、曼哈顿距离和余弦相似度。
定性相似度计算:
定性相似度计算可以从两个方向展开:一个方向是将定性标签映射为定量标签,进而采用定量标签的相似度计算方法;另一个方向是直接采用基于概念的相似度计算方法。
用户画像聚类是根据用户画像本身的特征进行分类的一种方法
用户画像作为一种刻画目标用户,链接用户需求与系统设计的有效工具,已经在各领域得到了广泛的应用。
用户画像的表现形式众多,常见的有:
1.关键词法,即一组代表用户属性的特征词。
2.评分矩阵法,以二维矩阵的行为来表示用户,列表示特征项目,行列的交叉点为某用户对某特征项目的评分。
3.向量空间表示法,给出一组关键词及对应的比重。
4.本体表示法,以本体模型存储用户的属性和关系。
用户画像在不同的应用领域有着不同的具体组成元素,如营销领域的用户画像主要侧重用户的消费习惯,而在视频推荐领域,用户画像则主要侧重用户的观影喜好,因此需要针对用户画像的具体领域及组成设计相对应的用户画像管理方法。从管理实施的流程来看,用户画像管理主要包括存储机制、查询机制及定时更新机制。推荐系统的用户画像的主要目的是辅助完成数据挖掘和分析。
关系型数据库是建立在关系模型基础上的数据库。
查询时推荐系统最常用、最基本的操作,针对上述不同的存储方式有着相应的查询方法。值得注意的是,查询处理的效率在很大程度上决定了推荐系统的性能。因此,为获得高效的查询性能,可以考虑以下几个方面:1.用户画像的用途决定了画像数据主要以查询为主,这就使得用户画像数据的查询强调极高的并发查询性能。并发:是多个任务交替执行,一个接一个的,等待的是同一个资源,并行是多个任务同时进行。2.在涉及用户画像的大量查询中,通常有很多查询都是重复的,很少一部分查询就占了用户需求的大部分。如果能够通过某些方法提高这少部分经常出现的查询词的质量,就能使整体的查询性能提高不少。
一个简单的用户画像库就会有数百个特征标签,其中有些特征标签是固定不变的,有些是定期变化的,因此,有效的用户画像需要不断的进行完善和持续更新。
用户画像的更新机制按工作流程主要涉及以下几个问题:
1.如何获取实时变化的用户画像数据。进而根据一定的更新策略,实现用户画像的更新。
2.如何设置合适的用户画像更新触发条件。基于实时的用户画像可以获得更加精确的推荐结果。然而,用户画像的更新具有较大的时间及计算复杂度,因此需要在推荐精确度与更新复杂度间获得均衡。
3.高效的更新算法。用户画像是从海量的用户行为数据分析中得到的,同时用户行为数据又是实时产生的,如何依据这些海量且动态增加的行为数据得到准确的用户画像需要高效的算法。
用户画像时刻画用户属性的基础数据,其中有些是直接获取的原始数据,有些是经过挖掘的二次数据,单纯的数据只是一些字节的堆积,我们必须通过对数据的清洗去除数据中的噪声,然后通过算法和模型学习其中的规律,才能将数据的价值最大化。收集到用户的所有相关数据,并将用户数据划分为静态数据和动态数据两大类。
对于静态数据的获取,其收集方式是显式收集,最直接的方式是通过表单要求用户提供个人信息。
对于动态数据,收集方式是隐士收集,系统会在不干扰用户与推荐系统交互的基础上,从用户的操作行为和上下文信息中获取。
更新触发条件:
1.通过设置一个阈值,当获取的实时画像数据量超过这一阈值,根据存储的画像数据构建用户画像。2.设置一个时间周期,每隔该周期时间根据存储的画像数据构建用户画像。3.首先从增加的数据中挖掘用户画像,然后将其与原先得到的用户画像进行比较,根据比较的结果来决定是否更新。第一种适合数据敏感的型的用户画像,第二种适合时效性要求较高的用户画像,第三种适合相对稳定的用户画像。
比较常见的增量式更新算法是滑动窗口过滤算法。